Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

  • View
    232

  • Download
    0

  • Category

    Science

Preview:

Citation preview

Analyse linguistique de grands corpus d’écrits scolairesproblèmes de transcription, d’annotation et de traitement

Journée d’études organisée par le groupe Ecriture Scolaire du laboratoire Clesthia (EA 7345)Mercredi 18 mars 2015

Consortium Corpus-écrits

SIG TEI-CMC

Open Resources and TOols for LANGuage

http://comere.orghttp://hdl.handle.net/11403/comere

Thierry Chanier

Objective: Kernel corpus assembling existing corpora of different CMC

genres and new corpora build on data extracted from the Internet. These

heterogeneous corpora will be structured and processed in a uniform way,

complemented with metadata. CoMeRe will be released as OpenData

through the national infrastructure Ortolang, following constraints which will

be reused for the forthcoming “Corpus de Référence du Français”.

Project supported by the national

consortium Corpus-écrits, sub-part of

Huma-Num, and Ortolang (French

correspondant to DARIAH)

Variety + Standards + Open Access

Consortium Corpus-écrits

3

4

Ref Tokens Partici. Posts, <u>, <prod> Envir.

(Antoniadis,2014) 449 313 359 22 052 SMS

(Falaise, 2014) 35 M 25 000 3 M textchat

(Ledegen, 2014) 357 000 850 22 000 SMS

(Reffay et al., 2014) 600 000 67 + 4 groups- textchat: 6 790- emails: 2 030 - forums: 2 686

LMS

(Yun, Chanier, 2014) 77 605 31 + 2 courses 7 750 textchat

(Abendroth et al., 2014)

273 546 26 + 4 groups 1 200 Blog

(Longhi et al., 2014) 567 851 205 34273 Tweet

(Poudat et al., 2015)489 000 discussions + 330 Mo art.

3 971 4456 (discussions)Wiki discussions

(Chanier & Audras, 2015)

184 594 62 + 12 groups

-2809 audio acts, -248 chat acts, - 1058 nonverbal acts, -779 blog messages

Audiographic conference

(Chanier & Wigham, 2015)

27 912 18 + 4 groups- 1690 audio acts,- 669 chat acts, - 2452 nonverbal acts

3D env.

(Chanier, 2015) 127 228 16 + 2 groups- 7718 audio acts,- 1566 chat acts,- 5790 nonverbal acts

Audiographic conference 5

informalbusiness

informal

informal

education

education

education

education

education

science

education

politic

6

ServeurLocal LRL

Dépositeur individuel

Ingénieur :Kun Jin

Groupe qualité

Discussion avecdépositeur

Groupe étiquetageTAL : TEI-v2

TEI-V1

7

La diffusion des corpus et surtout la possibilité de longues recherches futures dépend des choix de départ

9

1) garantir l'accès ouvert aux données / corpus

10

l'utilisateur est autorisé à télécharger une copie du corpus […]

• la réutilisation (reproduction, diffusion) de parties non substantielles du corpus XXX est

autorisée […]

• la réutilisation est soumise à la condition de citer in extenso, à titre de crédits : […]

• la réutilisation (reproduction, diffusion) de parties substantielles du corpus XXX n'est pas

permise sur le fondement de la présente licence d'utilisation.

Je consens aux présentes conditions d'utilisation (obligatoire pour avoir accès au corpus)

Ce corpus, diffusé par Huma-Num, est présenté comme étant en accès libre (OA)

Regarder sans pouvoir réutiliser?

11

12

Collecte des données

Contrats de consentement

éclairé

ou

Licence d'utilisationsur données récoltées

Anonymisation

- Préserver informations essentielles- Identifier utilisateur sur toute la banque de corpus

Poser licenced'utilisation

13

14

15

Images, audio, vidéo, etc.

Exemple sur Ortolang

Exemple sur Mulce

16

Données

Corpus version V1

Corpus version V2

17

18

<teiheader>

<text>

19

<teiheader>

20

OLAC keywords

DiscourseGenreType of interaction

21

The IRC textchat

Types of acts within this Specific IRC

Subtypes of « event »

22

23

ImportantInformation for researchpurposes canbe described

24

<text>

25

Individual, informalcontext

Individual, educational context

Group with 4 status/ roles

26

27

Titlelabel

comment

message

Contents/ body

28

Response to what?

Sent to whom?Read by whom?

May containHTML,Table,etc.

Attached doc

29

30

Recommended