1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

Embed Size (px)

Text of 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de...

  • Page 1
  • 1 Les Donnes Textuelles Qu'est-ce qu'un corpus, corpus quilibr, monitor corpus, corpus de rfrence, exemples dutilisation. Exemples de corpus textuels : le British National Corpus PAROLE Franais, Le Monde Les corpus tiquets et analyss - corpus syntaxiques Penn Treebank www.cis.upenn.edu/~treebank Corfrans www-rali.iro.umontreal.ca/corfrans NEGRA corpus -corpus smantiques Framenet www.icsi.berkeley.edu/~framenet PropBank
  • Page 2
  • 2 Corpus Dfinition : Une collection quelconque de plus d'un texte Proprits : reprsentatif, de taille finie, lisible par une machine Rfrence standard Utilisations : Lexicographietablir si un verbe est transitif Utilisations : Dveloppement de grammairedterminer la couverture de la grammaire, les erreurs les plus frquentes.
  • Page 3
  • 3 Corpus Le page suivantes sur lcahntillonage et lutilisations des corpus sont tir des ouvrages Benot Habert, Adeline Nazarenko, et Andr Salem, Les linguistiques de corpus, Armand Colin Tony Mc Enery et Andrew Wilson, Corpus Lingusitics, Edinburgh Press
  • Page 4
  • 4 Corpus quilibrs En principe, une collection de plus d'un texte peut tre appele un corpus. Cependant, le terme corpus possde en gnral des connotations plus spcifiques. Le corpus doit tre reprsentatif. Afin quune collection de textes soit reprsentative, elle doit tre chantillonne de faon quilibre. La mthode la plus utilise est la mthode d'chantillonnage stratifie, o l'on cre une collection quilibre de textes distribus uniformment travers les genres (roman, journal, discours politique, etc.) et les modalits (crite, orale) qui intressent. Le corpus doit tre de taille finie dfinie l'avance. On parle alors de corpus ferm. D'habitude, les corpus sont des collections des textes fixes l'avance, afin d'assurer que l'quilibre et la reprsentativit soient respects. Un corpus doit tre lectronique (machinereadable) pour permettre des recherches et des manipulations rapides large chelle.
  • Page 5
  • 5 Corpus quilibrs D'un point de vue statistique, on peut considrer un corpus comme un chantillon d'une population (d'vnements langagiers). Comme tout chantillon, un corpus est passible de deux types d'erreurs statistiques qui menacent la gnralit des rsultats l'incertitude (random error) la dformation (bias error) L'incertitude survient quand un chantillon est trop petit pour reprsenter avec prcision la population relle. Une dformation se produit quand les caractristiques d'un chantillon sont systmatiquement diffrentes de celles de la population que cet chantillon a pour objectif de reflter.
  • Page 6
  • 6 Exemples derreurs Incertitude Un extrait de 2 000 mots d'une interview de George Bush ne permet pas d'extrapoler et d'en tirer des conclusions sur l'interaction journaliste-homme politique. Dformation Si on utilise que les articles de la seule rubrique Economie du Monde, quel que soit le volume textuel rassembl, on risque de dboucher sur une image dforme du franais.
  • Page 7
  • 7 chantillonnage Pour atteindre une diversit maximale de situations de communication dans un corpus de rfrence on procde souvent une dmarche d'chantillonnage. L'chantillonnage touche la fois le choix des documents intgrer et la partie de ces documents conserver. On essaye d'quilibrer en taille les chantillons retenus -- de taille limite (de 2'000 40'000 mots) --, et ne pas retenir des empans de texte continus, de manire ne pas risquer de sur-reprsenter des lieux du texte aux caractristiques particulires (l'introduction par exemple). Ce saucissonnage rend par contre impossible l'tude des changements de corrlations de traits linguistiques au fil des textes (tude longitudinale).
  • Page 8
  • 8 Corpus de contrle (monitor corpus) Il existe aussi un autre type de corpus, le corpus de contrle, qui n'est pas de taille finie, mais plutt il croit au fur et mesure. Un corpus de contrle est un corpus auquel on ajoute tout le temps des textes. C'est un corpus ouvert. Cela est trs utile en lexicographie pour chercher les nologismes, mais on ne peut plus garantir que le corpus restera quilibr. La recherche scientifique courante o l'on utilise le Web en tant que corpus rentre dans ce cas de figure.
  • Page 9
  • 9 Corpus de rfrence On parle de corpus de rfrence lorsque un corpus devient reprsentatif de la langue- un certain moment historique, - pour une certaine langue, - dans une certaine modalit. Un corpus de rfrence est conu pour fournir une information en profondeur sur une langue. Il vise tre suffisamment grand pour reprsenter toutes les varits pertinentes de cette langue et son vocabulaire caractristique, de manire pouvoir servir de base des grammaires, des dictionnaires et d'autres usuels fiables. Il s'agit donc d'associer troitement deux caractristiques : une taille suffisante et la diversit des usages reprsents. Par exemple, le Brown Corpus est le corpus de rfrence de l'anglais Amricain crit, le British National Corpus est le corpus de rfrence de l'anglais Britannique crit et oral.
  • Page 10
  • 10 Utilisations en lexicographie Les lexicographes ont utilises des corpus, ou des ensembles de citations, bien avant que la linguistique de corpus ne se dveloppe (voir par exemple le clbre dictionnaire de Samuel Johnson, de mme que lOxford English Dictionary). prsent, l'existence de larges collections de textes et la possibilit de les consulter et manipuler trs rapidement est en train de changer la pratique de la lexicographie. D'habitude, les lexicographes compilent les entres d'un dictionnaire sur la base de leurs propres intuitions et d'une collection d'exemples qu'ils collectent la main (ils utilisent des fiches d'exemples). Un corpus peut ajouter de l'information supplmentaire.
  • Page 11
  • 11 Utilisations en lexicographie Par exemple, Atkins and Levin se sont occups de certaines verbes dans la mme classes que le verbe shake (trembler). Elles ont consult le LDOCE (Oxford's Advanced Learner's Dictionary) et COBUILD. Les deux dictionnaires indiquaient que les verbes quake et quiver sont toujours intransitifs (n'ont pas de COD). Par contre, si on consulte un corpus de 50 millions de mots, on trouvera que les deux verbes peuvent tre utiliss dans la forme transitive.
  • Page 12
  • 12 Utilisations en thorie linguistique Les corpus sont important pour la recherche linguistique au niveau des phrases et de la syntaxe, car, d'un ct, ils fournissent des informations quantitatives, et, de l'autre ct, ils sont des rservoirs d'exemples naturels de l'usage de la langue. Ils peuvent tre utiliss comme ressources pour tester une thorie grammaticale donne. Pour illustrer le deuxime point, voici un exemple.
  • Page 13
  • 13 Corpus et thorie linguistique Sampson (1987) analysa manuellement un ensemble de syntagmes nominaux. Il arriva la conclusion qu'une grammaire gnrative ne pouvait pas tre utilise pour analyser des donnes textuelles, car il y a trop de constructions diffrentes. Taylor,Grover et Briscoe (1989) contredirent cette hypothse, l'aide d'un analyseur syntaxique, base sur une grammaire. Leur analyseur marche correctement dans 96.88 % de cas. Les cas incorrectes sont facilement analysable comme lacune de couverture de la grammaire, et ils ne sont pas de cas isols. La conclusion est que une grammaire gnrative peut, en principe, rendre compte des phnomnes naturels des donnes textuelles.
  • Page 14
  • 14 Le British National Corpus Plusieurs projets de constitution de corpus de rfrence ont t mens bien aux tats-Unis : corpus Brown; et en Angleterre : corpus Lancaster-Oslo/Bergen (LOB). Rappel : Il s'agit d'associer troitement deux caractristiques une taille suffisante la diversit des usages reprsents. Le BNC compte 100 millions de mots tiquets. Il mle oral (10 %) et crit (textes de fiction partir de 1960 et textes informatifs partir de 1975).
  • Page 15
  • 15 The British National Corpus : les usages En ce qui concerne l'crit, les variables prises en compte sont le domaine (textes informatifs et textes de fiction), le support (livres, priodiques, discours), la datation et la diffusion (slection parmi les listes des meilleures ventes, celles de prix littraires, les indications de prts en bibliothque, etc.). L'accent mis sur la diffusion relle certifie la reprsentation d'usages majeurs de l'anglais. Pour l'oral, des conversations spontanes ont t recueillies partir d'un chantillonnage dmographique en termes d'ge, de sexe, de groupe social et de rgion. Ont t galement intgres des transcriptions d'interactions orales typiques dans divers domaines : affaires (runions, prises de parole syndicales, consultations mdicales ou lgales); ducation et information (cours et confrences, informations radio-tlvises); prises de parole publiques (sermons, discours politiques, discours parlementaires et lgaux); loisirs (commentaires sportifs, runions de clubs).
  • Page 16
  • 16 Le corpus compte 100106008 de mots, et il occupe 1,5 gigaoctets despace disque. Pour vous donner une perspective, si on imprimait le corpus en petite police sur papier trs fin (comme livre de poche) il occuperait 10 mtres dtagre. (Un livre de poche habituel consiste en 250 pages pour chaque centimtre dpaisseur, et il a 400 mots par page.) Si on le lisait haute voix, la vitesse plutt rapide de 150 mots par minute, 8 heures par jour, 365 jours par an, il nous faudrait un peu plus de 4 ans pour le lire entirement. Il y a 6 million 250 milles phrase dans le corpus. La segmentation et ltiquetage ont t fait automatiquement avec le tagger stochastique CLAWS dvelopp luniversit de Lancaster. On utilise 65 partie du discours. T