36
Introduction à la Introduction à la linguistique de corpus linguistique de corpus De la définition, De la définition, élaboration et élaboration et application des corpus application des corpus dans l ’étude des langues dans l ’étude des langues naturelles naturelles

Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Embed Size (px)

Citation preview

Page 1: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Introduction à la Introduction à la linguistique de corpuslinguistique de corpus

De la définition, élaboration et De la définition, élaboration et application des corpus dans application des corpus dans

l ’étude des langues l ’étude des langues naturellesnaturelles

Page 2: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

ConcordancesConcordances

LDP terms don't allow modification ( other than translation), modified ver sions can

I said that there had to be something better than xmag, well this is it. See section

way of this. If you are using a Kernel newer than 1.3.75, just type linux no-scroll at

included it, so if you get a version later than 740, you probably won't have to do

patch. This does not apply to kernels earlier than 1.3.75. *** console.c~ Fri Mar 15

Braille Lite This is more a portable computer than a terminal. It could, however, be used

Page 3: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

DéfinitionDéfinition 1981: Sinclair,1981: Sinclair,Corpus, Corpus,

Concordance,CollocationConcordance,Collocation = Ouvrage = Ouvrage définitoire de la linguistique de corpus: définitoire de la linguistique de corpus: env. 15 ans après l’apparition des env. 15 ans après l’apparition des premiers corpus informatisés tels que le premiers corpus informatisés tels que le Survey of English UsageSurvey of English Usage ou le ou le Brown Brown CorpusCorpus

Collecte, annotation et utilisation de Collecte, annotation et utilisation de corpus de langue parlée ou écrite pour corpus de langue parlée ou écrite pour étudier les phénomènes de la langue à étudier les phénomènes de la langue à l'aide de logiciels d'interrogation ne l'aide de logiciels d'interrogation ne nécessitant pas de connaissances nécessitant pas de connaissances informatiques approfondies.informatiques approfondies.

Page 4: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Domaines connexesDomaines connexes

En anglais: distinction entre Corpus En anglais: distinction entre Corpus linguistics, computational philology, linguistics, computational philology, computational linguistics, language computational linguistics, language engineering.engineering.

En français: on parle surtout de En français: on parle surtout de traitement automatique du langage traitement automatique du langage (TAL). (TAL). Il y a parfois confusion entre TAL et Il y a parfois confusion entre TAL et linguistique de corpus.linguistique de corpus.

Page 5: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Définition des trois autres Définition des trois autres disciplinesdisciplines

"Philologie computationnelle": L'utilisation "Philologie computationnelle": L'utilisation de matériau textuel sur support électronique de matériau textuel sur support électronique afin d'étudier les phénomènes linguistiques afin d'étudier les phénomènes linguistiques et l'enseignement des langues.et l'enseignement des langues.

Traitement automatique du langage: Traitement automatique du langage: l'analyse et la modélisation automatiques du l'analyse et la modélisation automatiques du langage en utilisant des langages de langage en utilisant des langages de programmation.programmation.

Ingénierie linguistique: la création et Ingénierie linguistique: la création et l'application de corpus dans des logiciels de l'application de corpus dans des logiciels de traitement du langage, tels que la traitement du langage, tels que la traduction automatique, etc.traduction automatique, etc.

Page 6: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

La linguistique de corpus La linguistique de corpus et la linguistiqueet la linguistique

Approche IA vs Approche Approche IA vs Approche probabilisteprobabiliste

Page 7: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Deux facteurs: l’œuf et la Deux facteurs: l’œuf et la poulepoule

Position théorique: décrire la Position théorique: décrire la langue au niveau de la langue au niveau de la performanceperformance

Disponibilité croissante de Disponibilité croissante de documents sur support documents sur support électronique, ainsi que d’outils de électronique, ainsi que d’outils de manipulation des donnéesmanipulation des données

Page 8: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Deux « camps »Deux « camps »

Linguistique de corpus / approche Linguistique de corpus / approche probabilisteprobabiliste

Grammaire générative / approche IAGrammaire générative / approche IA

Page 9: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Approche probabilisteApproche probabiliste

Basée sur des propriétés Basée sur des propriétés statistiques du langagestatistiques du langage

S ’appuie sur des données S ’appuie sur des données authentiquesauthentiques extraites de tous extraites de tous les domaines du discoursles domaines du discours

Page 10: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Le courant générativisteLe courant générativiste

N. Chomsky: N. Chomsky: Syntactic Structures Syntactic Structures l ’intuition du locuteur natifl ’intuition du locuteur natif rejet des corpusrejet des corpus

TALTAL Intelligence ArtificielleIntelligence Artificielle psychologie cognitivepsychologie cognitive

Page 11: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Noam ChomskyNoam Chomsky

1957: 1957: SyntacticSyntactic StructuresStructures, The , The Hague: Mouton, p. 159Hague: Mouton, p. 159

Any natural corpus will be skewed. Any natural corpus will be skewed. Some sentences won’t occur Some sentences won’t occur because they are obvious […], because they are obvious […], false, […] impolite. […]the false, […] impolite. […]the description […] would be no more description […] would be no more than a mere list.than a mere list.

Page 12: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Systèmes « jouets »Systèmes « jouets »

Whatever is linguistic is interestingWhatever is linguistic is interesting A ticket was bought by every manA ticket was bought by every man The man with the telescope and The man with the telescope and

the umbrella kicked the ballthe umbrella kicked the ball Hans bekommt von dieser Frau ein Hans bekommt von dieser Frau ein

BuchBuch Maria è andata a Roma con AnnaMaria è andata a Roma con Anna

Page 13: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Fillmore: Fillmore: The corpus The corpus linguistlinguist

He has all the primary facts that he He has all the primary facts that he needs, in the form of a corpus of needs, in the form of a corpus of approximately one zillion running approximately one zillion running words, and he sees his job as that of words, and he sees his job as that of deriving secondary facts from his deriving secondary facts from his primary facts. At the moment, he is primary facts. At the moment, he is busy determining the relative busy determining the relative frequencies of the eleven parts of frequencies of the eleven parts of speech for the first word of a sentence speech for the first word of a sentence versus the second word of a sentenceversus the second word of a sentence

Page 14: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Fillmore: Fillmore: The armchair The armchair linguistlinguist

He sits in a deep soft armchair, with He sits in a deep soft armchair, with his eyes closed and his hands his eyes closed and his hands clasped behind his head. Once in a clasped behind his head. Once in a while he opens his eyes, sits while he opens his eyes, sits abruptly shouting, ‘Wow, what a abruptly shouting, ‘Wow, what a neat fact!’, grabs his pencil, and neat fact!’, grabs his pencil, and writes something down… having writes something down… having come close to knowing what come close to knowing what language is really like.language is really like.

Page 15: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Guerre de territoireGuerre de territoire

Plus personne ne nie la nécessité des corpus Plus personne ne nie la nécessité des corpus en lexicologie et terminologie…en lexicologie et terminologie…

… … en syntaxe et sémantique, les deux en syntaxe et sémantique, les deux écoles survivent:écoles survivent:

Les jugements portés par les locuteurs natifs Les jugements portés par les locuteurs natifs sur la grammaticalité d’une phrase vs sur la grammaticalité d’une phrase vs toute description doit se fonder sur des toute description doit se fonder sur des faits observablesfaits observables

=> Incidences sur la position par rapport => Incidences sur la position par rapport aux stuctures figées vs libres dans la aux stuctures figées vs libres dans la languelangue

Page 16: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Tournant en TALTournant en TAL

Besoins très vastes en données Besoins très vastes en données lexicales et syntaxiqueslexicales et syntaxiques

Description syntaxique très préciseDescription syntaxique très précise Extraire les informations Extraire les informations

directement des données directement des données authentiquesauthentiques

Analyses quantitativesAnalyses quantitatives

Page 17: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

I. DéfinitionI. Définition

Qu’est-ce qu ’un corpus?Qu’est-ce qu ’un corpus?

Page 18: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

CorpusCorpus

Ensemble de textes dans une base de Ensemble de textes dans une base de données sur support données sur support électroniqueélectronique......

Ensemble structuré de textes Ensemble structuré de textes assemblés assemblés spécifiquementspécifiquement pour pour l l ’analyse’analyse linguistiquelinguistique......

VasteVaste ensemble de textes... ensemble de textes... Ensemble de textes Ensemble de textes représentatifsreprésentatifs

du langage en général...du langage en général...

Page 19: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Mais...Mais...

Historiquement, les premiers corpus Historiquement, les premiers corpus n’existaient même n’existaient même pas sous pas sous forme électroniqueforme électronique..

Un corpus pouvant servir à l’étude Un corpus pouvant servir à l’étude linguistique n’a pas linguistique n’a pas forcémentforcément été rassemblé dans ce but.été rassemblé dans ce but.

Page 20: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

De plus...De plus...

Un corpus Un corpus n’a pas forcément n’a pas forcément besoin d ’être gigantesquebesoin d ’être gigantesque, ni , ni de constituer un échantillon de constituer un échantillon représentatif de toute la langue.représentatif de toute la langue.

Sa taille et son contenu dépendent Sa taille et son contenu dépendent de l de l ’usage’usage que l’on veut en faire. que l’on veut en faire.

Page 21: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Un corpus peut être Un corpus peut être composé de:composé de:

Texte completTexte complet Ensemble de textes completsEnsemble de textes complets Echantillons extraits de textes Echantillons extraits de textes

completscomplets Ensembles de citationsEnsembles de citations DictionnaireDictionnaire Gigantesque archive non structurée Gigantesque archive non structurée

de textesde textes

Page 22: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Archives et Bases de Archives et Bases de donnéesdonnées

Corpus : compilation Corpus : compilation systématiquesystématique et et structuréestructurée

archive: assemblage archive: assemblage gigantesquegigantesque, , nonnon structuréstructuré de textes de textes généralement récoltés un peu généralement récoltés un peu au au hasardhasard

Page 23: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Une archive est composée Une archive est composée dede

Les oeuvres complètes d’un ou de Les oeuvres complètes d’un ou de plusieurs auteursplusieurs auteurs

Tous les numéros d ’un journal sur Tous les numéros d ’un journal sur une ou plusieurs annéesune ou plusieurs années

Tous les textes connus d’une Tous les textes connus d’une période historique particulièrepériode historique particulière

Peut être utilisée dans les mêmes Peut être utilisée dans les mêmes buts qu’un corpusbuts qu’un corpus

Page 24: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Définitions par les expertsDéfinitions par les experts

Sinclair 1994:Sinclair 1994:

A collection of pieces of language A collection of pieces of language that are selected and ordered that are selected and ordered according to explicit linguistic according to explicit linguistic criteria in order to be used as a criteria in order to be used as a sample of the languagesample of the language

Page 25: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Experts IIExperts II

Francis 1992:Francis 1992:

a collection of texts assumed to be a collection of texts assumed to be representative of a given representative of a given language, dialect, or other subset language, dialect, or other subset of language, to be used for of language, to be used for linguistic analysislinguistic analysis

Page 26: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Experts IIIExperts III

Mc Ennery and Wilson 1996:Mc Ennery and Wilson 1996:

(1) (loosely) any body of text; (2) (1) (loosely) any body of text; (2) (most commonly) a body of (most commonly) a body of machine-readable text; (3) (more machine-readable text; (3) (more strictly) a finite collection of strictly) a finite collection of machine readable text, sampled to machine readable text, sampled to be maximally representative of a be maximally representative of a language or varietylanguage or variety

Page 27: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Donc...Donc...

Un corpus est sélectionné et assemblé Un corpus est sélectionné et assemblé à l’aide de critères explicites. à l’aide de critères explicites.

Il est stocké sous forme électronique. Il est stocké sous forme électronique.

L’usage pour lequel le corpus est L’usage pour lequel le corpus est prévu, peut parfois, plutôt que sa prévu, peut parfois, plutôt que sa conception, servir à définir ce qu’est conception, servir à définir ce qu’est un corpus.un corpus.

Page 28: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Corpus pré-électroniquesCorpus pré-électroniques

Un peu d’histoire…Un peu d’histoire…

Page 29: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Tradition d’études de Tradition d’études de corpuscorpus

Biblique ou littéraireBiblique ou littéraire LexicologieLexicologie DialectologieDialectologie Enseignement des languesEnseignement des langues Grammaire descriptiveGrammaire descriptive

Page 30: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

La BibleLa Bible

1736 Alexander Cruden publie la 1736 Alexander Cruden publie la première édition de concordancespremière édition de concordances– mots à contenu sémantique pleinmots à contenu sémantique plein– mots grammaticauxmots grammaticaux– mots composé (mots composé (how long, how how long, how many) many)

et expressions figées ? et expressions figées ? (all the (all the nationsnations)) (collocations(collocations))

Sur le même modèle: Oeuvres Sur le même modèle: Oeuvres littéraires (Shakespeare)littéraires (Shakespeare)

Page 31: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

LexicographieLexicographie

Début du 17e en Grande-Bretagne:Début du 17e en Grande-Bretagne:Dictionary of the English LanguageDictionary of the English Language: 40 : 40

000 entrées, 150 000 citations sur 000 entrées, 150 000 citations sur fichesfiches

Oxford English DictionaryOxford English Dictionary: environ 70 : environ 70 ans, dernier volume en 1928ans, dernier volume en 1928Oeuvres littéraires remontant jusqu ’à Oeuvres littéraires remontant jusqu ’à

l’an mille:l’an mille:

414 825 entrées, 5 millions de citations414 825 entrées, 5 millions de citations

Page 32: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

DialectologieDialectologie

Récolte systématique de données du Récolte systématique de données du langage parlé langage parlé

Textes écrits dans les variantes ou Textes écrits dans les variantes ou patoispatois

1921-1926: 1921-1926: Dictionnaire historique du Dictionnaire historique du parler neuchâtelois et suisse romandparler neuchâtelois et suisse romand

= premier dictionnaire différentiel = premier dictionnaire différentiel scientifique de la francophoniescientifique de la francophonie

Page 33: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

L’enseignement des L’enseignement des langueslangues

Käding (1890): 11 millions de mots : Käding (1890): 11 millions de mots : informations statistiques sur la informations statistiques sur la fréquence d’apparition de lettres et fréquence d’apparition de lettres et de séquences de lettres => de séquences de lettres => améliorer les performances des améliorer les performances des sténographessténographes

Thorndike 1921 et 1944 (avec Lorge): Thorndike 1921 et 1944 (avec Lorge): de 4,5 à 18 millions de mots: listes de de 4,5 à 18 millions de mots: listes de fréquences => enseignement de fréquences => enseignement de l ’anglais aux natifs et non natifsl ’anglais aux natifs et non natifs

Page 34: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

Grammaire descriptiveGrammaire descriptive

Jespersen: journaux et romansJespersen: journaux et romans Fries: précurseur en linguistique Fries: précurseur en linguistique

descriptive et sociolinguistiquedescriptive et sociolinguistique– 1940: 1940: American English GrammarAmerican English Grammar

(lettres envoyées au gouvernement (lettres envoyées au gouvernement des E.-U., toutes origines socio-des E.-U., toutes origines socio-culrturelles)culrturelles)

– 1952: 1952: The Structure of EnglishThe Structure of English retranscriptions de conversations retranscriptions de conversations téléphoniques enregistréestéléphoniques enregistrées

Page 35: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

ObjectifsObjectifs

Corpus généraux ou à objectifs Corpus généraux ou à objectifs générauxgénéraux

corpus équilibréscorpus équilibrés corpus spécialiséscorpus spécialisés

– corpus d ’entrainementcorpus d ’entrainement– corpus de testcorpus de test– corpus régionaux, de dialectes, non corpus régionaux, de dialectes, non

standardstandard– corpus d ’apprenantscorpus d ’apprenants

corpus écrits vs de langue parléecorpus écrits vs de langue parlée

Page 36: Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

.. Corpus écritCorpus écrit Corpus de langue parléeCorpus de langue parlée Corpus échantillonnéCorpus échantillonné Corpus annoté vs non annoté Corpus annoté vs non annoté

(données brutes)(données brutes) corpus statique vs dynamique corpus statique vs dynamique

(moniteur)(moniteur) corpus saturécorpus saturé