Www.atilf.fr Pour une lexicographie fermement pilotée par la lexicologie : les projets en...

Preview:

Citation preview

www.atilf.fr

Pour une lexicographie fermement pilotée par la lexicologie : les projets en linguistique

historique française et romane du laboratoire ATILF de Nancy

30 mai 2011eva.buchi@atilf.fr

Analyse et Traitement Informatique de la Langue Française

Sommaire

1. Caractérisation générale2. Dictionnaire du Moyen Français (DMF)

2.1. Cœur du dispositif : le dictionnaire2.2. Portail de référence pour l’étude du moyen français

3. Critique métalexicographique3.1. Base des mots fantômes3.2. Bibliographie Godefroy

4. TLF-Étym (Trésor de la Langue Française et étymologie)

5. Französisches Etymologisches Wörterbuch (FEW)6. Dictionnaire Étymologique Roman (DÉRom)7. Conclusion

Analyse et Traitement Informatique de la Langue Française

Équipe « Linguistique historique »

Linguistique historique française et romane Recherches fondamentales : lexicologie,

lexicographie, métalexicographie, syntaxe historiques françaises, galloromanes et romanes

Projets lexicographiques Méthodologie largement commune,

mutualisation des ressources documentaires, développement informatique cohérent

Élaboration ou mise à jour de dictionnaires de référence (DMF, TLF-Étym, FEW, DÉRom)

Lexicographie en tant que mode d’exposition

Analyse et Traitement Informatique de la Langue Française

1. Caractérisation générale2. Dictionnaire du Moyen Français (DMF)

2.1. Cœur du dispositif : le dictionnaire2.2. Portail de référence pour l’étude du moyen français

3. Critique métalexicographique3.1. Base des mots fantômes3.2. Bibliographie Godefroy

4. TLF-Étym (Trésor de la Langue Française et étymologie)

5. Französisches Etymologisches Wörterbuch (FEW)6. Dictionnaire Étymologique Roman (DÉRom)7. Conclusion

Analyse et Traitement Informatique de la Langue Française

Dictionnaire du Moyen Français

IIIe Colloque international sur le moyen français (1980)

1330–1500 Dirigé par Robert Martin (1982–2000),

Bernard Combettes (2000–2002), Hiltrud Gerner (2003–2007), Sylvie Bazin-Tacchella (2008–)

Volume A‑ah (DMF0, 1998) Publication électronique par étapes

successives (base de données lexicales évolutive encodée au format XML)

Analyse et Traitement Informatique de la Langue Française

Robert Martin : préface du DMF

« L’idée centrale qui guide le projet du DMF est que l’informatique autorise désormais une lexicographie évolutive : il ne s’agit plus de rédiger le dictionnaire lettre par lettre, ce qui le laisserait dans l’inachèvement aussi longtemps que la lettre ultime n’est pas atteinte, mais plutôt de procéder par une suite d’étapes dont chacune possède sa propre clôture tout en restant ouverte à tous les développements ultérieurs. La facilité avec laquelle les outils informatiques permettent d’augmenter, de corriger, de restructurer les données ne peut rester sans incidence sur la technique lexicographique. L’option choisie pour le DMF s’appuie fortement sur l’idée que les dictionnaires d’aujourd’hui, non pas commerciaux mais scientifiques, ne devraient plus être des produits figés que seules peuvent modifier d’hypothétiques rééditions, inévitablement coûteuses et elles-mêmes figées pour longtemps, mais au contraire des bases informatisées, faciles d’accès et ouvertes à peu de frais à tous les enrichissements et à toutes les améliorations que l’on peut estimer souhaitables. »

Analyse et Traitement Informatique de la Langue Française

Étapes du DMF

DMF1 (2002)13 lexiques (Machaut, Pizan etc.), 26 500 entrées

DMF2 (2007, CILPR 25)16 lexiques + lexique complémentaire (vocables rares), plus de 60 000 entrées

DMF 200920 lexiques, 1 500 synthèses exhaustives,50% des synthèses de lexiques

DMF 2010 (CILPR 26)21 lexiques, 2 000 synthèses exhaustives,100% des synthèses de lexiques

Analyse et Traitement Informatique de la Langue Française

Des objectifs d’envergure en synchronie

Limites chronologiques (1330–1500) : avènement des Valois (1328) – début des guerres d’Italie (1497) ; pronom sujet proclitique obligatoire ; complémentarité Tobler-Lommatzsch et Huguet

Nomenclature : unités lexicales (noms, adjectifs, verbes, adverbes, interjections, numéraux), y compris hapax, à l’exclusion (pour l’instant) des unités grammaticales

Position centrale en lexicologie/lexicographie du moyen français

Analyse et Traitement Informatique de la Langue Française

Potentiel heuristique pour l’étymologie

Renvois systématiques au FEW ; ajouts : « *FEW »

DMF1 : 97 rattachements étymologiques à la tranche alphabétique B- du volume 1 du FEW

Exemple Lexique de la langue scientifique : 339 ajouts d’unités lexicales, 74 nouveaux étymons ainsi que des centaines d’antédatations par rapport au FEW (cf. Gerner & Martin 2005)

Dictionnaire étymologique du moyen français !

Analyse et Traitement Informatique de la Langue Française

Consultation du dictionnaire

Dictionnaire du Moyen Français

Analyse et Traitement Informatique de la Langue Française

De multiples exploitations du dictionnaire (1/2)

Lexicologie :adresse n.f. « habileté » (dp. 1559, TLF)DMF : ca 1350/1400→ TLF-Étym

Pragmatique :enfin adv. « citons pour terminer (dernier élément d’une énumération) » (dp. 1587, Hansen 2005 : 47)DMF Recherche plein texte : ca 1400→ Buchi & Städtler 2008

Analyse et Traitement Informatique de la Langue Française

De multiples exploitations du dictionnaire (2/2)

Morphologie constructionnelle :Apothéloz 2003 : préfixe IN- du français contemporain(1) in-1 : allomorphie /in-/ + V (inutile), /ɛ̃--/ + C bruyante (imbattable), /i-/ + C sonante (illégal) ; soit négatif (inutile), soit superlatif (inqualifiable « d’une extrême bassesse »)(2) in‑2 : + C sonante (/ɛ̃--/ : [ɛ̃Xnɔmabl]) ; négatif (inréparable « qui ne peut pas être réparé »)

DMF « Recherche d’une entrée », « + options », « inr- » :28 réponses, dont inracontable (1419)→ Buchi à paraître

Analyse et Traitement Informatique de la Langue Française

Sommaire

1. Caractérisation générale2. Dictionnaire du Moyen Français (DMF)

2.1. Cœur du dispositif : le dictionnaire2.2. Portail de référence pour l’étude du moyen français

3. Critique métalexicographique3.1. Base des mots fantômes3.2. Bibliographie Godefroy

4. TLF-Étym (Trésor de la Langue Française et étymologie)

5. Französisches Etymologisches Wörterbuch (FEW)6. Dictionnaire Étymologique Roman (DÉRom)7. Conclusion

Analyse et Traitement Informatique de la Langue Française

Bien plus qu’un dictionnaire !

Métamorphose progressive du DMF en un véritable espace en ligne de recherche et de rédaction, avec quatre niveaux de consultation reliées par une navigation hypertextuelle : dictionnaire, lexiques, base textuelle, outil d’aide à l’édition

Lien direct sur un article Analyse de mots-formes Lemmatisation d’un texte Construction semi-automatique de

glossaires Élaboration d’index lemmatisés Réalisation d’éditions électroniques en

ligne

Analyse et Traitement Informatique de la Langue Française

Lemmatiseur

État de langue non standardisé → lemmatiseur LGeRM (Lemmes, Graphies lemmatisées et Règles Morphologiques (Gilles Souvay)

Accès au lemme pertinent à partir de n’importe quelle variante flexionnelle ou graphique

Navigation (par un double clic de souris) à l’intérieur du dictionnaire, voire entre la base Frantext et le DMF

Rattache chaque mot-forme au lexème dont il relève (ex. traveilhiéz → TRAVAILLER)

Analyse et Traitement Informatique de la Langue Française

Sommaire

1. Caractérisation générale2. Dictionnaire du Moyen Français (DMF)

2.1. Cœur du dispositif : le dictionnaire2.2. Portail de référence pour l’étude du moyen français

3. Critique métalexicographique3.1. Base des mots fantômes3.2. Bibliographie Godefroy

4. TLF-Étym (Trésor de la Langue Française et étymologie)

5. Französisches Etymologisches Wörterbuch (FEW)6. Dictionnaire Étymologique Roman (DÉRom)7. Conclusion

Analyse et Traitement Informatique de la Langue Française

Mots fantômes ?

Pseudo-lexèmes disposant à tort d'un statut lexicographique (y compris sens fantômes et lemmatisations erronées)

Godefroy :LABAILLE, s. f., syn. d’escope, mod. écope, sorte de

pelle creuse qui sert à vider l’eau entrée dans une embarcation :

Et en doivent les vaisseaulx qui viennent esditz havres chargez de blez en grenier chascun vaissel plaine une escope ou labaille ou l’en puche l’eaue. (1413, Denombr du baill. de Constentin, Arch. P 304, fo 116 vo.) Von Wartburg 1968 in FEW 23, 108b (Mots d’origine inconnue ou incertaine)

Analyse et Traitement Informatique de la Langue Française

Une solution en vue

Chauveau 2006 in FEW s.v. BĀJULA « bonne d’enfants » : *labaille = mélecture de la baille (baille n.f. « baquet de bois en forme de demi-tonneau ou de cône tronqué, spécialement utilisé sur les bateaux », dp. 1340)

Mais distance sémantique « écope »/« bonne » !

Base des mots fantômes centralise les identifications de mots fantômes dispersées dans des articles de revues, des communications, des comptes rendus et des articles lexicographiques, sans parler des rattachements inédits

Analyse et Traitement Informatique de la Langue Française

Sommaire

1. Caractérisation générale2. Dictionnaire du Moyen Français (DMF)

2.1. Cœur du dispositif : le dictionnaire2.2. Portail de référence pour l’étude du moyen français

3. Critique métalexicographique3.1. Base des mots fantômes3.2. Bibliographie Godefroy

4. TLF-Étym (Trésor de la Langue Française et étymologie)

5. Französisches Etymologisches Wörterbuch (FEW)6. Dictionnaire Étymologique Roman (DÉRom)7. Conclusion

Analyse et Traitement Informatique de la Langue Française

Godefroy

Fr. Godefroy, Dictionnaire de l'ancienne langue française et de tous ses dialectes du IXe au XVe siècle, 1881–1902

10 volumes, 8 000 pages, pas de bibliographie 

Problématique : sigles pour Dit de buffet(mil. 13e s.) : « Dit de buffet », « Dit du buffet », « Du Vilain au buffet », sans datation

Cf. Ringenbach 2010

Analyse et Traitement Informatique de la Langue Française

Exemple d’exploitation

Étude diachronique de IN-Godefroy :Quant est de toy, tu mors et pinces Par ton envye inraisonnable Plus c’un serpent (Envye, Estat et Simplesse, p. 6, ap. Ler. de Lincy et Michel, Farces, Moral. et Serm. joy., t. I)

Bibliographie Godefroy : milieu 16e siècle

Dernière attestation de inraisonnable, évincé par irraisonnable (dp. 14e siècle)

Analyse et Traitement Informatique de la Langue Française

Sommaire

1. Caractérisation générale2. Dictionnaire du Moyen Français (DMF)

2.1. Cœur du dispositif : le dictionnaire2.2. Portail de référence pour l’étude du moyen français

3. Critique métalexicographique3.1. Base des mots fantômes3.2. Bibliographie Godefroy

4. TLF-Étym (Trésor de la Langue Française et étymologie)

5. Französisches Etymologisches Wörterbuch (FEW)6. Dictionnaire Étymologique Roman (DÉRom)7. Conclusion

Analyse et Traitement Informatique de la Langue Française

Un programme de recherche collaboratif

Révision sélective des notices étymologiques duTrésor de la Langue Française (1971–1994)

Étymologie-histoire, cf. Baldinger 1959 : 239 : « l’étymologie, [...] c’est [...] la biographie du mot »

Fédère les forces vives de l’étymologie française à travers le monde (Sarah Leroy ; Frankwalt Möhren, Thomas Städtler ; Franz Rainer ; Takeshi Matsumura ; etc.) TLF s.v. phonologie :1. 1846 (Besch. : Phonologie. [...] Gramm. Traité sur les sons) ; 2. 1929 « science qui a pour objet l'étude fonctionnelle des sons » (Trubetzkoy). Comp. de l'élém. formant phon(o)-* « voix » et du suff. -logie*.

TLF-Étym

Analyse et Traitement Informatique de la Langue Française

Triple plus-value

Étymologies inéditesbienfaisance : calque du latin et non pas création françaisebigler : continuateur du protoroman et non pas emprunt au latinfare : emprunt au breton et non pas d’origine inconnue

Antédatationsfabulateur : 1541 → ca 1360/1380laconique : 1529 → ca 1372/1374ostensoir : 1771 → 1673

Rétrodatationsféodalement : 1483 → 1514 iota : ca 1240 → ca 1300

vélocipède : 1804 → 1818  

Analyse et Traitement Informatique de la Langue Française

Et surtout, au niveau conceptuel :

Élaboration d’une typologie de 22 sous-classes étymologiques, dotées de formules analytiques précises et cohérentes

Lexique héréditaireS.v. claie : « Continuateur régulier du protoroman régional */'kleta/ » (TLF : « du gaul. cleta »)

EmpruntsS.v. riesling : « Transfert linguistique : emprunt à l’allemand Riesling » (TLF : « mot all. »)

Créations internesS.v. cerbère : « Formation française : translation déonomastique du nom propre de créature mythologique Cerbère » (TLF : « Empr. au lat. Cerberus »)

Analyse et Traitement Informatique de la Langue Française

Sommaire

1. Caractérisation générale2. Dictionnaire du Moyen Français (DMF)

2.1. Cœur du dispositif : le dictionnaire2.2. Portail de référence pour l’étude du moyen français

3. Critique métalexicographique3.1. Base des mots fantômes3.2. Bibliographie Godefroy

4. TLF-Étym (Trésor de la Langue Française et étymologie)

5. Französisches Etymologisches Wörterbuch (FEW)6. Dictionnaire Étymologique Roman (DÉRom)7. Conclusion

Analyse et Traitement Informatique de la Langue Française

Un digne héritage

Walther von Wartburg, Französisches Etymologisches Wörterbuch, 25 vol., 1922–2002

Ouvrage majeur de l’étymologie romane depuis le début de sa parution

Renouvellement constant afin de conserver ce statut

Refonte de la tranche alphabétique B- (publication sur Internet)

Informatisation planifiée (thèse Pascale Renders)

Analyse et Traitement Informatique de la Langue Française

Jean-Paul Chauveau : préface du FEW

« La traduction du titre de l’ouvrage : Dictionnaire étymologique français et son sous-titre : Une représentation du trésor lexical galloroman [...] déterminent la perspective et l’objet que lui avait assignés Wartburg. Le FEW vise à fournir le tableau le plus complet possible du lexique galloroman dans une perspective génétique. Véritable Thesaurus galloromanicus, le FEW s’efforce de rassembler toutes les données accumulées par la lexicographie du français, du francoprovençal, de l’occitan et du gascon, de leurs parlers dialectaux, de leurs argots et de leurs technolectes, tant dans leurs états passés que modernes. Ces données, après analyse des évolutions phonétiques, morphologiques et sémantiques qui les ont marquées, sont classées, avec les références précises aux sources, dans des articles qui décrivent et expliquent le développement depuis l'étymon jusqu’aux aboutissements contemporains dans toutes ses ramifications morphologiques et sémantiques. »

Analyse et Traitement Informatique de la Langue Française

Intérêt de la refonte ? Exemple : BĀSIOLUM

Christel Nissille(aujourd’hui rédactrice au Glossaire des patois de la Suisse romande)

Lexème latin que les romanistes de renom ont rejeté comme étymon de formes galloromanes et que von Wartburg seul a retenu

En nourrissant par les données collectées par la lexicographie moderne et contemporaine l’hypothèse de von Wartburg et en exploitant toutes les possibilités de celle-ci, l’article parvient à en tirer l’étymologie, jusque là disputée et irrésolue, de mfr. bisel « facette d’un diamant », (> fr. biseau « bord taillé obliquement », angl. bezel « facette d’un diamant », occit. bisèu « biseau », esp. port. bisel, cat. bisell)

Représentants héréditaires directs (baiseul « baiser ; baisure du pain ») manquent aussi bien aux dictionnaires canoniques des états anciens des langues traitées qu’à ceux du français moderne et contemporain et ne se rencontrent que dans les parlers dialectaux de trois domaines linguistiques galloromans : français, francoprovençal et occitan – ce sont des matériaux qui n’ont une chance d’être étudiés que dans le cadre du FEW

Analyse et Traitement Informatique de la Langue Française

Sommaire

1. Caractérisation générale2. Dictionnaire du Moyen Français (DMF)

2.1. Cœur du dispositif : le dictionnaire2.2. Portail de référence pour l’étude du moyen français

3. Critique métalexicographique3.1. Base des mots fantômes3.2. Bibliographie Godefroy

4. TLF-Étym (Trésor de la Langue Française et étymologie)

5. Französisches Etymologisches Wörterbuch (FEW)6. Dictionnaire Étymologique Roman (DÉRom)7. Conclusion

Analyse et Traitement Informatique de la Langue Française

Dictionnaire étymologique roman de référence

*Dübendorf 1861† Bonn 1936

Romanisches Etymologisches Wörterbuch

Wilhelm Meyer-Lübke

REW :1930–19353 (1911–19201)

Analyse et Traitement Informatique de la Langue Française

Du REW au DÉRom

« Nouveau REW »(cf. J. M. Piel, colloque TLF Strasbourg 1957)

CILPR 21 Palerme (1995) : Table ronde « È oggi possibile o augurabile un nuovo REW ? »

« Le besoin où nous sommes d’un ‘nouveau Meyer-Lübke’ a été plusieurs fois évoqué. Le secret espoir des organisateurs était que quelqu’un dans l’assistance se lève et dise : ‘C’est moi !’ […] Mais cet espoir a été déçu… Alors que faire ? » (Chambon & Sala, Actes CILPR 21, 3, 1019)

Analyse et Traitement Informatique de la Langue Française

Du REW au DÉRom

Dictionnaire Étymologique Roman

Projet européen, surtout franco-allemand

Financé par l’ANR (Agence Nationale de la Recherche) et la DFG (Deutsche Forschungs-gemeinschaft) 2008–2010 (et 2012–2014 ?)

50 linguistes romanistes1 ingénieur informaticien2 documentalistes

Analyse et Traitement Informatique de la Langue Française

École d’été franco-allemande en étymologie romane (juillet 2010)

Analyse et Traitement Informatique de la Langue Française

Méthodologie

Première raison d’être d’un dictionnaire étymologique consacré à une famille linguistique : reconstruction du lexique de l’ancêtre commun

Cadre théorique :grammaire comparée-reconstruction(cf. A. Fox, Linguistic Reconstruction, 1995)

Objectif du DÉRom :reconstruction du lexique protoroman

Approche discutée en linguistique romane(cf. A. Vàrvaro in Revue de linguistique romane 75 [2011] et réponse Buchi & Schweickard)

Analyse et Traitement Informatique de la Langue Française

Chambon 2010 : 3 :

« […] les mots du latin écrit de l’Antiquité ne sauraient être placés à l’origine des mots héréditaires du français ou des autres langues (gallo)romanes […]. Le seul moyen de faire venir à l’existence l’étymon (oral) d’un mot héréditaire est de le reconstruire sur la base de la comparaison entre formes orales affines, c’est-à-dire dont on a montré qu’elles étaient reliées par un ensemble de correspondances phoniques régulières. […] l’établissement des étymons des mots héréditaires correspond au segment de la recherche étymologique où celle-ci coïncide avec la grammaire comparée-reconstruction des parlers romans. »

Cognats

Analyse et Traitement Informatique de la Langue Française

Question de directionnalité

REW :« Qu’est devenu le lexique latin [classique] ? »

Même questionnement qu’en étymologie slave, germanique, austronésienne, bantoue etc.

DÉRom :« D’où vient le lexique roman ? »

Analyse et Traitement Informatique de la Langue Française

Notation des étymons

Conséquence de l’option« grammaire comparée-reconstruction » :

DÉRom : */'ɸak-e-/

Étymons du lexique héréditaireen notation phonologique avec astérisque

REW : *abbĭbĕrāre

DÉRom : notation des étymons en graphie conventionnelle réservée aux latinismes

Fr. Noël < protorom. */na'tal-e/Fr. natal adj. < lat. natalis

* = « reconstruit »

* = « non attesté »

Analyse et Traitement Informatique de la Langue Française

Statut du latin écrit de l’Antiquité

Témoignage du latin écrit de l’Antiquité→ pratiques idiosyncrasiques en étymologie romane

Les langues romanes ne sont-elles pas des langues « normales » ?

Idée sous-jacente du DÉRom : le latin ne constitue une plus-value pour les études romanes que s’il complète la méthodologie générale plutôt que de s’y substituer

Analyse et Traitement Informatique de la Langue Française

Détour par une anecdote

Mesures imprécises

Confiance

Confiance

Calculs imprécis

Analyse et Traitement Informatique de la Langue Française

Appliqué à l’étymologie

Protoroman reconstruit

Confiance

+Données du latin écrit

Analyse et Traitement Informatique de la Langue Française

La pertinence d’une méthodologie se mesure à ses résultats

Signifié :*/'βɪndɪk‑a‑/ « sauver ; venger » (REW : « venger »)*/'mεnt‑e/ « esprit ; tempe ; manière » (REW : « esprit »)*/sa'gɪtt‑a/ « flèche ; courson ; éclair » (REW : « flèche »)

DÉRom /

Signifiant : */a'pril-e/ et */a'pril‑i‑u/ (REW : aprīlis) */'ɛ̃rb-a/ ~ */'ɛ̃rβ-a/ (REW : hĕrba) */ɸe'βrari-u/ (REW : februarius)

Catégorie grammaticale :*/'barb‑a/1 s.f. et */'barb‑a/2 s.m. (REW : barba [s.f.])*/βi'n‑aki‑a/ s.f. (REW : vīnāceus adj.)

Analyse et Traitement Informatique de la Langue Française

Sommaire

1. Caractérisation générale2. Dictionnaire du Moyen Français (DMF)

2.1. Cœur du dispositif : le dictionnaire2.2. Portail de référence pour l’étude du moyen français

3. Critique métalexicographique3.1. Base des mots fantômes3.2. Bibliographie Godefroy

4. TLF-Étym (Trésor de la Langue Française et étymologie)

5. Französisches Etymologisches Wörterbuch (FEW)6. Dictionnaire Étymologique Roman (DÉRom)7. Conclusion

Analyse et Traitement Informatique de la Langue Française

Nous sommes des lexicologues avant d’être des lexicographes !

Mots fantômes → Steinfeld 2010 (mfr. de note)

TLF-Étym → Andronache 2009 (continuité)

FEW → Chauveau 2009 (sémantique historique)

DÉRom → Buchi et al. 2010 ; Buchi & Schweickard 2008 ; 2009 ; 2010 (changement de paradigme en étymologie romane)

Analyse et Traitement Informatique de la Langue Française

Pour en savoir plus

Pierrel & Buchi 2009

HAL (Hyper Article en Ligne)

Journée d’étude TLF-Étym (Buchi 2006/2007)

Séminaire de méthodologie (Buchi 2005–2007)

Analyse et Traitement Informatique de la Langue Française

Non pas zbógom, mais na svídenje!

27e Congrès International de Linguistique et de Philologie Romanes

Nancy, ATILF 15-20 juillet 2013 Venez nombreux !

Hvála lépa, da ste prišlí!

Recommended