Réunion du groupe de travail

20/04/23 120/04/23 1

Réunion du groupe de Réunion du groupe de travailtravail

Annotations de haut niveau : syntaxe, sémantique, discours

Consortium Corpus écrits

Infrastructure de recherche pour les Sciences humaines et Sociales (SHS)

1er juin 2012

1

20/04/23 220/04/23 2

Plan de la présentationPlan de la présentation1. Présentation du consortium corpus

écrits et objectifs du groupe de travail2. Annotations syntaxiques3. Annotations sémantiques4. Annotations discursives et de la

référence5. Proposition de grille pour le catalogage

des données et discussion

2

20/04/23 320/04/23 3

1. L’Infrastructure de recherche 1. L’Infrastructure de recherche CorpusCorpus

Corpus est une très grande infrastructure de recherche (IR) pour les Sciences humaines et Sociales (SHS)

Portée par le CNRS et l’Université Aix-Marseille

Responsable scientifique : Laurent Dousset Objectif : « dispositif de financement, de coopération et de

mise en commun de ressources et de savoir-faire par le biais de consortiums labélisés afin d’accompagner et de favoriser les effets d’apprentissage et les synergies pour la constitution et le développement de l’usage des sources numériques par les chercheurs des sciences humaines et sociales. »

3

20/04/23 420/04/23 4

4 consortiums4 consortiums

Consortium linguistique « Corpus Oraux et Multimodaux » (IRCOM)

Consortium anthropologique « Consortium Archive des ethnologues »

Consortium linguistique « Corpus Écrits »

Consortium littérature et philosophie « CAHIER »

4

20/04/23 520/04/23 5

Consortium corpus écrits - Consortium corpus écrits - PilotagePilotage

Comité de pilotage (4 ans)Frank Neveu pour l’ILF, FR 2393 Jean-Marie Pierrel pour l’ATILF - UMR 7118 – Nancy - Université Sylvie Archaimbault (suppléant Bernard Colombat) pour HTL – UMR 7597 - Université Denis Diderot - Paris 7Damon Mayaffre (Suppléante Mahé Ben Hamed) pour BCL - UMR 6039 - Université Nice Sophia AntipolisSerge Heiden pour ICAR - UMR 5191 - Université Lumière Lyon 2 Clément Plancq (suppléant Olivier Bonami) pour le LLF - UMR 7110 - Université Paris 7 Céline Poudat pour le LDI - UMR 7187 – Université de Paris 13 Catherine Schnedecker (suppléante Amalia Todirascu) pour LILPA – EA 1339 – Université de Strasbourg Agnès Tutin (suppléante Marie- Paule Jacques) pour le LIDILEM – EA 609 – Université Grenoble 3 Benoît Sagot pour ALPAGE – INRIA- Université Denis Diderot - Paris7

Le porteur : Fédération de recherche ILF - Institut de Linguistique Française (FR 2393 du CNRS2393), représentée par son directeur, Franck Neveu.

5

20/04/23 620/04/23 6

Corpus écritsCorpus écritsObjectifs

◦ Partage d’information, homogénéisation des pratiques, mise en conformité avec des standards internationaux

◦ Fédérer les équipes et laboratoires, les chercheurs, enseignants-chercheurs, ou ingénieurs engagés dans la production de corpus numériques écrits

Collaborations importantes :◦ ATILF (CNRTL)◦ CLARIN (d’infrastructure européenne partagée

pour les SHS (Common Language Resources and Technology Infrastructure: www.clarin.eu))

◦ TEI (Text Encoding Initiative)

6

20/04/23 720/04/23 7

Corpus écritsCorpus écrits

Actions◦ Recensement des ressources et diffusion des

bonnes pratiques (standards européens : TEI, CLARIN)

◦ Mise en place de groupe de travail

Support :◦ Petit financement pour organiser des journées

d’études, des réunions◦ Embauche d’un ingénieur de recherche CDD

pour aider au recensement et diffusion des corpus : Linda Hriba

7

20/04/23 820/04/23 8

10 groupes de travail10 groupes de travail Groupe de travail n°1

Usage des corpus et droits d'auteurs ou d'éditeurs (Aspects juridiques...)

Groupe de travail n°2 Corpus d'état anciens de la langue (Numérisation, codage…)

Groupes de travail n°3 et 4 Numérisation (OCR, saisies, corrections…)

Groupe de travail n°5 Corpus multilingues (Parallèles, comparables …)

Groupe de travail n°6 Description de corpus collaborative - Metadonnées

Groupe de travail n°7 Corpus d'écrits modernes et prise en compte de nouveaux modes de communication.

Groupe de travail n°8 Annotation du plus haut niveau : syntaxe, sémantique, référence (Annotations collaboratives...)

Groupe de travail n°9 Annotation de surface (Segmentation lexicale, description morphosyntaxique chunking, …)

Groupe de travail n°10 Exploration de corpus (Méthodes, outils…)

Groupe de travail n°11 Qualité scientifique et accessibilité des corpus (Place des corpus dans l'évaluation de la production scientifique des UR)

8

20/04/23 920/04/23 9

Objectifs du groupe de Objectifs du groupe de travail – Annotations de travail – Annotations de haut niveauhaut niveau

Recenser les corpus du français existants avec une annotation de « haut niveau »◦ Proposer une grille de description de ces

corpus (métadonnées)Associer linguistes et spécialistes du TAL

dans la réflexion sur l’annotationRetour d’expériences sur les projets

constituant des corpus annotés ◦ Guide de « bonnes pratiques »

9

20/04/23 1020/04/23 10

Objectifs du groupe de travail – Objectifs du groupe de travail – Annotations de haut niveau (II)Annotations de haut niveau (II)Proposer des journées de formation

(aux normes, aux logiciels d’annotation, aux logiciels d’interrogation)

Proposer des journées d’information : journées thématiques, journées de travail

20/04/23 11

Outils de communicationle wiki de la liste

◦https://listes.cru.fr/wiki/corpus-ecrits/public/groupe-8

s'inscrire sur la liste ◦corpus-ecrits-annot-haut-

[email protected]

20/04/23 1220/04/23 12

Les phénomènes de haut Les phénomènes de haut niveau niveau

SyntaxeSémantiqueDiscours et relations textuellesRéférence

12

20/04/23 1320/04/23 13

2. L’annotation 2. L’annotation syntaxiquesyntaxique

Objectifs : ◦ création de ressources pour les

analyseurs automatiques◦ études des phénomènes linguistiques

Identification des constituants◦ catégories de constituants◦ annotations continues ou discontinues◦ annotations imbriquées ou simples◦ ambiguïtés◦ règles de grammaires indépendantes

d'une théorie particulière?

13

20/04/23 1420/04/23 14

2. L’annotation 2. L’annotation syntaxique (II)syntaxique (II)

Identification des fonctions syntaxiques/dépendances ◦ grammaires de dépendance vs.

étiquetage des corpus annotés◦ phénomènes locaux vs.

phénomènes de dépendances à distance indépendance par rapport aux théories

existantes

14

20/04/23 1520/04/23 15

Corpus arborés pour d’autres Corpus arborés pour d’autres langueslangues

Penn Treebank (U.Pennsylvania)◦ 1 000 000 mots◦ annotation syntaxique et sémantique◦ constituants et en dépendances

SUSANNE : 130 000 mots (G. Sampson) annotations de catégories et fonctions

LASSY (Large Scale Syntactic Annotation of written Dutch) (U.Gröningen, Leuven) (nl)◦ 1 000 000 mots

Corpus d’entraînement et de test CONLL (2009)

15

20/04/23 1620/04/23 16

Corpus arborés pour d’autres Corpus arborés pour d’autres langues (II)langues (II)

Prague Dependency TreeBank (Charles University) 1 500 000 mots◦ Annotation syntaxique, sémantique, coréférence

ItalianTreeBanks ◦ ISST (Pise): multiples niveaux ◦ TUT (Turin) : dépendances◦ VIT (Venise) : multi-domaine, X-bar

GermanTreeBanks : ◦ Negra (Saarland) : constituants et dépendances◦ Tiger (IMS Stuttgart) : indépendant de théories

16

20/04/23 1720/04/23 17

Corpus arborés - FRCorpus arborés - FRFrançais contemporain

◦French Treebank (Abeillé, et al 2003) extrait de Le Monde correction manuelle constituants et fonctions (sujets, objets etc.) fonctions de surface les constituants sont simples compatibilité avec plusieurs analyseurs

◦Séquoia (Candito et Seddah, 2012) Multi-domaine, multi-genre, libre de droit constituants et dépendances

17

20/04/23 1820/04/23 18

Corpus arborés – FR (II)Corpus arborés – FR (II)Corpus arborés de français

contemporain interrogeables en ligne◦L’arboratoire (syntaxe de contrainte,

Bick) : textes français interrogeables en ligne (Europarl)http://corp.hum.sdu.dk/arboratoire.html

◦Scientext (écrits scientifiques interrogeables en ligne) (analyse avec Syntex, syntaxe de dépendance, Bourigault)http://scientext.msh-alpes.fr

18

20/04/23 1920/04/23 19

Corpus arborés – FR (III)Corpus arborés – FR (III)Français médieval: SRCMF (projet

ANR piloté par Lattice, IMS Stuttgart)◦dépendances◦modèle : SRCMF◦1 verbe principal=1 phrase◦catégories hiérarchisées

possibilité de catégories sous-déterminées en cas de doute

◦annotation manuelle, 2 annotateurs ◦XML, compatible TigerSearch

19

20/04/23 2020/04/23 20

Corpus arborés – FR (IV)Corpus CLASSYN (Univ. Strasbourg et

IMS Stuttgart)◦textes de vulgarisation et articles

scientifiques ◦domaines : médecine, informatique◦Corpus comparables (fr, de)◦environ 700000 tokens/genre/domaine

(fr)◦dépendances (analyseur de B.Bohnet

(2009))◦pas de correction manuelle

20/04/23 2120/04/23 21

3. L’annotation 3. L’annotation sémantiquesémantique

L’annotation sémantique de corpus est très diverse :◦ Types sémantiques et référentiels

Exemples : Entités nommées, expressions calendaires et temporelles

Opinions et sentiments

◦ Désambiguïsation Repérage du « bon » sens du mot

◦ Rôles sémantiques (à l’interface de la syntaxique et de la sémantique) Rôle sémantique du mot et du constituant

21

20/04/23 2220/04/23 22

3. L’annotation 3. L’annotation sémantique (II)sémantique (II)

L’annotation sémantique de corpus est aussi complexe : difficile d’atteindre un bon accord interannotateurs◦Tâches comportant une forte part de

subjectivité◦Souvent pas de standard de

référenceDifficile d’automatiser la tâche

d’annotation22

20/04/23 2320/04/23 23

Les corpus annotés Les corpus annotés sémantiquement pour sémantiquement pour d’autres languesd’autres langues

De nombreux corpus conçus pour évaluer des tâches en TAL (campagnes SenseEval, SemEval, MUC):◦ désambiguïsation: SemCor (Princeton) : anglais,

annoté avec WordNet◦ identification de rôles semantiques : FrameNet

(Berkeley) (en,es,jp), SALSA (Univ. Saarland) (de)◦ identification des opinions : corpus de citations des

débats politiques annotés (JRC Trento)◦ extraction d’information : évenements et les

participants : corpus MUC-7

23

20/04/23 2420/04/23 24

Les corpus annotés pour le Les corpus annotés pour le français : un premier inventaire français : un premier inventaire (à compléter)(à compléter)

Entités nommées :◦Corpus ESTER utilisé dans des

campagnes d’évaluation, annotation des personnes, lieux, organisation (transcription d’émissions de radios) (diffusé par ELRA)

◦Corpus SxPipe (une centaine de dépêches AFP) librement diffusé.

24

20/04/23 2520/04/23 25

Les corpus annotés pour le Les corpus annotés pour le français (II)français (II)

Sentiment et opinion (de très nombreux corpus) :◦Blogoscopie (ANR) (piloté par le LINA) :

annotation des blogs avec les concepts et les évaluations. Librement disponible : http://www.lina.univ-nantes.fr/?Corpus.html

◦Corpus DEFT 2007 : Annotation des opinions disponible à : http://deft.limsi.fr/

◦Corpus PPF (Grenoble) : annotation du lexique des émotions (textes littéraires)

25

20/04/23 2620/04/23 26

Les corpus annotés pour le Les corpus annotés pour le français (III)français (III)

Expressions temporelles :◦French TimeBank : Alpage &

Université Paris 7, Repérage des entités temporelles et des relations entre entités dans un corpus de textes journalistiques (Est Republicain)

26

20/04/23 2720/04/23 27

Les corpus annotés pour le Les corpus annotés pour le français (V)français (V)

Désambiguïsation :◦Corpus de la campagne

ROMANSEVAL (60 mots désambiguïsés). Diffusé par ELRA.

27

20/04/23 2820/04/23 28

Annotation discursive et Annotation discursive et textuelletextuelle

De nombreux phénomènes :◦Structure textuelle : aspects structurels◦Relations discursives, connecteurs,

relations rhétoriques (au sens de la RST) Connecteurs implicites ou explicites Relations de discours hiérarchiques ou

indépendantes ◦Référence, co-référence, phénomènes

anaphoriques Délimitation des expressions référentielles Relations anaphoriques ou de co-référence Divers catégories d’expressions

28

20/04/23 2920/04/23 29

Ressources pour d'autres langues Relations de discours : Penn Discourse

Treebank◦ Indépendant d’une théorie◦ Relations simples◦ Connecteurs

Coréférence : ◦ ACE (tâche limitée : co-référence entre

personnes, organisations, lieux)◦ MUC 6/7◦ OntoNotes◦ tâches SEMEVAL: corpus disponibles en en,

es, it, de, nl

20/04/23 3020/04/23 30

Premier état des lieux pour le Premier état des lieux pour le françaisfrançais

Annotations textuelles

◦ Annodis (Projet ANR) : relations de discours entre les unités minimales de discours, macro-structures, notamment les structures énumérativesCorpus variés. Bientôt disponible.

◦ Corpus Géopo :Corpus de 270 000 mots d’articles expositifs autour des relations internationales. Structure textuelles, sections, énumérations.http://redac.univ-tlse2.fr/corpus/geopo.html

30

20/04/23 3120/04/23 31

Premier état des lieux pour le Premier état des lieux pour le français (II)français (II)

Discours, relations discursives◦French Discourse Treebank (Alpage) : le

pendant français du Penn Discourse Treebank Analyse des connecteurs inspirée de SDRT et RST (en cours)

◦ ANNODIS (en partie)

◦LELIE, projet ANR (IRIT) Textes procéduraux (8000 textes) relations du discours, structure des verbes Annotation automatique révisé

(partiellement) TextCoop + Dislog analyseur de discours

31

20/04/23 3220/04/23 32

Corpus annotés au plan de la Corpus annotés au plan de la coréférence et des anaphores coréférence et des anaphores ◦ Corpus ELRA (Xerox, U. Stendhal) :

Expressions anaphoriques grammaticales (presse, écrits scientifiques, ouvrages scientifiques). 1 million de mots

◦ Corpus DEDE : Description définies (48 360 mots) http://www.cnrtl.fr/corpus/dede/

◦ Corpus ANNODIS : chaines topicalisées (614943 mots)

◦ Corpus EvalRefGen : (15 192 mots) multi-genre

32

Premier état des lieux pour le Premier état des lieux pour le français (III)français (III)

20/04/23 3320/04/23 33

Premier état des lieux pour le français (IV)Projet MC4 (PEPS INS2I – INSHS,

porté par Lattice)◦Objectifs :

étudier les chaines de coréférence dans des textes du français médiéval et contemporain, dans les textes narratifs et non-narratifs

établir une méthodologie d’annotation amélioration d’outils d’annotation manuelle

et automatique◦Annotation manuelle: Analec (Victorri,

2010) Corpus annoté en chaines de co-référence

20/04/23 3420/04/23 34

Premier état des lieux pour le français (V)

Projet COMTIS (Improving the Coherence of Machine Translation Output by Modeling Intersentential Relations) (Idiap, Univ. de Généve, Suisse, U.Leuven Belgique)◦ Objectifs :

Utilisation des relations discursives pour améliorer les systèmes de traduction automatique

Corpus multilingue (extrait d’Europarl), dont le français

Annotation manuelle : connecteurs de discours, pronoms

3600 mots

20/04/23 3520/04/23 35

5 Autres types??5 Autres types??

35

20/04/23 3620/04/23 36

6 Proposition de grille de 6 Proposition de grille de descriptiondescription

La grille doit être compatible avec les métadonnées proposés par d’autres projets:◦ CLARIN◦ Labex Empirical Foundations on

Linguistics (http://www.labex-efl.org)

◦ FlaReNet

36

20/04/23 3720/04/23 37

Nom du corpus : Date de création/diffusion : Auteurs : Laboratoire (Université) : Adresse postale : E-mail : Description du corpus : URL : Documentation : Publication à citer : Projet associé : Type de données : écrit/oral/oral transcrit Sources des données : Période couverte par le corpus : Genre (journalistique, littéraire, etc.) Format de représentation (XML, TEI, CES, format propriétaire

etc.): Compatibilité avec d'autres formats (CONLL, SEMEVAL etc) : Langue(s) : Taille (nb de mots) : Types d'informations linguistiques (fonctions syntaxiques,

relations sémantiques, phénomènes discursifs etc.) :

20/04/23 3820/04/23 38

Codage des caractères (UTF-8, UTF-16, Latin-1, Latin-15) :

État d'avancement de la ressource : en cours/achevé

Modèle linguistique (LFG, FrameNet etc.) :Metadonnées normalisées : TEI/Dublin

Core/Open Archive/NonType d'annotation (manuelle, automatique,

automatique révisée) :Domaines couverts par le corpus (médecine,

économie, etc.):Outils d'annotation : Interface Web :Guide d'annotation :Droit d'accès (libre, payant, sous conditions) :Licence (GPL, Creative Commons…) : Coût éventuel :Commentaires (outils associés, taille, usages,

…) :Description disponible dans un autre GT

20/04/23 3920/04/23 39

RéférencesGuillot, C., Heiden, S. et Lavrentiev A.

(2007). « Typologie des textes et des phénomènes linguistiques pour l’analyse du changement linguistique avec la Base de Français Médiéval », LINX, n° spécial, 2007, p. 125-139.

Abeillé, A., L. Clément, and F. Toussenel. 2003. `Building a treebank for French', in A. Abeillé (ed) Treebanks , Kluwer, Dordrecht.

Documents

Réunion du groupe de travail