Centre de Recherche Scientifique et Technique pour le Développement de la Langue Arabe
C.R.S.T.D.L.A
THEME
Vers un système d’extraction d’informations pour les textes de la
presse arabophone en ligne ArIExtract
CIT
ALA
20
09
ACHIT Abdelmadjid [email protected] Division Informatique Linguistique, CRSTDLA Dr AZZOUNE Hamid [email protected] Département d’Informatique, USTHB
3ème Conférence Internationale sur le Traitement Automatique de la Langue Arabe CITALA2009
4 – 5 Mais 2009, Rabat, Maroc
Plan
Introduction
Présentation de l’extraction d’informations
Conception du système ArIExtract
Problèmes rencontrés dans le cas des textes arabes
Conclusion
CIT
ALA
20
09
CIT
ALA
20
09
Introduction
CIT
ALA
20
09
Une femme à la tête de Yahoo par Myriam Berber Article publié le 14/01/2009 Dernière mise à jour le 15/01/2009 à 15:38 TU
L’ancienne PDG de l’éditeur américain de logiciels Autodesk Carol Bartz a été désignée, mercredi 14 janvier 2009, à la tête du groupe internet Yahoo en remplacement de Jerry Yang. Carol Bartz prend les rênes d’une entreprise en difficulté face au géant Google. Les spécialistes estiment que cette nomination va relancer les discussions avortées avec Microsoft. etc
Une femme à la tête de Yahoopar Myriam Berber
Article publié le 14/01/2009 Dernière mise à jour le 15/01/2009 à 15:38 TU
L’ancienne PDG de l’éditeur américain de logiciels Autodesk Carol Bartz a été désignée, mercredi 14 janvier 2009, à la tête du groupe internet Yahoo en remplacement de Jerry Yang. Carol Bartz prend les rênes d’une entreprise en difficulté face au géant Google. Les spécialistes estiment que cette nomination va relancer les discussions avortées avec Microsoft. etc
CIT
ALA
20
09
Formulaire - NominationTitre: Une femme à la tête de Yahoo
Source: site web de RFI
Date: 14/01/2009
Date de Dernière mise à jour:15/01/2009
Horaire: 15:38
Auteur: Myriam Berber
Événement / Fait: Nomination
Responsable / cadre: Carol Bartz
Ancien poste: PDG
Ancienne organisation : l’éditeur américain de logiciels Autodesk
Nouveau poste: PDG
Nouvelle organisation: groupe internet Yahoo
En remplacement de: Jerry Yang
Date Nomination: mercredi 14 janvier 2009
CIT
ALA
20
09
chiffre d'affaires de Michelin en net reculLEMONDE.FR avec AFP | 28.04.09 | 19h16
Le groupe français de pneumatiques Michelin a annoncé, mardi 28 avril, une baisse de 14,2 % de son chiffre d'affaires au premier trimestre par rapport à la même période de 2008, à 3,512 milliards d'euros. Cette baisse traduit un recul des volumes de ventes de 24,4 %, lié à la chute des marchés de pneumatiques, atténué par l'amélioration moyenne du prix des produits vendus, explique Michelin dans un communiqué.
CIT
ALA
20
09
Formulaire – communiqué d’entreprise – Chiffre d’affaires CA
Groupe / Entreprise: Michelin
Nationalité: Française
Domaine : pneumatiques
Date annonce: mardi 28 avril
Tendance du CA: en baisse
Période: premier trimestre 2009
Par rapport à la période: premier trimestre 2008
Tendance - Valeur (%): 14,2 %
Montant CA: 3,512 milliards d'euros
…etc
CIT
ALA
20
09
باراك االمريكي الرئيس يلتقي طالباني جالل الجمهورية رئيساوباما
07 April, 2009 11:51:00
الفاو مجمع ضمن القصور احد في طالباني جالل الجمهورية رئيس التقىاوباما باراك االمريكية المتحدة الواليات رئيس الثالثاء أمس مساء ببغداد،
. له المرافق الوفد ….و
CIT
ALA
20
09
سياسي - لقاء استمارة
الفيحاء الجريدة:
/www.alfayhaa.tv/alfayhaa-newspaper : االموقع
/ الكاتب:
April 07, 2009 : المقال التاريخ
لقاءالحدث:
طالباني : 1الشخص جالل
الجمهورية الوظيفة: رئيس
اوباما : 2الشخص باراك
االمريكية الوظيفة: المتحدة الواليات رئيس
الثالثاء التاريخ: أمس مساء
ببغداد المكان: الفاو مجمع ضمن القصور احد
المعلومات استخراج
CIT
ALA
20
09
أوروبا أبطال رابطةأوروبية معركة أول في وأرسنال مانشستر
في اليوم، سهرة اإلنجليزيان، و يونايتد مانشستر فريقا يلتقيأوروبا، أبطال رابطة لمنافسة النهائي نصف الدور ذهاب مباراة
ترافورد '' أولد ملعب ''علىبمانشستر……
CIT
ALA
20
09
رياضية - مبارة استمارة
الخبرالجريدة:
www.elkhabar.comالموقع:
/الكاتب:
29/04/2009: التاريخ
مبارة الحدث: عن اعالن
القدم الرياضة: كرة
أوروبا المنافسة: أبطال رابطة
يونايتد : 1الفريق مانشستر
انجليزيالبالد:
أرسنال :2الفريق
انجليزيالبالد:
/الفائز:
/ النتيجة:
للفريق األهداف /: 1مسجلو
للفريق األهداف / :2مسجلو
اليوم التاريخ: سهرةترافورد الملعب: أولدمانسشترالمدينة:
CIT
ALA
20
09
CIT
ALA
20
09
Présentation de l’extraction
d’informations
CIT
ALA
20
09
Pour leur part [Gaizauskas R. and
Wilks Y., 1998 ], ils définissent l’extraction d’information comme une activité qui consiste à remplir une source de données structurées (base de données) à partir d’une source de données non structurées (texte libre).Les conférences MUC définissent la tâche d’extraction d’informations comme la tâche consistant à extraire des informations spécifiques et bien définies à partir de textes écrits en langue naturelle dans des domaines restreints, avec l'objectif spécifique de remplir automatiquement des formulaires prédéfinis ou des bases de données.
[Cowie J. et Wilks Y. ,(2000) ] définissent l’extraction d’informations comme étant la structuration et la combinaison sélective de données issues d’un ou plusieurs documents textuels.
Selon [Soderland S., Lehnert W., 1994], un système d’extraction d’informations est un système qui produit une représentation de l’information textuelle pertinente dans un domaine particulier pour une application particulière.
L’extraction d’information est un processus automatique permettant d’extraire des informations pertinentes et précises à partir de documents non structurés ou semi structurés en langage naturel et permet leur sauvegarde sous une forme structurée du type formulaire ou base de données.
DéfinitionDéfinition
Processus d’Extraction d’informations
Système d’extraction
d’informationsDocuments textuels non structurés
Documents textuels structurés
BD
CIT
ALA
20
09
La réflexion sur les systèmes d’extraction d’informations fut entamée dès les années 1950, par les travaux de certains linguistes. Par la suite, de nombreuses implantations ont été réalisées, nous pouvons citer celle réalisé à l'université de New York au travers du Linguistic String Project [20], dont le but était de remplir des formulaires à partir de textes médicaux (rapports de radiologie).
Manifestations scientifiques
- Conférences
- Ateliers (Workshops)
- Campagnes d’évaluation / benchmarking
CIT
ALA
20
09
Bref Historique
NTCIRNTCIR
ACEACE
IREXIREX
METMET
QA@CLEFQA@CLEF
QA@TRECQA@TREC
LRECLREC
PASCALchallenge
PASCALchallenge
TACTAC
DUCDUC
NER - CONLL
NER - CONLL
MUCMUC
EI conférences
EI conférences
Document understanding
Conference
Text Analysis Conference
PASCAL Challenge for
Evaluating Machine Learning
for Information Extraction
International Conference on Language Resources and Evaluation
Question Answering at The Text REtrieval Conference TREC
NTCIR (NII Test Collection for IR Systems) workshop
Language-Independent Named Entity
Recognition at Computational Natural
Language Learning (CoNLL) workshops
Message Conference
Understanding
Question Answering at Cross Language
Evaluation Forum CLEF
CIT
ALA
20
09
Information Retrieval and Extraction Exercise
the Multilingual Entity Task Conference (MET), TIPSTER Text project
Automatic Content
Extraction (ACE)
MUC 1
MUC 2
MUC 3
MUC 4
MUC 5
MUC 6
MUC 7
Les conférences MUC
1987
1989
1991
1992
1995
1998
1993
Analyse des rapports d'opérations tactiques navales [5]
Idem que MUC 1 [5]
Analyse des textes journalistiques traitant du terrorisme en Amérique Latine, afin d’extraire des dépêches d’agence de presse le maximum d’informations sur des actes terroristes comme le nom de groupes terroristes impliqués, le nom des victimes, les types d’armes utilisées, les dates et les lieux…[15 ].
Idem que MUC 3 [ 16].
Traitement d’un corpus de nature économique (fusion, rachat, et création d’entreprises internationales et la fabrication de circuits électroniques). [ 17]
C’est une suite de MUC 5: ont traité les changements de dirigeants à la tête des entreprises. [18 ]
Analyse de textes journalistiques rapportant des crashs d’avion et de tirs de missiles. [ 19].
CIT
ALA
20
09
CIT
ALA
20
09
Domaine d’applications
Domaine d’applicationsde l’EI
systèmes Q/R
Traduction automatique
Veille scientifique et technique
systèmes de IRRésumé
automatique
Extraction de terminologies
Structuration en sous tâches de l’extraction d’informations
CIT
ALA
20
09
Identification / reconnaissance des entités nommées
Résolution des coréférences
Extraction des relations entres les entités nommées
Extraction des événements
Désambiguïsation
Déduplication
Inférence
Fusion
Conférences MUC 6 & 7
- Named entity recognition (NE)
- Coreference Resolution (CO)
- Template Element construction (TE)
- Scenario Template production (ST)
- Template Relation construction (TR)
Tâche de l’Identification des entités nommées
CIT
ALA
20
09
Identification des entités nommées
Identification des noms …
Identification des expressions temporelles
Identification des expressions numériques
personnes Lieux
collectifs
EntreprisesPersonnages fictifs
Acteurs individuels
Lieux
Ville
Pays
Continent
Océans
Mers
Acteurs collectifs
Organisation
Entreprise
Institution
Filiale
Agence
Expressions temporelles
Date
Durée
Période
Age
Heure
Expressions numériques
Montant financier
Longueur
Volume
Poids
Température
U.Physiques
Pourcentage
Vitesse
Entités nommées
Acteurs
CIT
ALA
20
09
Exemple:
CIT
ALA
20
09
Une femme à la tête de Yahoopar Myriam Berber
Article publié le 14/01/2009 Dernière mise à jour le 15/01/2009 à 15:38 TU
L’ancienne PDG de l’éditeur américain de logiciels Autodesk Carol Bartz a été désignée, mercredi 14 janvier 2009, à la tête du groupe internet Yahoo en remplacement de Jerry Yang. Carol Bartz prend les rênes d’une entreprise en difficulté face au géant Google. Les spécialistes estiment que cette nomination va relancer les discussions avortées avec Microsoft. etc
personnes
entreprises
Expressions temporelles
Expressions de locations
-Détermination de patrons / schémas/ formules linguistiques caractéristiques de relations lexicales (étude linguistique basée sur l’acquisition de marqueurs de relations liées à certaines notions/ concepts).
- Étude de la distribution de contextes autour des entités (étude statistique);
Le Président de la république, Mr Bouteflika a reçu, hier, à la présidence, son homologue le Président tunisien Mr BenAli.
Actant 1 : Mr BouteflikaFonction : Président de la républiqueActant 2 : Mr Ben AliFonction: Président Type action : Rencontre Lieu : PrésidenceTemps / Date : hier……
CIT
ALA
20
09
Extraction des relations entre les entités nomméesExtraction des relations entre les entités nommées
Approches et méthodes d’extraction d’informations
Approches et
méthodes d’extraction
Approche basée sur l’analyse linguistique
Approche apprentissage automatique Approche hybride
CIT
ALA
20
09
- A base de règles contextuelles écrites à la main
-Elles exploitent des informations morphosyntaxiques et lexicales. Ainsi, elles utilisent des marqueurs lexicaux (ex. Mr pour Monsieur,.. ), des dictionnaires de noms propres et des dictionnaires de la langue générale.
- Le développement de ces règles par des experts est long et coûteux
- La méthode de l’exploration contextuelle en est un exemple.
Langue arabe:A titre d’exdemple, le travail de [Shaalan, 2007] qui a porté sur la conception d’un système de reconnaissance des entités nommées arabes de type noms de personnes PERA basé sur l’utilisation de règles sous forme d’expressions régulières, …etc.
Il s’agit d’une approche basée sur les techniques d’apprentissage automatique. Elle utilise un modèle de langage entraîné sur de larges corpus de textes pré-étiquetés… ce qui est long et coûteux.
Langue arabe:les travaux qui ont porté sur l’utilisation des supports vecteurs machines SVM pour la reconnaissance des entités nommées arabes. Egalement, il y’a eu des travaux qui ont porté sur l’utilisation des Modèles de Markov Cachés MMC ainsi que de la méthode de l’entropie maximale [Benajiba &al., 2007] [Benajiba &al., 2008].
Plus récemment sont apparues des approches hybrides tirant parti des avantages respectifs des méthodes linguistique et probabiliste.
Dans les systèmes de ce type, un ensemble de règles est généralement appris automatiquement puis révisé par un expert. Ou l’autre cas de figure, l’élaboration de règles est faite par un expert puis il y’a extension automatique de la couverture de ces règles.
Quelques difficultés rencontrées dans l’extraction d’informationsQuelques difficultés rencontrées dans l’extraction d’informations
1. La langue naturelle est flexible. Il y a toujours plusieurs façons d’exprimer la même idée ;
2. La langue naturelle est ambiguë. Une phrase peut être interprétée de différentes manières ;
3. La langue naturelle est dynamique. Elle évolue constamment ;
4. Multilinguisme;
5. Style de textes: textes journalistiques, textes d’un email (absence de règles et de style rédactionnel) 6. L’information peut s’étendre sur plusieurs phrases;
7. Complexité du processus d’EI du fait des différentes tâches : - Identification des entités nommées ; - Recherche des relations entre entités ; - Résolution des coréférences ; - etc. 8. Évaluation difficile;
9. Données : quantité croissante, non standardisées et de types différents;
10. Limites de l’état de l’art des systèmes d’EI. ;
11. Difficulté de conception de systèmes d’EI. génériques ;
12. Peu de systèmes d’E.I. commercialisés ;
13. Trop peu d’interdisciplinarité (non informaticiens et informaticiens).
CIT
ALA
20
09
Conception du Conception du systèmesystème
CIT
ALA
20
09
CIT
ALA
20
09
Méthode une méthode linguistique dite méthode d’exploration contextuelle
Textes les textes journalistiques n’est pas fortuit. Il est motivé par le fait que ces textes respectent un certain style rédactionnel et sont disponible en ligne.
Objet de l’extraction
événements de rencontre entre personnes et ceux décrivant des manifestations (scientifiques, économiques, culturelles, etc.).
Nos choix :
Relation actant1 Actant2 verbe Temps
Quand?
Lieu
Où?
Rencontre …… …… …… …… …..
a rencontréQui? Qui?
Origine: méthode issue des travaux de recherches effectuées par l’équipe LaLICC ( ) dirigée par le Prof. DESCLES Elle a fait l’objet de plusieurs implémentations, notamment le résumé automatique, le filtrage d'informations selon différents points de vue, etc.
Fondements
1. Elle est basée sur une analyse linguistique (analyse exploratoire du contexte ), permettant le repérage des entités nommées (acteurs, lieux, temps,…) ainsi que la mise en relation des acteurs avec leur environnement dans l'espace et le temps au moyen d'indices déclencheurs, d’indices complémentaires et de règles qui les combinent;
2. Elle a une portée sémantique et ne se base pas sur une représentation profonde du texte mais sur une identification automatique de marqueurs linguistiques pertinents pour une tâche donnée;
3. Les indices déclencheurs sont retenus en fonction d’objectifs précis. Ils sont identifiés par une analyse exploratoire du contexte qui permet aussi d’identifier d’autres indices linguistiques (dits indices complémentaires) eux aussi jugés pertinents pour la tâche traitée;
4. Utilisation des règles d’Exploration Contextuelle, combinant les indices identifiés pour attribuer des étiquettes sémantiques aux segments textuels considérés (phrases, paragraphes, etc.).
CIT
ALA
20
09
Présentation de la méthode d’exploration contextuelle
Exemple:
1. Spécification de l’espace de rechercheE:= Créer espace(PhraseParent de l’indicateur principal) ;2. Spécification des listes des indicateurs et des indices complémentairesLi := liste de verbes / adjectif/ …3. ConditionsConcerne les contraintes d’agencements et d’ordonnancement des marqueurs ainsi que des indices complémentaires dans l’espace de recherche considéré.4. ActionsAttribuer une étiquette au segment textuel considéré (la phrase) ou déclencher une tâche.
Spécification littéraire d’une règle d’exploration contextuelle
CIT
ALA
20
09
Si nous sommes en présence d’une annotation <pays> ou <region> ou <ville> etc.
Et si elle est précédée d’une préposition de lieu de la classe PrepLieu(en, dans, à, …) OU d’un marqueur de localisation (verbe de localisation) de la classe VStatIntrodLoc: (occuper, recourvrir, border, entourer, barrer, …) ou VdynIntroduitLoc : (quitter, atteindre, envahir, traverser, évacuer, …)
Alors nous sommes en présence d’une localisation<lieu>
Sinon Le reste des entités nommées de type pays, region, ville etc. seront annotés par défaut <Actantcollectif>
Extraction des entités nommées et des relations
Reconnaissance des entités nommées EN arabes
CIT
ALA
20
09
La catégorisation d’entités nommées retenue pour la conception de notre système est la suivante:
1. acteurs ou actants (agent de l’action ou cible de l’action) : - particulier / individuel (personnes) ou - collectifs (entreprise, organisme, institution, …)2. information de localisation (lieu géographique): villes, régions, pays,
continents, etc.3. information temporelle : dates, durée, période, horaire, etc.4. information numérique : mesure, monétaire ou pourcentage, etc.
Dans notre étude, nous nous sommes inspiré de la catégorisation des EN de la conférence MUC 7, mais aussi, d’autres études.
N° Type entité Etiquette associée
1 Phrase <Phrase>
2 Acteur particulier <ActP>
3 Acteur collectif <ActC>
4 Exp de localisation <Lieu>
5 Exp de localisation : ville <Ville>
6 Exp de localisation : région <Région>
7 Exp de localisation : pays <Pays>
8 Exp temporelle <Temps>
9 Exp temporelle de type durée <Durée>
10 Exp temporelle de type horaire <Horaire>
11 Exp temporelle de type age <Age>
12 Exp temporelle de type date <Date>
13 Exp numérique monétaire <ExpMon>
14 Exp numérique de longueur <Long>
15 Exp numérique de poids <Poids>
16 Exp numérique de volume <Volume>
17 Exp numérique de vitesse <Vitesse>
18 Exp numérique de température <Température>
19 Exp numérique de pourcentage <Pourcentage>
20 Nom propre <NP>
21 Titre <Titre>
22 Nom organisation <Org>
23 Fonctions sociales <FS>
24 Fonctions relationnelles <FR>
25 Nationalité <Nat>
26 Appartenance religieuse <App-Rel>
27 Appartenance ethnique <App-Eth>
Quelques étiquettes sémantiques attribuées aux ENs identifiées
CIT
ALA
20
09
Reconnaissance des entités nommées de type actantIdentification basée sur la structure interne de l’entité nommée ainsi que sur l’analyse du contexte
Reconnaissance des actants particuliers
Un acteur particulier est une personne qui est caractérisé par son nom propre (محمد، عبد الله) et sa fonction (رئيس، وزير ، ...), son titre (السيد، الدكتور، العاهل، الملك ، ...) qui pourrait aussi avoir une classe d’appartenance : nationalité (جزائري، مغربي، تونسي ، ...), religion (مسلم، مسيحيـي، يهودي ، ...). etc.De ce fait, la reconnaissance et l’annotation des acteurs particuliers (personnes et ses attributs), nécessitent :
1. des ressources: - un ensemble d’expressions régulières décrivant des entités selon leurs structures internes - un lexique sous forme de dictionnaires et de classes d’indices: classe de fonctions sociales, classe d’appartenance (nationalité, religion, ...), etc.
2. un ensemble de règles lexico sémantiques: pour l’annotation finale de l’acteur. Ces règles sont indépendantes du domaine d’application.
CIT
ALA
20
09
الله- عبدأبوعلي -
مروان- أمبطوطة - ابن
زياد- بن طارقعلي - بن المؤمن عبد
الفارسي - سلمانالخ......
Noms propres arabes:
Exemple :
أكد، أمس، وزير الطاقة والمناجم الجزائري السيد شكيب خليل أن مجموعة سوناطراك تحضر حاليا إلنشاء بنك لتمويل مشاريعها
،االستثمارية المستقبلية
Règle :<Det>? <FS><Nat><Ponct>?<Titre>? <NomP> -----> <ActP>
أمس، المناجم >FS<أكد، و الطاقة <Titre<الجزائري>Nat></FS<وزير</Nat< السيد>NP></Titre< خليل أن مجموعة سوناطراك > NP</شكيب
...تحضر حاليا إلنشاء بنك لتمويل مشاريعها االستثمارية المستقبلية،
أمس و >FS> <ActP< أكد، الطاقة وزيرشكيب >NP></Titre<السيد >Titre> </Nat<الجزائري>Nat></FS<المناجم
أن مجموعة سوناطراك تحضر حاليا إلنشاء بنك لتمويل > ActP> </NP</خليل...مشاريعها االستثمارية المستقبلية،
Cas de reconnaissance d’un actant particulier
CIT
ALA
20
09
Pour la reconnaissance des actants collectifs (noms d’organisation, d’entreprises, filiales, groupes, administration, institution, …) nous exploitons des lexiques et nous faisons appel aux informations concernant la structure interne des entités en question ainsi qu’aux expressions régulières et aux règles dites d’exploration contextuelle. Exemple :
أكد، أمس، وزير الطاقة والمناجم الجزائري السيد شكيب خليل أن مجموعة سوناطراك ،تحضر حاليا إلنشاء بنك لتمويل مشاريعها االستثمارية المستقبلية
Règle :<Det>? <FS><Nat><Ponct>?<Titre>? <NomP> -----> <ActP><TOrg>? <Org> <Nat>? -----> <ActC>
<Nat>/الجزائري<Nat></FS>وزير الطاقة و المناجم<FS>أكد، أمس، <Titre>السيد<NP></Titre>شكيب خليل/<NP>أن<TOrg>مجموعة/<TOrg> <Org>سوناطراك/<Org> تحضر حاليا إلنشاء بنك لتمويل مشاريعها االستثمارية
...المستقبلية،
<Nat>/الجزائري<Nat></FS>وزير الطاقة و المناجم<FS>أكد، أمس، <Titre>السيد<NP></Titre>شكيب خليل/<NP> أن<TOrg> <ActC>
تحضر حاليا إلنشاء بنك لتمويل <ActC> </Org>/سوناطراك <TOrg> <Org>/مجموعة...مشاريعها االستثمارية المستقبلية،
Cas de reconnaissance d’un actant collectif
Reconnaissance des actants collectifs
CIT
ALA
20
09
Cas 1 : lieu géographique
Cas 2 : actant collectif
ا الجزائرقدمت .إلطلب للتجارة الدولية المنظمة إلى نضمام
الخارجية بغدا، لوزراء اجتماع سينعقد ، الجزائرالمغاربة.
بان كي مون غزة، األمين العام لألمم المتحدةزارالبارحة، ..…
Dans notre cas, c’est une règle d’exploration contextuelle qui sera utilisé pour attribuer l’étiquette adéquate en se basant sur le contexte linguistique de l’unité en question. Cette règle sous la forme littéraire, est la suivante:
Reconnaissance des noms de pays comme actants
Le cas des noms de pays pose problème. S’agit il d’une localisation ou bien d’un actant collectif. Afin de lever ce problème nous avons eu recours à une règle d’exploration contextuelle:
Règle d’Exploration Contextuelle (description): Si l’entité nommée étiqueter par >pays< ou >ville< est précédée par une préposition (ب، إلى، نحو،... ) ou par un verbe du type (وصل، غادر، انتقل، ذهب، زار،مكث، بقي،... ) alors attribuer l’étiquette >Lieu< sinon attribuer l’étiquette >ActantCollectif<
CIT
ALA
20
09
Dans cette tâche, nous nous intéressons à l’étiquetage des dates, des durées, des différentes expressions temporelles. Cela permettra ultérieurement d’associer une information temporelle à la relation extraite. Pour l’achèvement de cette tâche, nous faisons appel aux expressions régulières ainsi qu’à des règles d’explorations contextuelles.
Détection des datesElles peuvent apparaîtrent sous une :- une forme numériques (1990/01/15,1990-01-15, … ) ;- une forme mixte (15 1990جانفي ) ;-seulement de motsخمسة عشر جانفي ألف و تسعة مئة و تسعون))- les dates non absolues ("5 في ماي",مارس" " ) ;- les dates absolues (" 2009 جويلية 05في ") ;
Détection des durées- Des durées quelconques (" (" سنوات3خالل - Des intervalles temporels (" (" جويلية15 جوان إلى 06من - Des durées absolues(" (" جويلية05انطالقا من - Des durées relatives au moment d’élocution ("منذ عام")
Détection des expressions temporelles- Ce sont des expressions qui regroupent : par exemple :- Des dates relatives, de forme particulière (" في القرن الماضي"،"األسيوع الفارط"،"في
; ("بداية السنة
Reconnaissance d’entités de type temporelle
CIT
ALA
20
09
Exemple :
من فرنسية تكنولوجية أيام إلى 29تنظم علمنا 2008ديسمبر 1نوفمبر حسبما بالجزائر، " اللقاء " بهذا المبادرة الهيئات إحدى وهي اوبيفرانس وكالة .لدى
<Date>/نوفمبر<Nb><Date>29 <Mois></Nb >منتنظم أيام تكنولوجية فرنسية </Mois> إلى<Date> <Nb>1 <Mois></Nb> ديسمبر<Nb></Mois>2008 </Date> </Nb>
بالجزائر، حسبما علمنا لدى وكالة "اوبيفرانس" وهي إحدى الهيئات المبادرة بهذا .اللقاء
Règle :<Jour>? <Nb> <Mois> <Nb>? -----------------------> <Date>
من فرنسية تكنولوجية أيام Nb>1</إلى >Mois</نوفمبر>Nb>29 <Mois></Nb<تنظم<Mois></Nb< ديسمبر>Nb></Mois>2008 </Nb< وكالة لدى علمنا حسبما بالجزائر،
" اللقاء" بهذا المبادرة الهيئات إحدى وهي .اوبيفرانس
Règle :<Det> <Date> <Det> <Date> -----------------------> <Période>
فرنسية تكنولوجية أيام <Date</ نوفمبر>Nb><Date> <Période>29 <Mois></Nb<تنظم</Mois <إلى> Nb><Date>1 <Mois></Nb< ديسمبر>Nb></Mois>2008 </Période ></Date>
</Nb< " بهذا " المبادرة الهيئات إحدى وهي اوبيفرانس وكالة لدى علمنا حسبما بالجزائر،.اللقاء
Cas de reconnaissance d’expression temporelles
CIT
ALA
20
09
L’annotation de l’information spatiale, implique l’identification des noms de lieux géographiques : village, ville, pays, continent, mer, océan, fleuve, lac, montagnes, désert, plaines, etc. ainsi que toutes les unités linguistiques (noms de localisation, verbes de localisation, adjectif de localisation, adverbes de lieux, etc. ) pouvant marquer et indiquer un nom de lieu ou contribuant à dénoter un nom de lieu. De la même manière, nous utiliserons des expressions régulières ainsi que des règles d’exploration contextuelles pour leur identification.
من سيقام الذي بالجزائر األول المغاربي المعرض إلى 26سيشهد 1نوفمبرمشاركة المعارض بقصر إليه 267ديسمبر أشار حسبما المنطقة بلدان من عارضا
) المنظمة ) سافيكس والصادرات للمعارض الجزائرية الشركة مسؤولو األحد يومالتظاهرة .لهذه
األول المغاربي المعرض >prep><Lieu<سيشهدمن >Lieu></ville</الجزائر>ville></prep<ب سيقام إلى 12الذي 2 1نوفمبر
المعارض >loc> </prep <ب >Lieu> <prep<نوفمبر 267مشاركة > Lieu> </loc</قصرالجزائرية الشركة مسؤولو األحد يوم إليه أشار حسبما المنطقة بلدان من عارضا
) التظاهرة ) لهذه المنظمة سافيكس والصادرات .للمعارض
Règle : <préposition> <ville> ---> <Lieu><préposition> <Loc> ---> <Lieu>
Cas de reconnaissance d’expression de localisation
Reconnaissance d’entités de type localisation
Exemple :
CIT
ALA
20
09
Il peut s’agir soit d’entités de mesure soit d’entités monétaires soit des pourcentages. Un nombre est soit un:- numérique simple : 10 ،دينار 100دوالر، 15أورو مليون ،- numérique avec virgule : %5,7 - numérique négatif : -6 %- numérique composé : دينار 7أالفLes classes utilisées pour l’identification et l’annotation des informations numériques sont :- unités monétaires ) دوالر,دينار, أورو (- unité de mesure ) كم, متر, لتر, كغ , …(- de signes relatifs au pourcentage )%(
على... العمومية الخزينة معدل 137حصلت أي دينار، ثمن 3مليار دج ماليير. واحدة عمومية مؤسسة بيع
على... العمومية الخزينة <Nb><ExpMon> 137 <NbL<حصلت</Nb<مليار/>NbL> <Dev<دينار />ExpMon></Dev< معدل أي ،>Nb>< ExpMon
> 3</Nb> NbL<ماليير>Dev></NbL<دج/>ExpMon></Dev< مؤسسة بيع ثمن. واحدة عمومية
Règle : Nous aurons à employer généralement pour l’annotation des expressions de mesure, des expressions régulières.
Cas de reconnaissance d’une expression de mesure
Exemple :
Reconnaissance d’entités de type numérique (EN de mesure ou monétaire)
CIT
ALA
20
09
Les règles de repérage de relations entre actants s’appuient sur des segments textuels déjà annotés (>actant<, >Temps<, >Lieu<…).
Les règles d’annotation augmentent celles de la précédente étape de deux nouvelles formes: l’une qui prend en compte, dans ses prémisses, des segments textuels déjà annotés et l’autre prenant en charge les notions d’indicateur, d’indices complémentaires et d’espace de recherche selon la méthode de l’exploration contextuelle.
Du fait, de la multitude de relations qui peuvent exister entre les entités nommées, nous nous sommes limités aux relations liées à la notion rencontre (scientifique, politique, économique, culturelle, religieuse, etc.).
L’objectif étant d’essayer de repérer dans les dépêches de presse, les rencontres de personnes scientifiques, politiques, culturelles apparaissant dans les textes journalistiques et d’essayer d’extraire toutes les informations les décrivant (les personnes qui se sont rencontrées, date, lieu, …). De ce fait, nous tâcherons de recenser les verbes véhiculant cette notion du genre (، لقي، ....، عقدحاورت ).
Extraction des relations entre les ENs
CIT
ALA
20
09
Exemple :
<Phrase>التقى>FS><ActP< الرئيس>Nat></FS< الجزائرى>NP></Nat< بوتفليقة العزيز > ExpT>،<FS><ActP<اليوم >ActP></NP> ، <ExpT</عبد
العام الم >FS> <Org</األمين اإلسالمى ؤلمنظمة أكمل >NP></Org<تمرأوغلو أحسان يزور >ActP></NP</الدين >Lieu</الجزائر >Lieu<الذى
> Phrase.</حاليا
بوتفليقة العزيز عبد الجزائرى الرئيس العام ،التقى األمين اليوم،يزور الذى أوغلو أحسان الدين أكمل االسالمى الموءتمر لمنظمة
. نشاطات اللقاء خالل اوغلو مع بوتفليقة الرئيس وبحث حاليا الجزائرداكار قمة بعد خاصة واالنسانية واالقتصادية السياسية المنظمة
ميثاقها أقرت التى . … االخيرة
<VRenc><RencontreRel><Phrase>التقى>FS><ActP></VRenc <العزيز >NP></Nat<الجزائرى >Nat></FS<الرئيس عبد
األمين > ExpT>،<FS><ActP<اليوم >ActP></NP> ، <ExpT</بوتفليقةالم >FS> <Org</العام اإلسالمى ؤلمنظمة الدين >NP></Org<تمر أكمل
أوغلو يزور >ActP></NP</أحسان >Lieu<الذى> Phrase.</حاليا >RencontreRel></Lieu</الجزائر
Annotation des entités nommées
Annotation des relations de type Rencontre
Cas de reconnaissance d’une relation de Rencontre
CIT
ALA
20
09
Problèmes rencontrés Problèmes rencontrés dans le cas des textes dans le cas des textes arabesarabes
CIT
ALA
20
09
1. Forme agglutinante des mots arabes : la langue arabe est une langue agglutinante. En effet, les mots arabes, peuvent être affixés, ce qui fait que des fois il y’a des particule qui colle à certaines entités ce qui ne facilite pas leur détection.
2. Absence de casse (indice naîf): absence de majuscules et de minuscules, dont la présence faciliter la reconnaissance des entités nommées du type noms propres par exemple.
3. Absence de normes d’écritures des noms propres : certains noms propres en langue latines sont retranscris en langue arabe mais sous plusieurs formes, par exemple : Poutine est réécrit en arabe : بوتين، بوتن d’où la difficulté à réunir l’ensemble des formes possibles et d’où la nécessité de normaliser l’écriture des noms propres d’origine non arabe.
4. Non voyélisation des textes arabes est source d’ambiguïtés. En effet, le mot en arabe « مؤسسة » sans voyelles, peut s’interpréter selon deux sens distinct :
ة¿ ÀسÀسÀؤÁم entreprise fondatrice مÁؤÀسÂسÀة
5. Problèmes de délimitation des entités nommées pour deux raisons : - mot inconnu : absence d’informations morphologiques (nécessite de disposer
d’un analyseur morphologique) - antonomase : passage du mot de la langue au nom propre
6. problème de la ponctuation qui n’est pas respectée dans la rédaction des textes arabes.
Problèmes rencontrés dans le cas des textes arabes
CIT
ALA
20
09
ConclusioConclusionn
CIT
ALA
20
09