View
3
Download
0
Category
Preview:
Citation preview
Workshop
Langues de moindre diffusion
23 et 24 Juin, Gennevilliers
TICLA - ICTAL
Technologies d’Information et de Communication en Langue Arabe
Langue arabe et normalisation
Domaine e-Learning
Mokhtar BEN HENDA
MICA-GRESIC, Université de Bordeaux 3
Historique des obstacles normatifs� Codage des caractères arabes
– Consensus arabe : Codar-U (1977), ASMO 449, 662, 708
– Reconnaissance internationale : ECMA 114 (1986), ISO 8859-6 (1999)
– Normalisation élargie : UNICODE, Plan multilingue de base (BMP), rangée 6 (Unicode/U0600)
� Arabisation des outils et des applications
– Problèmes de Localisation (l10n) & Internationalisation (i18n)
• Unifier les calendriers, mesures, chiffres, monnaie entre les pays arabes
– Problèmes d’Interfaçage
• Algorithmes Bidi (Gérér la Bidirectionnalité multilingue : Césures, insertions)
• Problèmes de fontes arabes : Jointure des Glyphes, positions
• Unification des claviers mixtes :
– Double alphabets (AZERTY/QWERTY)
– Multistandards (ASMO, IBM, Apple)
Historique des obstacles normatifsClavier ASMO 663
Clavier Arabe courant
Clavier Arabe Apple MAC
Historique des obstacles normatifs
�TAL : Traitement automatique de la langue
arabe
– Contraintes de la Traduction Assistée par
ordinateur (TAO)
• Mécanisation tardive (histoire de l’imprimerie -> état
cursif)
• Bipolarité linguistique entre Marghreb & Machreq
• Dépendance envers deux langues pivots
• Forte interférences langagières (dialectales et
étrangères)
• Archaïsme langagier : arabe technique
Historique des obstacles normatifs
�Production des contenus
– Problèmes d’OCR
• Un « bon » OCR : 30-40% de WER (Word Error Rates)
• OCR entrainé sur une fonte identique : 10% WER
• Polices ambiguës : 70% WER
– Problèmes de production scientifique en langue
arabe
• Standards éditoriaux : Formats des Revues
électroniques, Archives ouvertes, Bibliothèques
virtuelles
Historique des obstacles normatifs
�Référencement des ressources
– Métadonnées arabes
• Normes internationales peu soucieuses des langues
minorées
• Rares arabisations de normes : la description des
ressources bibliographiques (normes IFLA)
– Profils d’application arabes
• Aucune initiative pour créer des profils d’application ou
adapter des schémas de métadonnées (DC, LOM, MLO
etc.)
Historique des obstacles normatifs
�La sémantique
– La terminologie arabe
• Différences langagières Maghreb/Machreq
• L’archaïsme langagier (arabe technique)
• Les abréviations et acronymes
– Les ontologies de domaines en langue arabe
• Tributaire d’une science terminologique
• Inopérantes face à l’inertie des académies de langues
– Les réseaux (Web) sémantiques arabes
• Besoin d’une technologie de pointe (XML, RDF, OWL etc.)
• Besoin d’une ingénierie linguistique non redondante et mieux articulée entre les chercheurs arabes
• Besoin de protocoles multilingues adaptés
�Zones systèmes : iDNS, gTLD & ccTLD
– Multilingual Internet Names Consortium (MINC)
• Lancé en 1998 par Dr Tan Tin Wee, chercheur à
l’University Nationale de Singapour : premier
serveur proxy iDNS
Historique des obstacles normatifs
Historique des obstacles normatifs
�Zones systèmes : iDNS, gTLD & ccTLD
– 19 Avril 2010 : fin du monopole de l’alphabet
romain sur le système des adresses (DNS) (2009 :
accord entre l’UNESCO et l’ICANN)
• 11 langues sont acceptées
• L’arabe est parmi les premières langues non
latines à être utilisée dans l’écriture des
suffixes gérés par l’ICANN
– Égypte (.masr)
– Arabie saoudite (.alsou3oudiya)
– Émirats arabes unis (.imarate)
• 4 autres pays ont suivi : Le Qatar, la Jordanie, la
Palestine et la Tunisie
• Jeudi 21 avril 2011, 2 nouveaux pays acceptés :
Algérie et le Maroc
�Zones systèmes : iDNS, gTLD & ccTLD
– 20 juin 2011 : fin des restrictions sur les domaines
de premier niveau génériques : gTLD (comme
.com, .gov et .edu),
– Premiers domaines de premier niveau génériques
(gTLD) devraient être lancés avant la fin de 2012
• En quoi est-ce important pour la langue
arabe ?
• Quelle stratégie adopter ?
Historique des obstacles normatifs
Historique des obstacles normatifs
�Les institutions normatives (échelle arabe)
– ASMO : dissoute en 1989 et ses fonctions sont transférées à
l'Organisation arabe pour le développement industriel et minier
(AIDMO)
– AIDMO confie l’élaboration des normes au Centre de normalisation et
de métrologie (SMC)
– 1998 : TC-8 « Utilisation de l'arabe dans les TI» mis sous tutelle du
SASMO, Syrie (Organisation arabe syrienne de normalisation et de
métrologie)
Historique des obstacles normatifs� Les institutions normatives (échelle internationale)
– ISO TC & ISO/IEC JTC1Country Acronym Name/Adresse / URL SC (p/o) TC PDC (*)
Algeria IANOR Institut algérien de normalisation [2]
(27-p, 36-p)
51 3
Bahrain BSMD Bahrain Standards & Metrology Directorate, 0 10 2
Egypt EOS Egyptian Organization for Standardization and Quality [6]
2 (p), 22 (o), 24 (p), 32 (p), 34 (p), 37 (p)
290 3
Iraq COSQC Central Organization for Standardization and Quality Control [0] 32 3
Jordan JSMO Jordan Institution for Standards and Metrology [0] 22 3
Kuwait KOWSMD Public Authority for Industry, Standards and Industrial Services [0] 6 2
Lebanon LIBNOR Lebanese Standards Institution [2]
25 (p), 34 (p)
20 3
Libyan Arab
Jamahiriya
LNCSM Libyan National Centre for Standardization and Metrology [0] 36 3
Mauritania DNPQ Direction de la Normalisation et de la Promotion de la Qualité [0] 2 1
Morocco IMANOR Institut Marocain de Normalisation [4]
2 (o), 7 (o), 27 (p), 29 (o)
72 3
Oman DGSM Directorate General for Specifications and Measurements [0] 22 3
Palestine PSI Palestine Standards Institution [0] 5 3
Qatar QS Laboratories and Standardization Affairs [0] 27 2
Saudi Arabia SASO Saudi Standards, Metrology and Quality Organization [4]
6 (o), 27 (o), 28 (o), 36 (o)
152 3
Sudan SSMO Sudanese Standards and Metrology Organization [0] 10 2
Syrian Arab
Republic
SASMO Syrian Arab Organization for Standardization and Metrology [0] 18 3
Tunisia INNORPI Institut National de la Normalisation et de la Propriété Industrielle [3]
2 (p), 6 (p), 36 (p)
163 3
United Arab
Emirates
ESMA Emirates Authority for Standardization and Metrology [1]
27 (p)
14 2
Yemen YSMO Yemen Standardization, Metrology and Quality Control Organization [0] 3 1
Historique des obstacles normatifs� Les institutions normatives (échelle internationale)
– ISO/IEC JTC1 (Technologies de l’Information)
Sous-comité Titre du sous-comité Pays arabes membres
JTC 1/SC 2 Jeux de caractères codés Egypte, Maroc, Tunisie
JTC 1/SC 6 Téléinformatique Tunisie
JTC 1/SC 7 Ingénierie du logiciel et des systèmes Maroc
JTC 1/SC 17 Identification des cartes et des personnes /
JTC 1/SC 22 Langages de programmation, leur environnement et interfaces des logiciels de systèmes Egypte
JTC 1/SC 23 Supports enregistrés numériquement pour échange et stockage d'information /
JTC 1/SC 24 Infographie, traitement de l'image et représentation des données environnementales Egypte
JTC 1/SC 25 Interconnexion des appareils de traitement de l'information Liban
JTC 1/SC 27 Techniques de sécurité des technologies de l'information Algérie, Maroc, Arabie Saoudite, Émirat
Arabes unis
JTC 1/SC 28 Équipements de bureau Arabie Saoudite
JTC 1/SC 29 Codage du son, de l'image, de l'information multimédia et hypermédia Maroc
JTC 1/SC 31 Techniques d'identification et de captage automatiques des données /
JTC 1/SC 32 Gestion et échange de données Egypte
JTC 1/SC 34 Description des documents et langages de traitement Egypte, Liban
JTC 1/SC 35 Interfaces utilisateur /
JTC 1/SC 36 Technologies pour l'éducation, la formation et l'apprentissage Algérie, Arabie Saoudite, Tunisie
JTC 1/SC 37 Biométrie Egypte
JTC 1/SC 38 Plate-formes et services d'applications distribuées /
Historique des obstacles normatifs� Les normes de la langue arabe
- BS 4280: 1969 (1983) : Transliteration of Arabic characters with corresponding letters from the Roman alphabet.
- ISO 233: 1984 : Transliteration of Arabic characters into Latin characters using stringent conversion for international information exchange and international communication of written messages. It cancels and replaces ISO R 233-1961.
- ISO 233-2: 1993 : Simplifies the stringent rules of ISO 233:1984 and facilitates the processing of bibliographic information, namely, catalogues, indices and citations.
- ISO 233-3: 1999 : This is an upgraded version of ISO 233-2: 1993.
- ISO 639: 1988 : This provides codes for the representation of languages, and represents Arabic as ar.
- ISO 6438: 1983 : This contains a set of 60 African graphic characters and their coded representations for the interchange of bibliographic information.
- ISO 8859-6:1987 (ASMO 449E) : This is an 8-bit code closely related both to 7-bit ASCII and to ASMO 449
- ISO 9036: 1987 (ASMO 449) : This is an Arabic 7-bit coded character set for the interchange of information.
- ISO/DIS 11822 : An extension of the Arabic alphabet coded character set for the interchange of bibliographic information.
- ISO-10646 (Unicode) Unicode a 16-bit code
Pour une terminologie arabe normalisée� Quelques structures de recherche en terminologie arabe :
– Centre d’Etudes et de Recherches en Terminologie Arabe (Liban)
– Bureau de Coordination de l'Arabisation, Rabat (Ligue arabe/Alecso)
Pour une terminologie arabe normalisée
Pour une terminologie arabe normalisée
Pour une terminologie arabe normalisée
Pour une terminologie arabe normalisée
Pour une terminologie arabe normalisée
Pour une terminologie arabe normalisée
Domaine de pratique : � Terminologie spécialisée (e-Learning)
� Un sous ensemble d’une conception plus complexe des
systèmes conceptuels d’organisation de la connaissance (KOS)
L.Romary, 2004
LES SYSTÈMES SÉMANTIQUES
Sue Ellen Wright, 2005
LA TERMINOLOGIE DANS LA CONSTRUCTION SÉMANTIQUE
� Au cœur des technologies sémantiques nous trouvons , entre autres, les
modèles, langages et outils suivants :
– Des langages (vocabulaires/terminologies) dotés, le plus souvent,
d'une sémantique formelle pour représenter des "ontologies" de
domaines,
– Des ontologies représentant les structures conceptuelles qui
modélisent au mieux de manière explicite et consensuelle un
domaine, et qui permettent d'indexer (de décrire ou annoter ou
encore "tagger") les objets réels du domaine.
� La terminologie désigne :
– un ensemble de pratiques et méthodes utilisées pour la collection,
la description et la présentation des termes,
– un ensemble de termes, vocabulaire d’un domaine de spécialité.
Les approches terminologiques� Un approche onomasiologique :
– Partir des concepts (objet
scientifique, notion technique,
comportement ou pratique dans
un domaine spécialisé) pour
étudier leur expression, qui va de
la signification aux mots,
� Une approche sémasiologique :
– Partir des mots pour aller vers
leurs significations
– On s’intéresse au terme en tant
que signe, fonctionnant dans un
système linguistique particulier
Sens
Forme
Forme
Forme
Forme
Forme
Sens
Sens
Sens
Sens
Sens = Concept Forme = Terme
L’APPROCHE ONOMASIOLOGIQUE� Approche Wüstérienne
– « Il convient de se rappeler que tout travail terminologique devrait être fondé
sur des notions et non sur des termes » Helmut Felber (disciple d’Eugène Wüster)
– Le concept existe indépendamment du terme (Wüster) :Un concept consiste en un agrégat de caractéristiques que l’on peut percevoir comme étant commun à un certain nombre d’individus et que l’on utilise pour structurer mentalement le domaine et pour communiquer. Le concept est un élément de la pensée.
– Les termes sont des étiquettes de concepts qui sont des entités abstraites indépendantes des textes
– Cette approche cherche à établir par les termes des structures de connaissances dans des domaines de spécialités
• par la comparaison et la différenciation des concepts qui sont reliés aux termes
• par l’analyse des liens horizontaux et verticaux entre concepts
L’APPROCHE ONOMASIOLOGIQUE : MODÈLE TMF� TMF (Terminological Markup Language) = ISO 16642 : Applications informatiques
en terminologie -- Plate-forme pour le balisage de terminologies informatisées
� Adapté pour les bases terminologiques multilingues
L’APPROCHE ONOMASIOLOGIQUE : MODÈLE TMF� Distingue des niveaux de description successifs :
– données dites « conceptuelles », communes à toutes les langues,
– données propres à une langue,
– données propres à un terme.
Langue 1 Langue 2
Langue 3
Définition
Terme 1 Terme 2 Terme...
UsageGrammaire Contexte ...
« Concept »
Langue ...
L’APPROCHE ONOMASIOLOGIQUE : MODÈLE TMF
� Un format de description terminologique (TML : Terminological Markup
Language) qui décrit 2 éléments essentiels :
– Un squelette structurel
abstrait qui est
commun à toute
description
terminologique;
– Un ensemble de
catégories de données
correspondant aux
informations que ce
format veut
représenter.
CAPACITÉS D’ÉCHANGE DE TMF� Capacités d’échange entre des formats de références comme Martif (Iso 12200), Geneter
(Annexe C de TMF) et DXLT,
� Le principe : une structure minimale commune à tous les langages de représentation de données terminologiques (TML : Terminological Markup Language),
� Le rôle de TMF serait d’assurer la communication automatique entre deux langages de représentation de données par le moyen des filtres de transfert des formats vers une représentation abstraite intermédiaire nommée GMT (Generic Mapping Tool)
L’APPROCHE SÉMASIOLOGIQUE� Approche Post-Wüster (Sémasiologique)
– Opérationnalisation des terminologies,
– La terminologie est de plus en plus mobilisée au sein de discours liés à
une pratique (un mot isolé n’a pas de sens),
– Elle se construit à base de termes réellement utilisés par une
communauté d’utilisateurs dans un domaine d’activité,
– Le texte est une excellente trace de l’activité dont on veut modéliser
les concepts
Les choix du SC36 : Cadre institutionnel� Sous comité 36 de l’ISO/CEI JTC1, chargé de la normalisation
des TICE et de l’e-Learning
VocabulaireTERMINOLO
GIE
ISO CEI
SC1 SC36 SC38
TC1
TC…
TC37
TC…
TC257
WG2WG1 WG7WG3 WG4 WG5 WG6
Technologies collaboratives
PLATES-FORMES
Informations sur l’apprenantPROFIL DES
APPRENANTS
Gestion et livraison de
connaissanceMETADONNE
ES
Assurance de qualité et cadres descriptifs
E-QUALITE
Technologie de support et
intégration de spécification
CADRE REFERENCIEL
Culture, langage et besoin individuel
ACCESSIBILITE
JTC1
… …
Les choix du SC36 : Le business plan
du WG1 � Dirigé sur deux actions parallèles:
– La production des listes terminologiques multilingues
normalisées des TICE et de l’e-Learning (ISO/IEC 2382-36:2008)
• Adoption des normes du TC 37 (fondées sur l’approche
onomasiologique de Wüster)
– La création d’une ontologie du domaine e-Learning
• Ontologie hybride
– Semasiologique : à partir du corpus des textes des normes publiées (186 normes)
– Onomasiologique : liste de 260 termes et définitions en dehors des textes des normes
LES CHOIX DU SC36 : CADRE DE RÉFÉRENCE� Normes ISO du TC37 : « Terminologie et autres ressources langagières et ressources de
contenu »
� La norme ISO 16642 est à la base des travaux du SC36/WG1 (TMF : Terminological
Markup Framework)
N°°°° Titre
ISO 704 Travail terminologique -- Principes et méthodes
ISO 860 Travaux terminologiques -- Harmonisation des concepts et des termes
ISO 1087 : Travaux terminologiques -- Vocabulaire -- Partie 1: Théorie et application; Partie 2: Applications logicielles
ISO 10241 Normes terminologiques internationales -- Élaboration et présentation
ISO 12620 Terminologie et autres ressources langagières et ressources de contenu -- Spécification de catégories de données et gestion d'un registre de catégories de données pour les ressources langagières
ISO 16642 Applications informatiques en terminologie -- Plate-forme pour le balisage de terminologies informatisées
Exemple applicatif pour le SC36/WG1� TMF sous XMLMind
Concept
identifier
Note
(english,
french)
Language
coe
Empty
definition
and term
Staus value
Validator
Produit terminologique multilingue TMF� ISO/IEC 2382-36:2008 -- Technologies de l'information
— Vocabulaire — Partie 36 : Apprentissage, éducation
et formation
L’ÉTAPE SÉMASIOLOGIQUE DU SC36/WG1� Un travail sur des corpus textuels de normes publiées
WG1
❶
❷
❸
❶ : Extraction terminologique
❷ : Production et validation des concepts
❸ : Construction de l’ontologie e-Learning
L’ÉTAPE ONOMASIOLOGIQUE DU SC36/WG1� Un travail su des concepts hors textes pour des normes
à publier
Les acteurs de la chaine terminologique du
SC36/WG1
ITVMT
CDB
WG1
Registre de terminologie e-Learning
Équipe de maintenance
de vocabulaire
Base de données des
concepts
Base de données terminologiques
multilingues
Graphes conceptuels e-Learning
Sémantique TICE et
e-Learning
PROJET SC36/WG1 EN DÉVELOPPEMENT� Production d’un environnement hybride sous
Greenstone
PROJET SC36/WG1 EN DÉVELOPPEMENT�Production d’un environnement hybride sous
Greenstone
– Construire une ontologie à partir de corpus existants,
– Rendre compte au plus juste de la connaissance telle qu’elle est
explicitée dans des documents issus de la pratique du domaine,
– Utiliser des termes réellement utilisés par une communauté
d’utilisateurs dans un domaine d’activité (Approche sémasiologique),
– Maintenir le lien entre l’ontologie à produire et les éléments textuels
qui justifient la modélisation choisie.
Perspectives� Passer à la recommandation SKOS du W3C : « Simple
Knowledge Organisation System »
– Pour exprimer la structure et le contenu des schémas
des concepts (thésaurus, systèmes de classification,
listes de vedettes matières, taxonomies, terminologies,
glossaires et autres types de vocabulaire contrôlé),
– Pour intégrer le formalisme des modèles de graphes du
RDF dans les produits terminologiques du WG1
Recommended