22
FRE 2645 Formalisation Formalisation de règles d'indexation MeSH de règles d'indexation MeSH pour un usage automatique pour un usage automatique Aurélie Névéol 1,2 , F. Florea 1 , B. Thirion 2 , SJ. Darmoni 1,2 Laboratoire PSI FRE CNRS 2645 - INSA de Rouen & Université de Rouen Equipe CISMeF & L@STICS, CHU de Rouen.

FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Embed Size (px)

Citation preview

Page 1: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

FRE 2645

Formalisation Formalisation de règles d'indexation MeSHde règles d'indexation MeSH pour un usage automatique pour un usage automatique

Aurélie Névéol1,2, F. Florea1, B. Thirion2, SJ. Darmoni1,2

Laboratoire PSI FRE CNRS 2645 - INSA de Rouen & Université de Rouen

Equipe CISMeF & L@STICS, CHU de Rouen.

Page 2: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Diapo 2

PlanPlan

Contexte: recherche d’information en santé (CISMeF)

Objectif : Indexation et codage des documents médicaux

Algorithme d’indexation

Construction de ressources terminologiques

Dictionnaire électronique médical

Bibliothèque de transducteurs (Implémentation de règles)

Perspectives

Conclusion: impact sur l’indexation

Page 3: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Diapo 3

Indexation et codage Indexation et codage de documents médicauxde documents médicaux

Depuis une dizaine d’années:

Augmentation croissante du nombre de ressources médicales électroniques (dossiers patients, articles scientifiques, recommandations, etc. )

Forte demande sur les professionnels de santé et les documentalistes pour une indexation ou un codage normalisé des informations à l’aide de terminologies (MeSH, CIM10, SNOMED…)

Automatisation nécessaire

Page 4: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Diapo 4

Exemple d’indexation: notice Exemple d’indexation: notice CISMeFCISMeF

Thésaurus MeSH (Medical Subject Headings) de la National Library of Medicine (NLM): ~23.000 mots clés (ex:tumeurs du sein, grossesse) organisés

hiérarchiquement (ex: tumeurs du sein est un fils de tumeurs) 84 qualificatifs (ex:diagnostic, thérapeutique …)

265 Types de ressource CISMeF (ex: cours, mammographie, arbres de décision)

Page 5: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Diapo 5

Affiliation de Qualificatifs et de Affiliation de Qualificatifs et de Types de RessourceTypes de Ressource

Qualificatif: précise le mot clé en délimitant la thématique traitée par un texte. eg. tumeurs du sein/diagnostic

pied/radiographie

Type de ressource: précise le mot clé (ou la paire MC/Q) en dénotant le support de l’information eg. tumeurs du sein/diagnostic\image

pied\radiographie

Page 6: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Diapo 6

Indexation Automatique dans CISMeFIndexation Automatique dans CISMeF

Objectifs définis par l’équipe après test de logiciels d’indexation existants:

Augmenter la couverture du catalogueAujourd’hui: ajout manuel de ~55 nouvelles ressources par semaine – 3.000+ ressources en attente

Maintenir une indexation respectant les standards de l’indexation manuelleNotamment, associations Mot Clés/Qualificatifs, et Mot

clé/Qualificatifs\Type de Ressource

Page 7: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Diapo 7

Algorithme d’indexationAlgorithme d’indexation

1. Repérage des éléments textuels 2. Mapping vers les termes MeSH (MC, Q) et CISMeF (TR)3. Utilisation des propriétés de la terminologie

- Hiérarchie

- Associations Mot Clé / Qualificatif

4. Sélection (quasi) systématique des check tags5. Calcul de score (normalisation tf*idf)6. Constitution de l’index à l’aide d’une fonction de

rupture7. Pondération Majeur/Mineur

INTEX

Page 8: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Diapo 8

Construction des dictionnaires : Construction des dictionnaires : PrincipePrincipe

Format ~ DELA:FormeMeSH,MotCléMeSH.InfoFlexionnelleeg: grippe,grippe.N:fs (DELA)

acariose,acarioses.N:fs (*DELA)

Introduction des étiquettes MeSH pour les mots-clés, QMeSH pour les qualificatifs TR pour les types de ressource, MALADIE pour les mot-clés des arborescences C-F03, …

eg: grippe,grippe.N+MeSH+MALADIE:fsdiagnostic,diagnostic.N+QMeSH:ms

Page 9: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Diapo 9

Construction des dictionnaires : Construction des dictionnaires : réalisationréalisation

Utilisation de l’existant: Dictionnaires DELA, Ressources UMLF (corpus Vidal)

Production d’entrées complémentaires: Entrées semi-automatiques (maladies, syndromes,

carences, tumeurs, …) Inclusion des synonymes MeSH et CISMeF (génération des

entrées puis validation des pluriels) Traduction automatique de synonymes MeSH non traduits

(EN/FR) Entrées manuelles

Bilan: ~40.000 entrées (soit 83% du MeSH): en moyenne, 2,1 entrées/MC.

Page 10: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Diapo 10

Apport lexicographiqueApport lexicographique

Concept Code Arbo MeSH

Nb termes

Mot clé MeSH MeSH - 19032

Qualificatif MeSH QMeSH - 84

Type de Ressource CISMeF TR - 8

Maladie MALADIE C, F03 4065

Organe ORGANE A 1311

Composé chimique SUBSTANCE D sauf D05, D12, D13, D25, D27.505

3995

Technique Thérapeutique TECHNIQUE E 1661

Vaccin VACCIN D24.310.894 71

Personne Hum M 231

Lieu Géographique Top Z 353

Page 11: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Diapo 11

Extrait du dictionnaire de mots Extrait du dictionnaire de mots simplessimples

Entrée « triviale »:accidents,accidents.N+MeSH:mp

Dérivation:accidentel,accidents.A+MeSH:ms

Flexions:accident,accidents.N+MeSH:msaccidentelle,accidents.A+MeSH:fsaccidentelles,accidents.A+MeSH:fpaccidentels,accidents.A+MeSH:mp

Page 12: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Diapo 12

Extrait du dictionnaire de mots Extrait du dictionnaire de mots composéscomposés

Entrée « triviale »:diabete insulinodependant,diabete de type I.N+MeSH:ms

Variante orthographique:diabete insulino-dependant,diabete de type I.N+MeSH:ms

Synonymes:diabete juvenile,diabete de type I.N+MeSH:msdiabete insulinodependant,diabete de type I.N+MeSH:ms

Flexion:diabetes de type I,diabete de type I.N+MeSH:mpdiabetes juveniles,diabete insulinodependant.N+MeSH:mp (synonyme)

Dérivation:diabetique de type I,diabete de type I.N+MeSH:ms (synonyme)diabetiques de type I,diabete de type I.N+MeSH:mp (synonyme)

Page 13: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Diapo 13

Construction des transducteurs Construction des transducteurs

Règles: Associations Mot clé/Qualificatifs (Indexation de textes) Associations Mot clé/Qualificatifs\Type de Ressource

(Indexation texte-image)

Priorité aux Qualifs et TR les plus fréquents

Bilan: ~15 transducteurs

Page 14: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Diapo 14

MéthodeMéthode

Entretien avec un expert MeSH: travail sur corpus indexé

Identification de comportements d’indexation récurrents: élaboration des règles

Validation par l’expert

Implémentation

Page 15: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Diapo 15

Associations MC/QAssociations MC/Q

Règle: indication de la technique T -> technique T / UT!! indication de la substance S -> substance S / TU

Page 16: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Diapo 16

Associations MC\TRAssociations MC\TR

Règle: Image I de l’Organe O -> Organe O\Image I

(« Fig. 1: radiographie du pied » ->pied\radiographie)

Image I confirmer Maladie M -> Maladie M\Image I

(« la radiographie met en évidence une fracture de l’humérus » -> humérus, fracture\radiographie)

Page 17: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Diapo 17

Règles non prises en chargeRègles non prises en charge

Si le mot clé <biopsie> est sélectionné, ainsi qu’une MALADIE de l’arborescence C04

→ la paire <MALADIE/anatomie pathologique> doit être utilisée pour l’indexation.

"ArthroScanner de l'épaule " → <épaule\tomodensitométrie> + <épaule\

arthrographie>+ <épaule, fracture\tomodensitométrie> + <épaule, fracture\arthrographie> + …

Page 18: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Diapo 18

Impact sur l’indexationImpact sur l’indexation

Indexation de 82 ressources extraites aléatoirement de CISMeF:

Couverture MeSH des mots clés utilisés par les documentalistes pour indexer le corpus de test: 33% puis 60%

On considère qu’un mot-clé est « couvert » s ’il existe au moins une entrée DELA pour ce MC.

Page 19: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Diapo 19

Résultats: rang Résultats: rang vs.vs. F-measure F-measure

0

5

10

15

20

25

30

35

40

1 2 3 4 5 6 7 8 9 10 20 35 50

MeSH 60%

MeSH 33%

Page 20: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Diapo 20

RemarquesRemarques

Extraction des mots clés: Limite des dictionnaires: aucun bruit, mais silence du:

Ponctuation, typographie Variantes non répertoriées

Mot clés « implicites » (eg. étude comparée)

Combinaison avec une méthode d’indexation statistique (kNN)

Page 21: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Diapo 21

PerspectivesPerspectives

Amélioration du système: Enrichissement des ressources linguistiques Distinction Majeur/Mineur

Mise en production: Automne 2005 Indexation entièrement automatique des ressources

portant sur des thèmes déjà largement couverts Indexation semi-automatique

(automatique+validation) pour les autres ressources Evaluation par les documentalistes (qualitative et quantitative)

Page 22: FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire

Diapo 22

Merci de votre attention!Merci de votre attention!

Contact: [email protected]

Références: [1]   Darmoni SJ, Leroy JP, Thirion B, Baudic F, Douyère M and Piot J.

CISMeF: a structured Health resource guide. Meth Inf Med 2000: 39(1): 30-5

[2] Névéol A, Rogozan A, Darmoni SJ. Indexation automatique de ressources de santé à l’aide de paires de descripteurs MeSH (2005) TALN, sous presse.

[3]   Douyère M. Soualmia LF., Névéol A., Rogozan A., Dahamna B., Leroy JP., Thirion B., Darmoni SJ. (2004) Enhancing the MeSH thesaurus to retrieve French online health resources in a quality-controlled gateway. Health Info Libr J. 2004 Dec;21(4):253-6.

[4]   Florea FI, Rogozan A, Bensrhair A and Darmoni SJ. Medical image retrieval by content and keyword in a on-line health-catalogue context, Proc. Mirage 2005 : 229-36