L’expressivité des modèles de recherche
d’informations précises
Le support de vocabulaires et son application à la re-
cherche d’information médicale
Loïc Maisonnasse1, Catherine Berrut1, Jean-Pierre Chevallet2
1 LIG-UJF - 38041 Grenoble Cedex 9, [email protected], [email protected] IPAL-I2R, Singapore [email protected]
RÉSUMÉ. Nous proposons dans cet article de modéliser l’expressivité des systèmes de recherched’information (SRI). En effet peu de cadres de modélisation sont disponibles pour spécifier lesSRIs. Nous proposons un tel cadre sur lequel nous portons un intérêt particulier à la modé-lisation de l’expressivité. Le niveau d’expressivité est important dans les SRIs, et positionnerun système au bon niveau permet d’obtenir de meilleurs résultats. Le cadre de modélisationque nous proposons permet ainsi de choisir l’expressivité d’un modèle et de comparer des mo-dèles sur leur niveau d’expressivité. Nous montrons en dernier lieu les possibilités offertes parce cadre pour sélectionner le niveau d’expressivité sur une tâche de recherche d’informationmédicale, où les utilisateurs expriment des besoins complexes.
ABSTRACT. This article proposes to model the expressiveness of information retrieval systems.Indeed few modeling framework are available to model retrieval systems. We propose here sucha framework, where we focus on the modeling of expressiveness. Indeed the level of expressivityis important in information retrieval and positioning system at the right level allows to achievebetter results. The modelling framework that we propose allows to compare or to choose theexpressiveness of one or more models. We show the possibilities provided by this framework toselect the level of expressiveness on a medical information retrieval task, where users expresscomplex needs.
MOTS-CLÉS : recherche d’information, expressivité, modèle
KEYWORDS: information retrieval, expressiveness, model
Actes du XXVIe congrès INFORSID 263 Fontainebleau, mai 2008
1. Introduction
La Recherche d’Information (RI), comme presque toutes les activités scientifiques,
doit construire un modèle sur lequel se base la réalisation d’un Système de Recherche
d’Information1 (SRI). La courte histoire du domaine de la RI a vu l’émergence de
nombreux modèles, bien différents les uns des autres : le modèle vectoriel, le modèle
logique, le modèle probabiliste et le modèle de langue pour ne citer que quelques-
un. Modéliser, c’est représenter partiellement mais formellement la réalité. En RI,
cela consiste à représenter le contenu d’un document dans le but de le retrouver plus
tard, lorsque survient une requête d’un utilisateur. Un SRI est en effet un médiateur
informatique entre le besoin d’information d’un utilisateur et l’information contenue
dans des documents.
Quelques efforts de modélisation comme les travaux de Sandor (Sándor, 2000) ou
de Nie (Nie, 1988) ont tenté de réaliser une modélisation plus générale. Cependant,
nous n’avons trouvé aucun travail dont l’objectif est de représenter l’expressivité des
modèles de RI.
D’abord, qu’entendons nous par "expressivité" ? L’expressivité d’un modèle de RI
représente ce que ce modèle est effectivement capable de décrire. Souvenons nous
qu’un modèle de RI est destiné à représenter une partie du contenu des documents et
des requêtes. En fait, la particularité de la RI est de ne représenter que la partie du
contenu susceptible d’être utilisée pour la recherche des documents.
Ensuite, quel peut être l’intérêt d’exprimer explicitement cette expressivité ? Mo-
déliser est non seulement utile pour construire un système, mais aussi pour en com-
prendre le fonctionnement et en évaluer, par exemple, les limites. Exprimer explicite-
ment l’expressivité d’un modèle de RI doit donc nous permettre de le comparer et de
le positionner par rapport à d’autres. Aussi, le choix du niveau d’expressivité pour la
mise au point d’un modèle peut avoir un impact important sur les performances du fu-
tur système. Concrètement, un modèle de RI sans structure, comme les modèles à base
de "sac de mots" est incapable de représenter les liens entre les mots des documents,
l’ordre des mots dans le document n’est donc pas pris en considération. Rajouter plus
d’expressivité au modèle, par exemple en représentant certaines relations entre les
mots, permet d’être plus précis et donc de répondre plus précisément à une recherche.
C’est notamment le cas dans les domaines d’expertise où la résolution de requêtes pré-
cises nécessite des représentations expressives. Essayez donc de trouver : "comment
enlever les hyper-liens dans le logiciel Pages de chez Apple". Une requête comme :
pages "remove hyperlink" apple, ne fonctionne pas sur un moteur de recherche (ex :
Google), simplement parce que le système ne peux pas établir de lien entre le mot
"pages" et "apple" pour exprimer que "pages" est un logiciel de la société "Apple".
Nous proposons dans cet article de modéliser l’expressivité des modèles utilisés en
RI. Dans ce but nous définissons la notion de support de vocabulaires pour décrire les
modèles dans un seul et même formalisme. Nous présentons de prime abord un pano-
1. également appelé "moteur de recherche" s’il opère sur le Web
Actes du XXVIe congrès INFORSID 264 Fontainebleau, mai 2008
rama de l’expressivité telle que l’utilisent les SRIs textuels. Suite à ce panorama, nous
présentons un cadre pour la modélisation de l’expressivité. Nous utilisons finalement
le cadre proposé pour définir des modèles d’expressivité variable que nous évaluons
sur une tâche de RI médicale.
2. L’expressivité en RI
2.1. Présentation
L’expressivité représente le nombre de points de vue utilisés pour représenter les
documents et l’espace d’expression de chacun de ces points de vue. Sur un même
document, plusieurs points de vue peuvent être proposés. Par exemple sur la figure 1,
nous proposons plusieurs points de vue sur une image ; l’un à l’aide d’un histogramme
de couleur, l’autre à l’aide de mots désignant ce qui apparaît sur l’image, ou encore
un dernier à l’aide de mots donnant un sens à l’image. Ces points de vue n’ont pas le
même espace d’expression, en revanche ils peuvent être complémentaires.
Figure 1. Exemple de points de vues sur une image
Dans cet article, nous nous intéressons à l’information textuelle. Pour ce type d’in-
formation, nous supposons que l’expressivité est mono-dimentionnelle et peut se re-
présenter sur un axe qui s’étend des systèmes à expressivité faible vers ceux à ex-
pressivité forte. Les systèmes à expressivité faible représentent le document à l’aide
d’un seul point de vue et ce point de vue utilise des descripteurs simples, c’est le cas
des systèmes à base de mots-clefs. Les systèmes à expressivité forte représentent les
documents à l’aide de plusieurs points de vue et utilisent des descripteurs expressifs
tels que des descripteurs sémantiques. Par exemple, les systèmes à base de graphes de
concepts sont expressifs, leurs représentations fournissent plusieurs points de vue et
ces points de vue sont sémantiques.
L’expressivité d’un SRI se manifeste à travers le langage de représentation des do-
cuments (langage d’indexation) et le langage de représentation des requêtes (langage
d’interrogation). Au sein de ces représentations, elle se manifeste par le nombre de
points de vue adoptés, ce qui correspond aux différents types de descripteurs utilisés.
Actes du XXVIe congrès INFORSID 265 Fontainebleau, mai 2008
Figure 2. Positionnement des familles d’indexation en RI
Elle se manifeste aussi par l’expressivité de ces descripteurs. Actuellement, il n’existe
pas de modélisation générique qui mette en avant l’expressivité, et de fait, comparer
ou positionner des systèmes sur leur niveau d’expressivité se révèle difficile. Pourtant
une telle modélisation est particulièrement intéressante dans des domaines d’exper-
tise où sélectionner la bonne expressivité permet de mieux répondre à des besoins
d’information complexes.
2.2. À travers l’état de l’art
Nous classons dans cet état de l’art des SRIs textuels qui utilisent des langages
d’indexation d’expressivité diverse. La figure 2 symbolise l’expressivité des modèles
selon cet axe qui s’étend des langages à expressivité faible (ou langages simples) vers
des langages à expressivité forte (langages complexes). Sur cet axe, nous présentons
différentes familles de langages d’indexation utilisées en RI :
– Les langages fondés sur des informations morphologiques sont essentiellement
des langages à base de mots-clefs. Ces langages constituent la majorité des représen-
tations utilisées en RI, mais leur expressivité est faible.
– Les langages fondés sur des informations syntaxiques sont des langages qui in-
tègrent des descripteurs ou des structures syntaxiques. Cette intégration se fait sou-
vent par l’ajout de descripteurs syntaxiques dans des langages à base de mots-clefs
(Strzalkowski et al., 1998, Zhai et al., 1997, Gaussier et al., 2000). Plus rarement, des
modèles plus expressifs utilisent directement les structures syntaxiques (Matsumura
et al., 2000, Metzler et al., 1989, Smeaton, 1999, Gao et al., 2004) et effectuent une
correspondance sur ces structures.
– Les langages fondés sur des informations sémantiques utilisent des descripteurs
ou des structures sémantiques. Certains sont à base de concepts, notamment sur le
domaine médical (Vintar S, 2003, Zhou et al., 2007), d’autres utilisent des structures
sémantiques (Berrut et al., 1989, Genest et al., 2005, Maisonnasse et al., 2007). Ces
langages sont les plus expressifs, toutefois leur obtention à partir du texte est difficile.
Actes du XXVIe congrès INFORSID 266 Fontainebleau, mai 2008
Nous constatons qu’en RI différents niveaux d’expressivité sont utilisés, cependant
comparer ces systèmes sur leur expressivité est complexe. S’il est facile de positionner
un système utilisant des informations morphologiques d’un autre utilisant des infor-
mations sémantiques, il est plus difficile de différencier des systèmes proches et plus
encore de sélectionner le niveau d’expressivité adapté à une tâche. Pour ces diverses
raisons, nous proposons de modéliser l’expressivité.
3. Modélisation de l’expressivité
3.1. Présentation
Nous proposons la définition de modèles dans lesquels des supports de vocabu-
laires mettent en avant l’expressivité. Le support de vocabulaires définit l’ensemble
des vocabulaires utilisés pour représenter les documents ou les requêtes. Un vocabu-
laire correspond à un point de vue sur le document, il est constitué d’un ensemble
de descripteurs, ou unités de vocabulaires. La majorité des modèles de RI reposent
sur une expressivité faible, ils n’utilisent qu’un seul vocabulaire formé d’une seule
sorte de descripteurs éventuellement associé à un poids. Par exemple, dans les mo-
dèles vectoriels sur les mots-clefs, le support de vocabulaires est constitué d’un seul
vocabulaire : l’ensemble des mots-clefs pondérés. Sur d’autres médias, des modèles
utilisent plusieurs vocabulaires, cela permet d’exprimer différents points de vue. Par
exemple, une vidéo peut se représenter à l’aide d’un vocabulaire visuel et d’un voca-
bulaire auditif. Dans ce cas, le support de vocabulaires contient deux vocabulaires qui
fournissent deux points de vue sur le document. Le support de vocabulaires dénote
l’expressivité de la représentation par deux aspects :
– Le premier aspect correspond au nombre de vocabulaires utilisés. Cela consti-
tue le nombre de points de vue par lesquels le système interprète le document ou la
requête.
– Le deuxième aspect correspond à l’expressivité de chaque vocabulaire utilisé.
Cela dépend de la définition des unités de vocabulaires. Les mots-clefs constituent
un type simple dont l’expressivité correspond au niveau morphologique. Les relations
syntaxiques constituent des unités de vocabulaires complexes formées de plusieurs
types : deux lemmes et une étiquette de relation. Leur niveau d’expressivité est syn-
taxique.
Ces deux aspects nous permettent de positionner les systèmes les uns par rapport
aux autres sur l’axe de l’expressivité. Les supports de vocabulaires, tels que nous les
proposons, permettent de modéliser l’expressivité des systèmes de RI. Ils modélisent
le langage d’indexation et le langage d’interrogation.Nous les utilisons pour définir un
cadre dans lequel différentsmodèles peuvent s’exprimer. Ce cadre permet de comparer
plus facilement des systèmes entre eux.
Actes du XXVIe congrès INFORSID 267 Fontainebleau, mai 2008
3.2. Cadre de modèlisation
Nous définissons au préalable deux éléments qui servent à la formation d’un mo-dèle de RI : le support de types et le support de vocabulaires. À partir de ces éléments,nous donnons la définition d’un SRI.
3.2.1. Support de types d’un SRI
Nous définissons le support de types qui détermine les types de base manipuléspar un SRI.
3.2.1.1. Les types d’un SRI
Un SRI dispose d’un certain nombre de types T . Un Ttype se compose d’élémentst ayant des caractéristiques communes, par exemple :
– Tmots un ensemble qui représente les mots détectés dans des textes :
Tmots = {la, plevre, dans, la, cage, thoracique, ...}
– Ttermes un ensemble de termes :
Ttermes = {plevre, cage thoracique, ...}
– Tconcepts un ensemble de concepts. Un concept est une entité abstraite que nousécrivons à l’aide d’un identifiant (ex : C0817096) et d’un terme entre parenthèsesillustrant le concept :
Tconcepts = {C0817096(poumon), C0032225(plevre),
C0222762(cage thoracique), ...}
– Trelations un ensemble de noms de relations sémantiques.
Trelations = {localisation, partie de, touche, ...}
3.2.1.2. Support de types
On appelle support de types ST la liste des types utilisés par un SRI. Un supportde types ST est constitué d’un n-uplet formé de nst types que l’on ordonne de 1 ànst.
ST = (T1, T2, ..., Tnst) avec nst >= 1
Par exemple, pour un SRI basé sur des graphes, on peut définir le support de types :
STgraphes = (T1, T2) où nst = 2, T1 = Tconcepts, T2 = Trelations
3.2.2. Support de vocabulaires d’un SRI
Nous définissons les supports de vocabulaires qui permettent de modéliser desreprésentations. Ces supports possèdent l’avantage de définir les éléments qui consti-tuent une représentation, leur expressivité, leur complexité et par conséquent l’expres-sivité de la représentation.
Actes du XXVIe congrès INFORSID 268 Fontainebleau, mai 2008
3.2.2.1. Vocabulaire d’un SRI
Un vocabulaire V se compose à partir d’un ou plusieurs types Ti de ST . Ce mêmevocabulaire peut posséder une ou plusieurs pondérations restituant l’importance des
éléments. Nous distinguons de fait deux axes pour classer les différents vocabulaires :
– Un vocabulaire V représente un vocabulaire simple si et seulement si il n’utilise
qu’un seul Ti , ou représente un vocabulaire complexe si et seulement si il en utilise
plusieurs.
– Un vocabulaire V désigne un vocabulaire pondéré si et seulement si V associe
une ou plusieurs pondérations à un vocabulaire simple ou complexe.
Vocabulaire simple Un vocabulaire simple V correspond à un seul type.
V ! Ti avec 1 " i " nst
On appelle unité de vocabulairesuv un élément du vocabulaireV . Pour un vocabulairesimple, si uv appartient à V alors uv appartient à Ti.
Sur le support STgraphes, présenté dans la section 3.2.1.2, nous définissons le
vocabulaire simple VsimpleConcepts. Ce vocabulaire est constitué d’unités de vocabu-
laires simples : les concepts, définis par le type Tconcept. Il s’écrit :
VsimpleConcepts ! Tconcept
Une unité de vocabulaire uv appartenant à VsimpleConcepts est un des concepts de
Tconcept, par exemple uv = C0817096(poumon).
Vocabulaire complexe Un vocabulaire complexe V se compose de plusieurs
types Ti d’un support de types ST . Un vocabulaire V formé de nt types s’écrit :
V ! Tfv(1) # Tfv(2)... # Tfv(nt) avec nt > 1 et fv : [1..nt] $ [1...nst]
La fonction fv détermine le type fv(i) du support ST utilisé par le ième type du
vocabulaire. Une unité de vocabulaireuv se décompose ici en plusieurs élémentsuv =(v1, ..., vnt) qui correspondent aux types utilisés par le vocabulaire vj % Tfv(j).
Par exemple, sur le support de types STgraphes (section 3.2.1.2), le vocabu-
laire complexe VcplxRelations qui représente des relations sémantiques entre concepts
s’écrit :
VcplxRelations ! Tfv(1) # Tfv(2) # Tfv(3) avec nt = 3
VcplxRelations ! Tconcepts # Trelations # Tconcepts
Ce vocabulaire utilise la relation fv : {1 $ 1, 2 $ 2, 3 $ 1}
Une unité de vocabulaire uv appartenant à VcplxRelations s’écrit par exemple :
uv = (C0817096(poumon), partie de, C0222762(cage thoracique)) où l’unité uvdécrit le fait qu’un poumon est une partie de la cage thoracique.
Actes du XXVIe congrès INFORSID 269 Fontainebleau, mai 2008
Vocabulaire pondéré Soit V ! un vocabulaire simple ou complexe tel que défini
précédemment. Un vocabulaire pondéréV consiste en l’association d’une ou plusieurs
pondérations à ce vocabulaire V !. Soit np le nombre de pondérations associées à V ,nous définissons l’ensemble V par le produit cartésien entre un vocabulaire V ! et un
ensemble de np pondérations P .
V = V ! ! Pnp avec P = R et np > 0
Une unité de vocabulaire uv se compose alors d’une unité de vocabulaire simple oucomplexe uv! et d’une pondération np :
uv " V avec uv = (uv!, p) tel que uv! " V !, p " Pnp
Sur un vocabulaire simple V ! = VsimpleConcepts, nous formons le vocabulaire pon-
déré VpdsConcepts en utilisant une seule pondération :
VpdsConcepts = V ! ! P 1 avec np = 1
Une unité de vocabulaire uv appartenant à VpdsConcepts se représente par exemple :
uv = (C0817096(poumon), 0.4) avec C0817096(poumon) " VsimpleConcepts et
0.4 " P 1 qui représente l’importance de ce concept dans un document.
Sur un vocabulaire complexe V ! = VcplxRelations, nous formons le vocabulaire
pondéré VpoidsRelations en utilisant deux pondérations :
VpoidsRelations = V ! ! P 2 avec np = 2
Une unité de vocabulaire uv appartenant à VpdsRelation s’écrit par exemple :
uv = ((C0817096(poumon), partie de, C0222762(cage thoracique)), 0.4, 0.7)avec uv! " VcplxRelations et (0.4, 0.7) " P 2 où, par exemple, l’une des pondéra-
tions représente l’importance de la relation dans un document et la deuxième réflète
la confiance dans la détection de cette relation sur le document.
Résumé des vocabulaires Un vocabulaire se compose donc de nt types et nppondérations :
V # Tfv(1) ! Tfv(2)... ! Tfv(nt) ! Pnp
avec nt $ 1, np $ 0, fv : [1..nt] % [1..nst]
Un vocabulaire simple est formé avec un seul type (nt = 1) et aucune pondération(np = 0). Un vocabulaire complexe est formé avec plusieurs types (nt > 1) et sanspondération (np = 0). Enfin un vocabulaire pondéré se compose d’un ou de plusieurstypes (nt $ 1) et avec une ou plusieurs pondérations (np $ 1).
Actes du XXVIe congrès INFORSID 270 Fontainebleau, mai 2008
3.2.2.2. Support de vocabulaires
On appelle support de vocabulaires SV une liste de vocabulaires utilisée par unSRI qui définit un langage de représentation. Ce support constitue un n-uplet formé densv vocabulaires ordonnés de 1 à nsv :
SV = (V1, V2, ..., Vnsv) avec nsv ! 1
Par exemple, un SRI qui représente des graphes utilise un support de vocabulairesconstitué de deux vocabulaires, soit nsv = 2, l’un représentant les concepts, l’autrereprésentant les relations entre ces concepts.
SVgraphes = (V1, V2) où V1 = VpdsConcepts = , V2 = VpdsRelations
Nous écrivons directement : SVgraphes = (VpdsConcepts, VpdsRelations)
3.2.3. Définition d’un SRI
Un SRI manipule un corpus de documents qu’il transpose à l’aide d’une fonc-tion d’indexation en un corpus indexé. Ce corpus lui permet de résoudre des requêtestraduites à partir de besoins utilisateur. Un tel système repose sur la définition d’unmodèle de RI M qui effectue ces deux transpositions et qui fait correspondre les do-cuments aux requêtes. La transposition d’un document en un document indexé reposesur un modèle de document. De même, la transformation du besoin utilisateur en re-quête repose sur un modèle de requête. Enfin, la correspondance entre une requête etdes documents s’établit par une relation de pertinence. Le modèleM définit ces troiséléments.
3.2.3.1. Éléments manipulés par un SRI
Corpus Nous disposons d’un corpusC de documents d de cardinalité nc et d’uncorpus indexé CI constitué de l’ensemble des documents di indexés. A chaque docu-ment d du corpus C correspond une indexation de ce document di qui représente lecontenu du document d selon le modèle de documents.
Requêtes Le besoin d’information b représente la motivation de l’activité de re-cherche. Lorsque l’utilisateur s’adresse directement au SRI, il formule le besoin d’in-formation b sous forme d’une requête q. Cette requête représente de manière plus oumoins approximative le besoin d’information sous-jacent dans le modèle de requête.
3.2.3.2. Modèle de RI
Un modèle M de RI se définit par un quadruplet formé d’un support de typesST , de deux supports de vocabulaires SV définis sur le support de types ST que
Actes du XXVIe congrès INFORSID 271 Fontainebleau, mai 2008
l’on nomme SV D et SV Q qui représentent le modèle de document et le modèle de
requête, et d’une relation de correspondanceRC.
M = (ST, SV Q, SV D, RC) avec :
ST = (T1, T2, ..., Tns)
SV D = (V1, V2, ..., Vnvd) avec !Vi " [1..nvd] , Vi défini sur ST
SV Q = (V1, V2, ..., Vnvq) avec !Vi " [1..nvq] , Vi défini sur ST
RC = {(q, di)} avec q défini sur SV Q et di défini sur SV D
Nous remarquons que dans de nombreux SRI, le modèle de document SV D et le
modèle de reqête SV Q sont identiques.
3.2.3.3. Modèle de document
Pour un modèle M , nous appelons support de vocabulaires de document SV Dla liste des vocabulaires utilisés pour représenter les documents indexés. Le support
SV D correspond à un support de vocabulaires constitué de nvd vocabulaires :
SV D = (V1, V2, ..., Vnvd) avec nvd # 1
Ce support forme le modèle de document et spécifie le langage d’indexation. Nous
distinguons deux types de modèles de document :
– nvd = 1 : les modèles de document mono-index qui utilisent un seul ensemblede vocabulaires. Ces types d’index constituent ceux habituellement utilisés en RI tex-
tuelle. Un système d’indexation conceptuel n’utilise qu’un seul vocabulaire pour l’in-
dexation, celui des concepts.
– nvd > 1 : les modèles de documentmulti-index qui utilisent plusieurs ensemblesde vocabulaires. Ces systèmes utilisent plusieurs vocabulaires pour représenter de fa-
çon multiple les documents : un système de recherche de vidéos peut utiliser d’une
part un vocabulaire textuel pour décrire les scènes du film et d’autre part un vocabu-
laire visuel pour décrire les images de ce film.
Dans un modèle de RI multi-index Mgraphes où le modèle de document repré-
sente les documents à l’aide de concepts et de relations entre concepts. Le support
d’indexation consiste en un multi-index SV Dgraphes tel que :
SV Dgraphes = (VpdsConcepts, VpdsRelations) avec nvd = 1
3.2.3.4. Représentation d’un document indexé
Un document indexé di se compose de nvd ensemblesDV tels que :
di = (DV1, ..., DVi, ..., DVnvd) avecDVi $ Vi
Actes du XXVIe congrès INFORSID 272 Fontainebleau, mai 2008
DVi forme un sous-ensemble de vocabulaires défini par la sélection dans Vi des élé-
ments représentant le document. Un ensemble DVi se constitue de nui unités de vo-
cabulaires uv, tel que :
uv ! DVi et "DVi" = nui
Dans le support de vocabulaires de document SV Dgraphes la représentation did’un document d se définit par :
di = (DVpdsConcepts, DVpdsRelations) avec :
DVpdsConcepts # VpdsConcepts etDVpdsRelations # VpdsRelations
Une représentation de di pour un document s’écrit par exemple :
di = ({(C0817096(poumon), 0.4), (C0032225(plevre), 0.6), ...},
{((C0817096(poumon), partie de,C0222762(cage thoracique)), 0.4, 0.7),
((C0032225(plevre), partie de, C0222762(cage thoracique)), 0.4, 0.7), ...})
Où le document est constitué d’un ensemble de concepts pondérés selectionnés dans
VpdsConcepts et d’un ensemble de relations pondérées de VpdsRelations.
3.2.3.5. Modèle de requête
Pour un modèle de RI M , on appelle support de vocabulaires de requête SV Qla liste des vocabulaires utilisés pour représenter les requêtes, ce support détermine
le modèle des requêtes. Le support de vocabulaires de requête SV Q représente un
support de vocabulaires constitué de nvq vocabulaires de SV :
SV Q = (V1, V2, ..., Vnvq) avec nvq $ 1
3.2.3.6. Représentation d’une requête
Une requête q se compose de nvq ensemblesQV et s’écrit :
q = (QV1, ..., QVi, ..., QVnvd) avec QVi # Vi
QVi forme un sous-ensemble de vocabulaires défini par la sélection dans Vi des élé-
ments représentant la requête. Ces représentations sont identiques dans leur construc-
tion à celles proposées pour les documents dans la section précédente.
3.2.3.7. Modèle de correspondance
Le modèle de correspondance se base sur la définition d’une relation de correspon-
dance entre les documents et les requêtes. La relation de correspondance RC définit
un ensemble de relations entre les documents et les requêtes :
RC = {(q, di)}
Actes du XXVIe congrès INFORSID 273 Fontainebleau, mai 2008
RC s’appuie sur la fonction de pertinence Pert qui, pour chaque document de la col-lection et chaque requête, calcule la pertinence du document vis-à-vis de la requête :
Pert : SV Q ! SV D " R
(q, d) " valeur
3.3. Bilan
Le cadre proposé permet d’établir des modèles qui expriment plusieurs points de
vue (modèle multi-index) sur les documents. Ce dernier met en avant la création de
supports de vocabulaires qui permettent de décrire le modèle des documents et le
modèle des requêtes. L’intérêt de ce cadre est de représenter des modèles divers par un
même formalisme. Cette représentation, par l’utilisation de supports de vocabulaires,
met en avant l’expressivité des modèles et permet de positionner des modèles les uns
par rapport aux autres. Dans la suite, nous proposons quatre modèles basés sur ce
cadre. Ces modèles expriment différents niveaux d’expressivité et nous testons leur
performance en RI médicale.
4. Application
Nous utilisons le cadre proposé pour évaluer l’intérêt de l’expressivité et de sa mo-
délisation pour des requêtes expertes dans le domaine médical. Dans ce but nous utili-
sons la collection CLEF médicale (Müller et al., 2007). Cette collection fait partie de
la campagne d’évaluationCLEF. Nous utilisons les requêtes anglaises2 des campagnes
de 2005 et de 2006 (50412 documents et 55 requêtes avec jugements de pertinence)
pour évaluer plusieurs modèles basés sur des expressivités variables.
4.1. Modèles
Nous proposons quatre modèles de RI présentés selon le cadre de modèlisation.
Nous souhaitons étudier l’expressivité, par conséquent les quatre modèles ont tous
des expressivités différentes mais ils restent des variations du modèle vectoriel. Nous
représentons ces modèles sur l’axe de l’expressivité sur la figure 3.
4.1.1. Modèle à base de lemmes
Ce premier modèle se base sur un vocabulaire de lemmes. Les lemmes Tlemmes
sont obtenus avec l’analyseur syntaxique MiniPar (Lin, 1998). Ils sont détectés dans
2. par exemple : gastrointestinal endoscopy with polyp
Actes du XXVIe congrès INFORSID 274 Fontainebleau, mai 2008
Figure 3. Positionnement des modèles proposés
les documents après un filtrage des types syntaxiques qui ne conserve que les noms,
les adjectifs et les abréviations.
IL = (STIL, SV DIL, SV QIL, RCIL) avec :
STIL = (Tlemmes)
SV DIL = SV QIL = (V ILlemmes) où V IL
lemmes ! Tlemmes " P 1
Dans ce modèle, un document indéxé di est représenté par DV ILlemmes # V IL
lemmes
qui forme l’ensemble des lemmes du document et où P 1 est une variation du tf.idf 3.Une requête est représentée par QV IL
lemmes # V ILlemmes qui constitue l’ensemble des
lemmes de la requête et où P 1 est leur fréquence. Enfin, RCIL effectue le produit
scalaire de ces deux ensembles.
4.1.2. Modèle à base de structures syntaxiques
Le second modèle utilise la structure syntaxique, il se base sur un vocabulaire de
lemmes et un vocabulaire de dépendances. Les lemmes et les noms de dépendances
Tdependances sont produit par l’analyse syntaxique en dépendance de MiniPar. La dé-
tection sur les documents ne conserve que les lemmes qui correspondent à des noms,
des adjectifs ou abréviations et seulement les dépendances qui relient ces lemmes.
ID = (STID, SV DID, SV QID, RCID) avec :
STID = (Tlemmes, Tdependances)
SV DID = SV QID = (V IDlemmes, V
IDdependances) où
V IDlemmes ! Tlemmes " P 1
V IDdependance ! Tdependances " Tlemmes " Tlemmes " P 1
Un document indexé di est constitué de DV IDlemmes # V ID
lemmes, l’ensemble des
lemmes du document, et de DV IDdependance # V ID
dependance, l’ensemble des dépen-
dances du document. Dans les deux cas P 1 est calculé par une variation du tf.idf . De
3. Le tf représente la fréquence d’un descripteur dans le document, l’idf est l’inverse de safréquence dans les documents de la collection, et le tf.idf est la combinaison des deux
Actes du XXVIe congrès INFORSID 275 Fontainebleau, mai 2008
même sur les requêtes, où pour les deux vocabulaires P 1 est la fréquence. Ici RCID
effectue la somme des produits scalaires entre chaque vocabulaire.
4.1.3. Modèle à base de concepts
Nous évaluons ensuite un modèle d’indexation conceptuelle IC. Ce modèle sebase naturellement sur un vocabulaire de concepts. Les unités de vocabulaire qui
forment la représentation du document sont des concepts détectés selon la méthode
proposée dans (Radhouani et al., 2006). Ils correspondent aux concepts Tconcepts dé-
finis dans UMLS4, une source de connaissance du domaine médical. Ce modèle est
défini comme :
IC = (STIC , SV DIC , SV QIC , RCIC) avec :
STIC = (Tconcepts)
SV DIC = SV QIC = V ICconcepts où V IC
concepts ! Tconcepts " P 1
Un document indexé di se constitue de DV ICconcepts # V IC
concepts, l’ensemble des
concepts détectés dans les phrases du document, où P 1 est une variation du tf.idf .Une requête se constitue de QV IC
concepts # V ICconcepts, l’ensemble des concepts détec-
tés dans la requête, avec P 1 leur fréquence. Enfin,RCIC effectue le produit scalaire.
4.1.4. Modèle à base de graphes
Le dernier modèle utilise une structure sémantique, il se base sur un vocabulaire
de concepts et un vocabulaire de relations sémantiques. Ces concepts et ces relations
forment un graphe dont l’extraction à partir des phrases est détaillée dans (Maison-
nasse et al., 2007), les relations utilisées Trelations sont celles du réseau sémantique
d’UMLS. Ce modèle est exprimé par :
IG = (STIG, SV DIG, SV QIG, RCIG) avec :
STIG = (Tconcepts, Trelations)
SV DIG = SV QIG = (V IGconcepts, V
IGrelations) où
V IGconcepts ! Tconcepts " P 1
V IGrelation ! Trelations " Tconcepts " Tconcepts " P 1
Un document indexé di se constitue de DV IGconcepts # V IG
concepts, l’ensemble des
concepts du document, et de DV IGrelation # V IG
dependance, l’ensemble des relations du
document. Dans les deux cas P 1 est une variation du tf.idf , de même pour les re-quêtes où P 1 est la fréquence des éléments. Finalement,RCID effectue la somme des
produits scalaires entre les éléments de chaque vocabulaire.
4. http ://www.nlm.nih.gov/research/umls/
Actes du XXVIe congrès INFORSID 276 Fontainebleau, mai 2008
Modèle
Pondération IL ID IC IG
tf 0.1405 0.1415 0.1649 0.1711
idf 0.1108 0.1194 0.1507 0.1614
tf.idf 0.1296 0.1337 0.1464 0.1584
Tableau 1. Résultats obtenus en précision moyenne par les quatre modèles sur les 55
requêtes de la collection CLEF médical
4.2. Résultats et discussion
Le tableau 1 présente les résultats obtenus par les différents modèles sur la collec-
tion. Pour cette collection qui fournit des besoins d’information experts, les résultats
montrent que plus le modèle est expressif plus les résultats obtenus sont bons, cela
quelle que soit la pondération. Nous remarquons que dans tous les cas le tf seul donneles meilleurs résultats. L’idf a un impact négatif, les mots et les concepts utilisés dansles requêtes sont des mots précis, et ils apparaissent rarement dans la collection, par
conséquent l’idf n’a pas un impact positif.
Les expérimentations présentées montrent la capacité de notre cadre de modélisa-
tion à représenter des modèles différents. Nous avons présenté quatre modèles dont
deux multi-index, sur ces quatre modèles, l’utilisation du cadre facilite leur compa-
raison. Ces modèles varient essentiellement sur leur expressivité (nombre de vocabu-
laires et espace d’expression des vocabulaires). Ils utilisent les mêmes pondérations et
des relations de correspondance proches. Cela permet d’étudier directement l’impact
de l’expressivité, ce qui est fait lors de l’expérimentation.
La tâche Clef médical fournit des besoins précis, plus ces besoins sont représentés
expressivement, plus les résultats sont bons. Nous pouvons en conclure qu’amélio-
rer l’expressivité est bénéfique pour cette tâche. Dans cette application, nous avons
présenté des modèles simples pour lesquels nous avons fait varier d’une part l’expres-
sivité et d’autre part les pondérations. Le cadre de modélisation permet d’aller plus
loin, par exemple sur une même expressivité, il permet de tester des modèles diffé-
rents, notamment en ne variant que la relation de correspondance.
5. Conclusion
Dans certains domaines, notamment les domaines d’expertise, il est important de
bien choisir l’expressivité du SRI. Cependant, peu d’outils sont disponibles pour posi-
tionner et évaluer l’impact de l’expressivité. Nous proposons dans cet article un cadre
de définition des modèles de RI qui met en avant cette expressivité. Ce cadre permet,
par l’utilisation de supports de vocabulaires, de définir différents modèles en mettant
en avant leur expressivité, ce que nous avons fait dans les expérimentations. L’utili-
sation de ce cadre nous permet d’établir une étude sur l’intérêt de l’expressivité pour
Actes du XXVIe congrès INFORSID 277 Fontainebleau, mai 2008
la résolution de requêtes expertes dans le domaine médical. Cette étude montre l’inté-
rêt du cadre pour modéliser l’expressivité et pour étudier son impact dans différentes
tâches de RI.
6. Bibliographie
Berrut C., Chiaramella Y., « Indexing medical reports in a multimedia environment : the RIME
experimental approach », SIGIR Forum, vol. 23, p. 187-197, 1989.
Gao J., Nie J.-Y., Wu G., Cao G., « Dependence language model for information retrieval »,
Research and Development in Information Retrieval, 2004.
Gaussier E., Grefenstette G., Hull D., Roux. C., « Recherche d’informations en francais et
traitement automatique des langues », Traitement Automatique des Langues, 2000.
Genest D., Chein M., « A content-search information retrieval process based on conceptual
graphs », Knowl. Inf. Syst., vol. 8, n˚ 3, p. 292-309, 2005.
Lin D., « Dependency-based Evaluation of MiniPar »,Workshop on the Evaluation of Parsing
Systems, Granada, Spain, May, ACM, 1998.
Maisonnasse L., Chevallet J.-P., Berrut C., « Incomplete and Fuzzy Conceptual Graphs to Au-
tomatically Index Medical Reports », NLDB, p. 240-251, 2007.
Matsumura A., Takasu A., Adachi J., « The effect of information retrieval method using depen-
dency relationship between words », Proceedings of the RIAO 2000, p. 1043-1058, 2000.
Metzler D. P., Haas S. W., « The constituent object parser : syntactic structure matching for
information retrieval », ACM Trans. Inf. Syst., vol. 7, n˚ 3, p. 292-316, 1989.
Müller H., Deselaers T., Kim E., Kalpathy-Cramer J., Deserno T. M., Clough P., Hersh W.,
« Overview of the ImageCLEFmed 2007 Medical Retrieval and Annotation Tasks », Wor-
king Notes of the 2007 CLEF Workshop, Budapest, Hungary, September, 2007.
Nie J., « An outline of a general model for information retrieval systems », Research and Deve-
lopment in Information Retrieval, Grenoble, France, p. 495-506, June, 1988.
Radhouani S., Maisonnasse L., Lim J.-H., Le T.-H.-D., Chevallet J.-P., « Une Indexation
Conceptuelle pour un Filtrage par Dimensions », CORIA’2006, p. 257-271, mars, 2006.
Sándor D., « A unified mathematical definition of classical information retrieval », J. Am. Soc.
Inf. Sci., vol. 51, n˚ 7, p. 614-624, 2000.
Smeaton A. F., « Using NLP or NLP resources for information retrieval tasks », in , T. Strzal-
kowski (ed.), Natural language information retrieval, Kluwer Academic, p. 99-111, 1999.
Strzalkowski T., Stein G. C., Wise G. B., Carballo J. P., Tapanainen P., Jarvinen T., Voutilai-
nen A., Karlgren J., « Natural Language Information Retrieval : TREC-7 Report », Text
REtrieval Conference, p. 164-173, 1998.
Vintar S Buitelaar P. V. M., « Relations in Concept-Based Cross-Language Medical Information
Retrieval », ECML/PKDDWorkshop on Adaptive Text Extraction and Mining, 2003.
Zhai C., Tong X., Milic-Frayling N., Evans D., « Evaluation of syntactic phrase indexing -
CLARIT NLP track report », 1997.
Zhou W., Yu C., Smalheiser N., Torvik V., Hong J., « Knowledge-intensive Conceptual Re-
trieval and Passage Extraction of Biomedical Literature », Research and Development in
Information Retrieval, 2007.
Actes du XXVIe congrès INFORSID 278 Fontainebleau, mai 2008