Upload
tuxette
View
137
Download
3
Embed Size (px)
DESCRIPTION
Journées FREMIT 2010 Toulouse, France September 20th, 2010
Citation preview
Graphes, multi-graphes et recherched’information
Nathalie Villa-Vialaneix'
http://www.nathalievilla.org
& Taoufiq Dkaki (IRIT-UTM)
' IUT de Carcassonne (UPVD)
& Institut de Mathématiques de Toulouse
Journées FREMIT 2010
Toulouse, 20/21 septembre 2010
1 / 16Nathalie Villa-Vialaneix
N
1 Introduction : RI et graphes
2 Approche graphes simples
3 Approche multigraphes
2 / 16Nathalie Villa-Vialaneix
N
Introduction : RI et graphes
Contexte et but de la recherched’information
On dispose d’un grand nombre de documents
et on rechercheceux qui sont pertinents pour une requête donnée
Organisation journées FREMIT???−−−→
3 / 16Nathalie Villa-Vialaneix
N
Introduction : RI et graphes
Contexte et but de la recherched’information
On dispose d’un grand nombre de documents et on rechercheceux qui sont pertinents pour une requête donnée
Organisation journées FREMIT???−−−→
3 / 16Nathalie Villa-Vialaneix
N
Introduction : RI et graphes
Modèle
Documents
→ Représentation des docs ↘
(liste de mots, type, ...)Comparaison(similarité...)
Requête
→ Représentation de la requête ↗
Documents → Représentation des docs ↘
(liste de mots, type, ...)Comparaison(similarité...)
Requête →
Représentation de la requête
↗
Représentation des documents/requêtes (peu abordé : utilisationde l’existant) ;
“Comparaison” de la requête aux documents (abordé) ;
Évaluation du système sur des bases de données publiques(abordé).
4 / 16Nathalie Villa-Vialaneix
N
Introduction : RI et graphes
Modèle
Documents → Représentation des docs
↘
(liste de mots, type, ...)
Comparaison(similarité...)
Requête → Représentation de la requête
↗
Documents → Représentation des docs ↘
(liste de mots, type, ...)Comparaison(similarité...)
Requête → Représentation de la requête ↗
Représentation des documents/requêtes (peu abordé : utilisationde l’existant) ;
“Comparaison” de la requête aux documents (abordé) ;
Évaluation du système sur des bases de données publiques(abordé).
4 / 16Nathalie Villa-Vialaneix
N
Introduction : RI et graphes
Modèle
Documents → Représentation des docs ↘
(liste de mots, type, ...)Comparaison(similarité...)
Requête → Représentation de la requête ↗
Documents → Représentation des docs ↘
(liste de mots, type, ...)Comparaison(similarité...)
Requête → Représentation de la requête ↗
Représentation des documents/requêtes (peu abordé : utilisationde l’existant) ;
“Comparaison” de la requête aux documents (abordé) ;
Évaluation du système sur des bases de données publiques(abordé).
4 / 16Nathalie Villa-Vialaneix
N
Introduction : RI et graphes
Modèle
Documents → Représentation des docs ↘
(liste de mots, type, ...)Comparaison(similarité...)
Requête → Représentation de la requête ↗
Représentation des documents/requêtes (peu abordé : utilisationde l’existant) ;
“Comparaison” de la requête aux documents (abordé) ;
Évaluation du système sur des bases de données publiques(abordé).
4 / 16Nathalie Villa-Vialaneix
N
Introduction : RI et graphes
Approches utilisées
Approche basique : prise en compte uniquement des attributs desurface (description des Documents par leurs Termes) ;
Approche PageRank : prise en compte (aussi) des relationsDocuments/Documents.
⇒ Utilisation des graphes pour modéliser des donnéesrelationnelles. Exemple : Modélisation par un graphe pondéré
5 / 16Nathalie Villa-Vialaneix
N
Introduction : RI et graphes
Approches utilisées
Approche basique : prise en compte uniquement des attributs desurface (description des Documents par leurs Termes) ;
Approche PageRank : prise en compte (aussi) des relationsDocuments/Documents.
⇒ Utilisation des graphes pour modéliser des donnéesrelationnelles. Exemple : Modélisation par un graphe pondéré
5 / 16Nathalie Villa-Vialaneix
N
Introduction : RI et graphes
Approches utilisées
Approche basique : prise en compte uniquement des attributs desurface (description des Documents par leurs Termes) ;
Approche PageRank : prise en compte (aussi) des relationsDocuments/Documents.
⇒ Utilisation des graphes pour modéliser des donnéesrelationnelles. Exemple : Modélisation par un graphe biparti
Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m
Exemple : Modélisation par un graphe pondéré
5 / 16Nathalie Villa-Vialaneix
N
Introduction : RI et graphes
Approches utilisées
Approche basique : prise en compte uniquement des attributs desurface (description des Documents par leurs Termes) ;
Approche PageRank : prise en compte (aussi) des relationsDocuments/Documents.
⇒ Utilisation des graphes pour modéliser des donnéesrelationnelles. Exemple : Modélisation par un graphe pondéré
5 / 16Nathalie Villa-Vialaneix
N
Approche graphes simples
Principe de base
Documents ↘
MatricesRequête Indexation Documents/Documents → graphe
Documents/Termes...Termes ↗
Puis : calcul d’une similarité/dissimilarité entre sommets dugraphe⇒ ordonnancement des documents par similarité avec larequête.
6 / 16Nathalie Villa-Vialaneix
N
Approche graphes simples
Principe de base
Documents ↘
MatricesRequête Indexation Documents/Documents → graphe
Documents/Termes...Termes ↗
Puis : calcul d’une similarité/dissimilarité entre sommets dugraphe⇒ ordonnancement des documents par similarité avec larequête.
6 / 16Nathalie Villa-Vialaneix
N
Approche graphes simples
Exemple de similarité
φ−→
Plongement des sommets dans un espace de Hilbert par le biaisd’un noyau:
K(xi , xj) = 〈φ(xi), φ(xj)〉.
7 / 16Nathalie Villa-Vialaneix
N
Approche graphes simples
Quel noyau pour les graphes ?
Des noyaux basés sur le Laplacien
Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i anddi =
∑nj=1 wi,j , Laplacien : L = (Li,j)i,j=1,...,n où
Li,j =
{−wi,j if i , jdi if i = j
;
À partir du Laplacien, on définit le noyau de la chaleur :K(xi , xj) =
[e−βL
]ij
(' quantité d’énergie accumulée en xj à partirde xi).
8 / 16Nathalie Villa-Vialaneix
N
Approche graphes simples
Quel noyau pour les graphes ?
Des noyaux basés sur le Laplacien
Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i anddi =
∑nj=1 wi,j , Laplacien : L = (Li,j)i,j=1,...,n où
Li,j =
{−wi,j if i , jdi if i = j
;
À partir du Laplacien, on définit le noyau de la chaleur :K(xi , xj) =
[e−βL
]ij
(' quantité d’énergie accumulée en xj à partirde xi).
8 / 16Nathalie Villa-Vialaneix
N
Approche graphes simples
Distance entre documents
Les noyaux usuels de graphes sont de bons candidats pourconstruire une “distance” entre sommets (notamment entredocuments et entre une requête et un document).
La règle de réponse à la requête est alors :
1 Déterminer K(r , xi) pour r la requête est xi les documents
2 Retenir les k documents maximisant K(r , xk ) (mesure de simularité)
Problème : Les graphes bipartis considérés dans ces problèmesont plusieurs milliers de sommets... Nécessité d’un filtrepréalable pour diminuer la taille du graphe.
9 / 16Nathalie Villa-Vialaneix
N
Approche graphes simples
Distance entre documents
Les noyaux usuels de graphes sont de bons candidats pourconstruire une “distance” entre sommets (notamment entredocuments et entre une requête et un document).La règle de réponse à la requête est alors :
1 Déterminer K(r , xi) pour r la requête est xi les documents
2 Retenir les k documents maximisant K(r , xk ) (mesure de simularité)
Problème : Les graphes bipartis considérés dans ces problèmesont plusieurs milliers de sommets... Nécessité d’un filtrepréalable pour diminuer la taille du graphe.
9 / 16Nathalie Villa-Vialaneix
N
Approche graphes simples
Distance entre documents
Les noyaux usuels de graphes sont de bons candidats pourconstruire une “distance” entre sommets (notamment entredocuments et entre une requête et un document).La règle de réponse à la requête est alors :
1 Déterminer K(r , xi) pour r la requête est xi les documents
2 Retenir les k documents maximisant K(r , xk ) (mesure de simularité)
Problème : Les graphes bipartis considérés dans ces problèmesont plusieurs milliers de sommets... Nécessité d’un filtrepréalable pour diminuer la taille du graphe.
9 / 16Nathalie Villa-Vialaneix
N
Approche graphes simples
Validation de l’approche
Utilisation d’une collection de tests publics (ici CRAN ;pertinence de documents évaluée par des experts (humains) pourdiverses requêtes)
Conclusion : Ne semble pas très pertinent pour ce type degraphes...
10 / 16Nathalie Villa-Vialaneix
N
Approche graphes simples
Validation de l’approche
Utilisation d’une collection de tests publics (ici CRAN ;pertinence de documents évaluée par des experts (humains) pourdiverses requêtes)Similarité basée sur le graphe des correspondances
Conclusion : Ne semble pas très pertinent pour ce type degraphes...
10 / 16Nathalie Villa-Vialaneix
N
Approche graphes simples
Validation de l’approche
Utilisation d’une collection de tests publics (ici CRAN ;pertinence de documents évaluée par des experts (humains) pourdiverses requêtes)Similarité basée sur le graphe biparti
Conclusion : Ne semble pas très pertinent pour ce type degraphes...
10 / 16Nathalie Villa-Vialaneix
N
Approche graphes simples
Validation de l’approche
Utilisation d’une collection de tests publics (ici CRAN ;pertinence de documents évaluée par des experts (humains) pourdiverses requêtes)Conclusion : Ne semble pas très pertinent pour ce type degraphes...
10 / 16Nathalie Villa-Vialaneix
N
Approche multigraphes
Des graphes aux multigraphes
Modèle relationnel plus complet du problème :
Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m
Relations entre Documents : nombre de mots communs (arrêtepondérée), précède/suit (oui/non)...
Relations entre Mots :synonyme, généralise (oui/non)...etc...
11 / 16Nathalie Villa-Vialaneix
N
Approche multigraphes
Des graphes aux multigraphes
Modèle relationnel plus complet du problème :
Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m
Informations sur les Documents : type de document (qualitatif)...
Relations entre Mots : synonyme, généralise (oui/non)...etc...
11 / 16Nathalie Villa-Vialaneix
N
Approche multigraphes
Des graphes aux multigraphes
Modèle relationnel plus complet du problème :
Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m
Relations entre Mots : synonyme, généralise (oui/non)...etc...
11 / 16Nathalie Villa-Vialaneix
N
Approche multigraphes
Combiner les informations
un type d’information→ un noyau Ki
Comment combiner K1, . . . , Kp ?
Proposition : Utilisation d’un noyau
K =
p∑i=1
αiKi
et optimisation des αi .
12 / 16Nathalie Villa-Vialaneix
N
Approche multigraphes
Combiner les informations
un type d’information→ un noyau Ki
Comment combiner K1, . . . , Kp ?
Proposition : Utilisation d’un noyau
K =
p∑i=1
αiKi
et optimisation des αi .
12 / 16Nathalie Villa-Vialaneix
N
Approche multigraphes
Combiner les informations
un type d’information→ un noyau Ki
Comment combiner K1, . . . , Kp ?
Proposition : Utilisation d’un noyau
K =
p∑i=1
αiKi
et optimisation des αi .
12 / 16Nathalie Villa-Vialaneix
N
Approche multigraphes
Approche supervisée
Hypothèse : On sait si certains Documents/Mots sont pertinentspour la requête
Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m
Exemple : Pertinent : Document 1 et Mot 4 ; Non pertinent :Document 2, Mot 1 et Mot 2 ; Inconnu : Document n, Mot 3 et Motm.
13 / 16Nathalie Villa-Vialaneix
N
Approche multigraphes
Approche supervisée
Hypothèse : On sait si certains Documents/Mots sont pertinentspour la requête
Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m
Exemple : Pertinent : Document 1 et Mot 4 ; Non pertinent :Document 2, Mot 1 et Mot 2 ; Inconnu : Document n, Mot 3 et Motm.
13 / 16Nathalie Villa-Vialaneix
N
Approche multigraphes
Méthodologie
Apprentissage de la règle de décision (pertinent/non pertinent) àpartir du noyau K par un SVM :
minw,b ,ξ
wT w + C∑
i
ξi
tel que : yi
(wTφ(xi) + b
)≥ 1 − ξi et ξi ≥ 0 pour tout i = 1, . . . , n où
xi sont les sommets du graphe dont la pertinence est connue (nsommets) ;φ est le plongement associé au noyau K : 〈φ(xi), φ(xj)〉 = K(xi , xj) (φnon explicite grâce à l’“astuce noyau”) ;Solution par programmation quadratique.
Prédiction (pertinent: 1/non pertinent: −1) pour un sommet nonconnu xnew :
P(xnew) = Sign
n∑i=1
βiK(xi , xnew) + b
pour w =
∑ni=1 βiK(xi , xnew).
14 / 16Nathalie Villa-VialaneixN
Approche multigraphes
Méthodologie
Apprentissage de la règle de décision (pertinent/non pertinent) àpartir du noyau K par un SVM
Prédiction (pertinent: 1/non pertinent: −1) pour un sommet nonconnu xnew :
P(xnew) = Sign
n∑i=1
βiK(xi , xnew) + b
pour w =
∑ni=1 βiK(xi , xnew).
14 / 16Nathalie Villa-VialaneixN
Approche multigraphes
Comment optimiser K =∑p
j=1 αjKj ?
[Lanckriet et al., 2004] : La qualité de prédiction est bornée parune fonction de la solution optimale du problème quadratiqueprécédent (pour Tr(K) fixée).
⇒ Minimisation en αj de la solution (SDP) noyau optimisé etrègle de décision.
15 / 16Nathalie Villa-Vialaneix
N
Approche multigraphes
Comment optimiser K =∑p
j=1 αjKj ?
[Lanckriet et al., 2004] : La qualité de prédiction est bornée parune fonction de la solution optimale du problème quadratiqueprécédent (pour Tr(K) fixée).⇒ Minimisation en αj de la solution (SDP) noyau optimisé etrègle de décision.
15 / 16Nathalie Villa-Vialaneix
N
Approche multigraphes
Conclusion et perspectives
Avantage/inconvénient de l’approche1 La requête fait partie du modèle : approche peu utilisable
“online” ;
2 Par contre, approche adaptée pour du relevance feedback.
Perspectives1 Création d’un dépôt pour des jeux de test avec génération de
multigraphes à la volée (format graphML) : en cours (manquentune inclusion facile des relations termes/termes et desfonctionnalités sur les sorties graphML).
2 Étude des problèmes de passage à la grande échelle del’algorithme précédent (vers une utilisation “online”) et choix denoyaux appropriés aux diverses informations.
3 Tests...
16 / 16Nathalie Villa-Vialaneix
N
Approche multigraphes
Conclusion et perspectives
Avantage/inconvénient de l’approche1 La requête fait partie du modèle : approche peu utilisable
“online” ;
2 Par contre, approche adaptée pour du relevance feedback.
Perspectives1 Création d’un dépôt pour des jeux de test avec génération de
multigraphes à la volée (format graphML) : en cours (manquentune inclusion facile des relations termes/termes et desfonctionnalités sur les sorties graphML).
2 Étude des problèmes de passage à la grande échelle del’algorithme précédent (vers une utilisation “online”) et choix denoyaux appropriés aux diverses informations.
3 Tests...
16 / 16Nathalie Villa-Vialaneix
N
Quelques référencesLanckriet, G., Cristianini, N., Bartlett, P., El Ghaoui, L., and Jordan, M. (2004).Learning the kernel matrix with semidefinite programming.
Journal of Machine Learning Research, 5:27–72.
Merci de votre attention...
16 / 16Nathalie Villa-Vialaneix
N