Fouille de données pour de grands graphes. Recherche de communautés et organisation

Fouille de données pour de grands graphes.Recherche de communautés et organisation

Taofiq Dkaki2, Jean-Michel Inglebert2, Sébastien Gadat1, DinhTruong2 & Nathalie Villa1

1 Institut de Mathématiques de Toulouse

2 Institut de Recherche en Informatique de Toulouse

Journées FREMIT, 8 décembre 2008

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 1 / 22

Sommaire

1 Classification et organisation de graphesMotivationsOutils existants et limites : cartes auto-organisatrices à noyauUne approche stochastique : algorithme de recuit simulé

2 Recherche d’informations


Comprendre la structure de grands graphes

Quelques exemples de problèmes modélisés par de grands graphes1 Réseaux sociaux

réseaux de connaissancesréseaux de l’internetréseaux de citations

2 Réseaux biologiquesréseaux d’interactions de protéinesréseau d’interactions de gènes

3 documents, préférences (graphes bipartis), . . .

Problèmes rencontrés lors de la manipulation de ce type de données :comment représenter le graphe de manière lisible et interprétable ?quelles méthodes de fouille de données car aucune structureeuclidienne ?taille des données (plusieurs centaines ou plusieurs milliers desommets...) nécessite de faire attention à la complexité desalgorithmes utilisés.























Exemples réels

Un réseau social venu du Moyen-ÂgeUtilisation d’un corpus de 5000 contrats agraires issus des archives deCahors (Lot). Ces contrats viennent de 4 seigneuries (environ 25 petitsvillages au total) du Sud-Ouest de la France et ont été établis entre1240 et 1520 (avant et après la guerre de cent ans).

À partir de 1000 contrats datant d’avant la guerre de 100 ans, nous avonsmodélisé le réseau social sur la base de mentions communes sur uncontrat donné de deux paysans. Le résultat est un graphe pondéré de615 sommets.

Un réseau de collaborationsUn réseau de collaborations scientifiques autour de la thématique desréseaux sociaux [Newman, 2006] : graphe connexe pondéré avec 379sommets.


Exemples réels

Un réseau social venu du Moyen-ÂgeUtilisation d’un corpus de 5000 contrats agraires issus des archives deCahors (Lot). Ces contrats viennent de 4 seigneuries (environ 25 petitsvillages au total) du Sud-Ouest de la France et ont été établis entre1240 et 1520 (avant et après la guerre de cent ans).À partir de 1000 contrats datant d’avant la guerre de 100 ans, nous avonsmodélisé le réseau social sur la base de mentions communes sur uncontrat donné de deux paysans. Le résultat est un graphe pondéré de615 sommets.



Exemples réels



Point de vue adopté

[Newman and Girvan, 2004]“reducing [the] level of complexity [of a network] to one that can beinterpreted readily by the human eye, will be invaluable in helping us tounderstand the large-scale structure of these new network data”

Méthodologie : Mise en valeur de groupes homogènes (ou fortementconnectés) liés à une visualisation permettant de comprendre facilementles relations entre ces groupes : outils statistiques liés à laclassification (de sommets d’un graphe) et/ou à l’organisation.Problématique de la recherche de communautés: groupes sociauxhomogènes, groupes de protéines, de gènes fortement liés, etc...




Méthodologie : Mise en valeur de groupes homogènes (ou fortementconnectés) liés à une visualisation permettant de comprendre facilementles relations entre ces groupes : outils statistiques liés à laclassification (de sommets d’un graphe) et/ou à l’organisation.

Problématique de la recherche de communautés: groupes sociauxhomogènes, groupes de protéines, de gènes fortement liés, etc...




Méthodologie : Mise en valeur de groupes homogènes (ou fortementconnectés) liés à une visualisation permettant de comprendre facilementles relations entre ces groupes : outils statistiques liés à laclassification (de sommets d’un graphe) et/ou à l’organisation.Problématique de la recherche de communautés: groupes sociauxhomogènes, groupes de protéines, de gènes fortement liés, etc...


Principe général des cartes auto-organisatrices ànoyau

φ−→

Plongement des sommets dans un espace de Hilbert par le biais d’unnoyau:

K(xi , xj) = 〈φ(xi), φ(xj)〉.

p1

p2

p3

12

3

Utilisation de la structure hilbertienne pour effectuer une classification(k -means par exemple) ou une classification organisée du graphe(cartes de Kohonen, par exemple).


Principe général des cartes auto-organisatrices ànoyau

p1

p2

p3

12

3

Utilisation de la structure hilbertienne pour effectuer une classification(k -means par exemple) ou une classification organisée du graphe(cartes de Kohonen, par exemple).


Quel noyau pour les graphes ?

Des noyaux basés sur le Laplacien

Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di =

∑nj=1 wi,j ,

Laplacien : L = (Li,j)i,j=1,...,n où

Li,j =

{−wi,j if i , jdi if i = j

;

À partir du Laplacien, on définit divers noyaux régularisant:

noyau de la chaleur : K(xi , xj) =[e−βL]ij

est la quantité d’énergieaccumulée en xj après un temps donné lorsque l’énergie a étéinjectée en xi au temps 0 et que la propagation s’est faite de manièrecontinue le long des arêtes du graphe.

inverse généralisée du Laplacien : K(xi , xj) = [L+]ij est relatif estau temps moyen du premier passage dans xj pour une marchealéatoire le long des arêtes du graphe débutant en xi .


Quel noyau pour les graphes ?

Des noyaux basés sur le Laplacien

Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di =

∑nj=1 wi,j ,

Laplacien : L = (Li,j)i,j=1,...,n où

Li,j =

{−wi,j if i , jdi if i = j

;

À partir du Laplacien, on définit divers noyaux régularisant:

noyau de la chaleur : K(xi , xj) =[e−βL]ij

est la quantité d’énergieaccumulée en xj après un temps donné lorsque l’énergie a étéinjectée en xi au temps 0 et que la propagation s’est faite de manièrecontinue le long des arêtes du graphe.

inverse généralisée du Laplacien : K(xi , xj) = [L+]ij est relatif estau temps moyen du premier passage dans xj pour une marchealéatoire le long des arêtes du graphe débutant en xi .


Exemple de résultat obtenu

Réseau social médiéval avec noyau de la chaleur [Boulet et al., 2008]

Réseau de collaborations avec inverse généralisée

Questions : Comment utiliser ce travail de classification comme premièreétape d’une représentation complète du graphe ? Comment représentercomplètement la classification (ie, le plongement du graphe sur la carte) ?










Algorithmes force et repousse contraints[Truong et al., 2007, Truong et al., 2008, Villa et al., 2008] La Suite...

En ajoutant des contraintes sur les algorithmes de force et repousse




Pourquoi une approche alternative aux approches ànoyau ?

Limites de ces approches :

nécessitent une décomposition spectrale du Laplacien : tropcoûteuse si le graphe a plusieurs milliers de sommets ;

dépendent du choix du noyau (ie, de la structure euclidienne placéesur les sommets) ;

problèmes de sélection des paramètres (noyau, taille de la carte)car le critère de qualité habituel de l’algorithme de Kohonen (énergie)dépend de ces paramètres.


Un critère de mesure de la qualité de la classification

[Newman and Girvan, 2004] ont proposé une mesure de qualité d’undécoupage en communautés, la modularité :

Q = ]{arêtes à l’intérieur des communautés}

−]{arêtes attendues dans un modèle “nul”}

Que peut-être le modèle nul ? Différentes définitions sontpossibles. . . [Newman, 2006] propose

le nombre d’arêtes du modèle nul est celui du graphe observé ;le degré de chaque sommet du modèle nul est celui du grapheobservé (l’attachement à un individu de fort degré est plus probable).

Le modèle nul donne pij =didjn où di est le degré du sommet xi . On a donc

Q =1

2m

∑i,j

[aij − pij] I[C(xi)=C(xj)]

où A = (aij)ij est la matrice d’adjacence du graphe.









Q =1

2m

∑i,j


où A = (aij)ij est la matrice d’adjacence du graphe.









Q =1

2m

∑i,j


où A = (aij)ij est la matrice d’adjacence du graphe.Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 12 / 22

Comment adapter un tel critère dans le cadre“classification organisée” ? en cours avec Fabrice Rossi, ENST

Si h est une similarité sur la carte (h(i, j) = e−γd(i,j)2),

une approche organisée de la modularité est obtenue par maximisationsur l’ensemble des plongements possibles sur la carte des noeuds dugraphe de :

S =∑i,j

h(f(xi), f(xj)) (aij − pij)

où f(xi) désigne le neurone de la carte dans lequel le sommet xi estclassé.Problème : La maximisation de Q ou de S sont des problèmesNP-complets (nombre de classifications possibles sur la carte : m2n).





S =∑i,j


où f(xi) désigne le neurone de la carte dans lequel le sommet xi estclassé.

Problème : La maximisation de Q ou de S sont des problèmesNP-complets (nombre de classifications possibles sur la carte : m2n).





S =∑i,j


où f(xi) désigne le neurone de la carte dans lequel le sommet xi estclassé.Problème : La maximisation de Q ou de S sont des problèmesNP-complets (nombre de classifications possibles sur la carte : m2n).


Optimisation de modularité par recuit simulé en cours

avec Sébastien Gadat, IMT

Principe : Lorsque l’on cherche à minimiser une énergie E(f) (= −Q(f) ou−S(f)), on simule de manière stochastique (chaîne de Markov sur lesétats, f : classifications des sommets) ,la probabilité

PT (f) =e−E(f)/T∑g e−E(g)/T

.

Lorque T → 0, PT (f) se concentre sur minf E(f).


Optimisation de modularité par recuit simulé en cours

avec Sébastien Gadat, IMT

Principe : Lorsque l’on cherche à minimiser une énergie E(f) (= −Q(f) ou−S(f)), on simule de manière stochastique (chaîne de Markov sur lesétats, f : classifications des sommets) ,la probabilité

PT (f) =e−E(f)/T∑g e−E(g)/T

.

Lorque T → 0, PT (f) se concentre sur minf E(f).Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 14 / 22

Algorithme de recuit simulé pour optimisation de lamodularité

Algorithme1 On initialise la classification des sommets à un état aléatoire

f0 ∈ {1, . . . ,m}⊗n

2 On répète1 On tire deux classes j1 et j2 dans {1, . . . ,m} et un sommet xi dans

(f0)−1(j1) ∩ (f0)−1(j2) (les deux opérations équiprobables)2 Notons f̃ l’état dans lequel xi a subi un échange de classe entre j1 et j2.

On note ∆E = Q(̃f) − Q(f0)3 si ∆E > 0 alors f1 = f̃4 sinon f1 = f̃ avec probabilité e∆E/T et f1 = f0 avec probabilité e−∆E/T

5 On diminue T3 On stoppe à stabilisation de l’algorithme.

Chacun des calculs ∆E ne coûte “presque rien” (multiplication vectorielle).


Algorithme de recuit simulé pour optimisation de lamodularité

Algorithme1 On initialise la classification des sommets à un état aléatoire

f0 ∈ {1, . . . ,m}⊗n

2 On répète1 On tire deux classes j1 et j2 dans {1, . . . ,m} et un sommet xi dans

(f0)−1(j1) ∩ (f0)−1(j2) (les deux opérations équiprobables)2 Notons f̃ l’état dans lequel xi a subi un échange de classe entre j1 et j2.

On note ∆E = Q(̃f) − Q(f0)3 si ∆E > 0 alors f1 = f̃4 sinon f1 = f̃ avec probabilité e∆E/T et f1 = f0 avec probabilité e−∆E/T

5 On diminue T3 On stoppe à stabilisation de l’algorithme.

Chacun des calculs ∆E ne coûte “presque rien” (multiplication vectorielle).


Exemples

Optimisation de la modularité sur le réseau de collaborations

Optimisation de la modularité organisée sur le réseau decollaborations


Exemples

Optimisation de la modularité sur le réseau de collaborations



Exemples



Conclusions et perspectives

Ce que nous avons proposé :

Approches alternatives à la recherche et à l’organisation decommunautés non basées sur des décompositions spectrales ;

Ajout d’un aspect visualisation à la classification.

Questions et travail en cours :

Vitesse de convergence du recuit simulé dans ce cas particulier ?

Comment superposer / comparer des cartes ?

Utilisation d’un algorithme de recuit en champ moyen, plus efficaceque le recuit simulé.

Quel critère de comparaison de deux organisations sur une carte ?


Conclusions et perspectives

Ce que nous avons proposé :

Approches alternatives à la recherche et à l’organisation decommunautés non basées sur des décompositions spectrales ;

Ajout d’un aspect visualisation à la classification.

Questions et travail en cours :

Vitesse de convergence du recuit simulé dans ce cas particulier ?

Comment superposer / comparer des cartes ?

Utilisation d’un algorithme de recuit en champ moyen, plus efficaceque le recuit simulé.

Quel critère de comparaison de deux organisations sur une carte ?


Sommaire

1 Classification et organisation de graphesMotivationsOutils existants et limites : cartes auto-organisatrices à noyauUne approche stochastique : algorithme de recuit simulé

2 Recherche d’informations


Présentation du contexte et relations avec lesgraphes

Jeu de données :

des documents décrits par des mots

Problème : Une requête (décrite aussi par des mots) est confrontée auxdocuments. Quels sont les documents pertinents pour cette requête ?

Modélisation par un graphe pondéré



Jeu de données :


Problème : Une requête (décrite aussi par des mots) est confrontée auxdocuments. Quels sont les documents pertinents pour cette requête ?




Jeu de données :


Problème : Une requête (décrite aussi par des mots) est confrontée auxdocuments. Quels sont les documents pertinents pour cette requête ?Modélisation par un graphe biparti

Document 1

Document 2

Document n

...

Requête

Mot 1

Mot 2

Mot 3

Mot 4

Mot m




Jeu de données :


Problème : Une requête (décrite aussi par des mots) est confrontée auxdocuments. Quels sont les documents pertinents pour cette requête ?Modélisation par un graphe pondéré


Distance entre documents

Les noyaux usuels de graphes sont de bons candidats pour construireune “distance” entre sommets (notamment entre documents et entreune requête et un document).

La règle de réponse à la requête est alors :1 Déterminer K(r , xi) pour r la requête est xi les documents2 Retenir les k documents maximisant K(r , xk ) (mesure de simularité)

Problème : Les graphes bipartis considérés dans ces problèmes ontplusieurs milliers de sommets... Nécessité d’un filtre préalable pourdiminuer la taille du graphe.



Les noyaux usuels de graphes sont de bons candidats pour construireune “distance” entre sommets (notamment entre documents et entreune requête et un document).La règle de réponse à la requête est alors :

1 Déterminer K(r , xi) pour r la requête est xi les documents2 Retenir les k documents maximisant K(r , xk ) (mesure de simularité)




Les noyaux usuels de graphes sont de bons candidats pour construireune “distance” entre sommets (notamment entre documents et entreune requête et un document).La règle de réponse à la requête est alors :

1 Déterminer K(r , xi) pour r la requête est xi les documents2 Retenir les k documents maximisant K(r , xk ) (mesure de simularité)



Un exemple basé sur la base de données CRAN

Similarité basée sur le graphe des correspondances

Similarité basée sur le graphe biparti

Conclusion : Ne semble pas très pertinent pour ce type de graphes...Reste à explorer la classification de documents !










Références

Boulet, R., Jouve, B., Rossi, F., and Villa, N. (2008).Batch kernel SOM and related laplacian methods for social network analysis.Neurocomputing, 71(7-9):1257–1273.

Newman, M. (2006).Finding community structure in networks using the eigenvectors of matrices.Physical Review, E, 74(036104).

Newman, M. and Girvan, M. (2004).Finding and evaluating community structure in networks.Physical Review, E, 69:026113.

Truong, Q., Dkaki, T., and Charrel, P. (2007).An energy model for the drawing of clustered graphs.In Proceedings of Vème colloque international VSST, Marrakech, Maroc.

Truong, Q., Dkaki, T., and Charrel, P. (2008).Clustered graphs drawing.In Proceedings of Stimulating Manufacturing Excellence in SME, Hammamet, Tunisie.

Villa, N., Rossi, F., and Truong, Q. (2008).Mining a medieval social network by kernel som and related methods.In Proceedings of MASHS 2008 (Modèles et Apprentissages en Sciences Humaines et Sociales), Créteil, France.