50
Fouille de données pour de grands graphes. Recherche de communautés et organisation Taofiq Dkaki 2 , Jean-Michel Inglebert 2 , Sébastien Gadat 1 , Dinh Truong 2 & Nathalie Villa 1 1 Institut de Mathématiques de Toulouse 2 Institut de Recherche en Informatique de Toulouse Journées FREMIT, 8 décembre 2008 Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 1 / 22

Fouille de données pour de grands graphes. Recherche de communautés et organisation

  • Upload
    tuxette

  • View
    143

  • Download
    1

Embed Size (px)

DESCRIPTION

Journées FREMIT, Toulouse 8 décembre 2008

Citation preview

Page 1: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Fouille de données pour de grands graphes.Recherche de communautés et organisation

Taofiq Dkaki2, Jean-Michel Inglebert2, Sébastien Gadat1, DinhTruong2 & Nathalie Villa1

1 Institut de Mathématiques de Toulouse

2 Institut de Recherche en Informatique de Toulouse

Journées FREMIT, 8 décembre 2008

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 1 / 22

Page 2: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Sommaire

1 Classification et organisation de graphesMotivationsOutils existants et limites : cartes auto-organisatrices à noyauUne approche stochastique : algorithme de recuit simulé

2 Recherche d’informations

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 2 / 22

Page 3: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Comprendre la structure de grands graphes

Quelques exemples de problèmes modélisés par de grands graphes1 Réseaux sociaux

réseaux de connaissancesréseaux de l’internetréseaux de citations

2 Réseaux biologiquesréseaux d’interactions de protéinesréseau d’interactions de gènes

3 documents, préférences (graphes bipartis), . . .

Problèmes rencontrés lors de la manipulation de ce type de données :comment représenter le graphe de manière lisible et interprétable ?quelles méthodes de fouille de données car aucune structureeuclidienne ?taille des données (plusieurs centaines ou plusieurs milliers desommets...) nécessite de faire attention à la complexité desalgorithmes utilisés.

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 3 / 22

Page 4: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Comprendre la structure de grands graphes

Quelques exemples de problèmes modélisés par de grands graphes1 Réseaux sociaux

réseaux de connaissancesréseaux de l’internetréseaux de citations

2 Réseaux biologiquesréseaux d’interactions de protéinesréseau d’interactions de gènes

3 documents, préférences (graphes bipartis), . . .

Problèmes rencontrés lors de la manipulation de ce type de données :comment représenter le graphe de manière lisible et interprétable ?quelles méthodes de fouille de données car aucune structureeuclidienne ?taille des données (plusieurs centaines ou plusieurs milliers desommets...) nécessite de faire attention à la complexité desalgorithmes utilisés.

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 3 / 22

Page 5: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Comprendre la structure de grands graphes

Quelques exemples de problèmes modélisés par de grands graphes1 Réseaux sociaux

réseaux de connaissancesréseaux de l’internetréseaux de citations

2 Réseaux biologiquesréseaux d’interactions de protéinesréseau d’interactions de gènes

3 documents, préférences (graphes bipartis), . . .

Problèmes rencontrés lors de la manipulation de ce type de données :comment représenter le graphe de manière lisible et interprétable ?quelles méthodes de fouille de données car aucune structureeuclidienne ?taille des données (plusieurs centaines ou plusieurs milliers desommets...) nécessite de faire attention à la complexité desalgorithmes utilisés.

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 3 / 22

Page 6: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Comprendre la structure de grands graphes

Quelques exemples de problèmes modélisés par de grands graphes1 Réseaux sociaux

réseaux de connaissancesréseaux de l’internetréseaux de citations

2 Réseaux biologiquesréseaux d’interactions de protéinesréseau d’interactions de gènes

3 documents, préférences (graphes bipartis), . . .

Problèmes rencontrés lors de la manipulation de ce type de données :comment représenter le graphe de manière lisible et interprétable ?quelles méthodes de fouille de données car aucune structureeuclidienne ?taille des données (plusieurs centaines ou plusieurs milliers desommets...) nécessite de faire attention à la complexité desalgorithmes utilisés.

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 3 / 22

Page 7: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Exemples réels

Un réseau social venu du Moyen-ÂgeUtilisation d’un corpus de 5000 contrats agraires issus des archives deCahors (Lot). Ces contrats viennent de 4 seigneuries (environ 25 petitsvillages au total) du Sud-Ouest de la France et ont été établis entre1240 et 1520 (avant et après la guerre de cent ans).

À partir de 1000 contrats datant d’avant la guerre de 100 ans, nous avonsmodélisé le réseau social sur la base de mentions communes sur uncontrat donné de deux paysans. Le résultat est un graphe pondéré de615 sommets.

Un réseau de collaborationsUn réseau de collaborations scientifiques autour de la thématique desréseaux sociaux [Newman, 2006] : graphe connexe pondéré avec 379sommets.

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 4 / 22

Page 8: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Exemples réels

Un réseau social venu du Moyen-ÂgeUtilisation d’un corpus de 5000 contrats agraires issus des archives deCahors (Lot). Ces contrats viennent de 4 seigneuries (environ 25 petitsvillages au total) du Sud-Ouest de la France et ont été établis entre1240 et 1520 (avant et après la guerre de cent ans).À partir de 1000 contrats datant d’avant la guerre de 100 ans, nous avonsmodélisé le réseau social sur la base de mentions communes sur uncontrat donné de deux paysans. Le résultat est un graphe pondéré de615 sommets.

Un réseau de collaborationsUn réseau de collaborations scientifiques autour de la thématique desréseaux sociaux [Newman, 2006] : graphe connexe pondéré avec 379sommets.

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 4 / 22

Page 9: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Exemples réels

Un réseau de collaborationsUn réseau de collaborations scientifiques autour de la thématique desréseaux sociaux [Newman, 2006] : graphe connexe pondéré avec 379sommets.

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 4 / 22

Page 10: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Point de vue adopté

[Newman and Girvan, 2004]“reducing [the] level of complexity [of a network] to one that can beinterpreted readily by the human eye, will be invaluable in helping us tounderstand the large-scale structure of these new network data”

Méthodologie : Mise en valeur de groupes homogènes (ou fortementconnectés) liés à une visualisation permettant de comprendre facilementles relations entre ces groupes : outils statistiques liés à laclassification (de sommets d’un graphe) et/ou à l’organisation.Problématique de la recherche de communautés: groupes sociauxhomogènes, groupes de protéines, de gènes fortement liés, etc...

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 5 / 22

Page 11: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Point de vue adopté

[Newman and Girvan, 2004]“reducing [the] level of complexity [of a network] to one that can beinterpreted readily by the human eye, will be invaluable in helping us tounderstand the large-scale structure of these new network data”

Méthodologie : Mise en valeur de groupes homogènes (ou fortementconnectés) liés à une visualisation permettant de comprendre facilementles relations entre ces groupes : outils statistiques liés à laclassification (de sommets d’un graphe) et/ou à l’organisation.

Problématique de la recherche de communautés: groupes sociauxhomogènes, groupes de protéines, de gènes fortement liés, etc...

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 5 / 22

Page 12: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Point de vue adopté

[Newman and Girvan, 2004]“reducing [the] level of complexity [of a network] to one that can beinterpreted readily by the human eye, will be invaluable in helping us tounderstand the large-scale structure of these new network data”

Méthodologie : Mise en valeur de groupes homogènes (ou fortementconnectés) liés à une visualisation permettant de comprendre facilementles relations entre ces groupes : outils statistiques liés à laclassification (de sommets d’un graphe) et/ou à l’organisation.Problématique de la recherche de communautés: groupes sociauxhomogènes, groupes de protéines, de gènes fortement liés, etc...

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 5 / 22

Page 13: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Principe général des cartes auto-organisatrices ànoyau

φ−→

Plongement des sommets dans un espace de Hilbert par le biais d’unnoyau:

K(xi , xj) = 〈φ(xi), φ(xj)〉.

p1

p2

p3

12

3

Utilisation de la structure hilbertienne pour effectuer une classification(k -means par exemple) ou une classification organisée du graphe(cartes de Kohonen, par exemple).

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 6 / 22

Page 14: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Principe général des cartes auto-organisatrices ànoyau

p1

p2

p3

12

3

Utilisation de la structure hilbertienne pour effectuer une classification(k -means par exemple) ou une classification organisée du graphe(cartes de Kohonen, par exemple).

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 6 / 22

Page 15: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Quel noyau pour les graphes ?

Des noyaux basés sur le Laplacien

Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di =

∑nj=1 wi,j ,

Laplacien : L = (Li,j)i,j=1,...,n où

Li,j =

{−wi,j if i , jdi if i = j

;

À partir du Laplacien, on définit divers noyaux régularisant:

noyau de la chaleur : K(xi , xj) =[e−βL]ij

est la quantité d’énergieaccumulée en xj après un temps donné lorsque l’énergie a étéinjectée en xi au temps 0 et que la propagation s’est faite de manièrecontinue le long des arêtes du graphe.

inverse généralisée du Laplacien : K(xi , xj) = [L+]ij est relatif estau temps moyen du premier passage dans xj pour une marchealéatoire le long des arêtes du graphe débutant en xi .

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 7 / 22

Page 16: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Quel noyau pour les graphes ?

Des noyaux basés sur le Laplacien

Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di =

∑nj=1 wi,j ,

Laplacien : L = (Li,j)i,j=1,...,n où

Li,j =

{−wi,j if i , jdi if i = j

;

À partir du Laplacien, on définit divers noyaux régularisant:

noyau de la chaleur : K(xi , xj) =[e−βL]ij

est la quantité d’énergieaccumulée en xj après un temps donné lorsque l’énergie a étéinjectée en xi au temps 0 et que la propagation s’est faite de manièrecontinue le long des arêtes du graphe.

inverse généralisée du Laplacien : K(xi , xj) = [L+]ij est relatif estau temps moyen du premier passage dans xj pour une marchealéatoire le long des arêtes du graphe débutant en xi .

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 7 / 22

Page 17: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Exemple de résultat obtenu

Réseau social médiéval avec noyau de la chaleur [Boulet et al., 2008]

Réseau de collaborations avec inverse généralisée

Questions : Comment utiliser ce travail de classification comme premièreétape d’une représentation complète du graphe ? Comment représentercomplètement la classification (ie, le plongement du graphe sur la carte) ?

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 8 / 22

Page 18: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Exemple de résultat obtenu

Réseau de collaborations avec inverse généralisée

Questions : Comment utiliser ce travail de classification comme premièreétape d’une représentation complète du graphe ? Comment représentercomplètement la classification (ie, le plongement du graphe sur la carte) ?

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 8 / 22

Page 19: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Exemple de résultat obtenu

Réseau de collaborations avec inverse généralisée

Questions : Comment utiliser ce travail de classification comme premièreétape d’une représentation complète du graphe ? Comment représentercomplètement la classification (ie, le plongement du graphe sur la carte) ?

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 8 / 22

Page 20: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Algorithmes force et repousse contraints[Truong et al., 2007, Truong et al., 2008, Villa et al., 2008] La Suite...

En ajoutant des contraintes sur les algorithmes de force et repousse

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 9 / 22

Page 21: Fouille de données pour de grands graphes. Recherche de communautés et organisation

En ajoutant des contraintes sur les algorithmes de force et repousse

Page 22: Fouille de données pour de grands graphes. Recherche de communautés et organisation

En ajoutant des contraintes sur les algorithmes de force et repousse

Page 23: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Pourquoi une approche alternative aux approches ànoyau ?

Limites de ces approches :

nécessitent une décomposition spectrale du Laplacien : tropcoûteuse si le graphe a plusieurs milliers de sommets ;

dépendent du choix du noyau (ie, de la structure euclidienne placéesur les sommets) ;

problèmes de sélection des paramètres (noyau, taille de la carte)car le critère de qualité habituel de l’algorithme de Kohonen (énergie)dépend de ces paramètres.

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 11 / 22

Page 24: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Un critère de mesure de la qualité de la classification

[Newman and Girvan, 2004] ont proposé une mesure de qualité d’undécoupage en communautés, la modularité :

Q = ]{arêtes à l’intérieur des communautés}

−]{arêtes attendues dans un modèle “nul”}

Que peut-être le modèle nul ? Différentes définitions sontpossibles. . . [Newman, 2006] propose

le nombre d’arêtes du modèle nul est celui du graphe observé ;le degré de chaque sommet du modèle nul est celui du grapheobservé (l’attachement à un individu de fort degré est plus probable).

Le modèle nul donne pij =didjn où di est le degré du sommet xi . On a donc

Q =1

2m

∑i,j

[aij − pij] I[C(xi)=C(xj)]

où A = (aij)ij est la matrice d’adjacence du graphe.

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 12 / 22

Page 25: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Un critère de mesure de la qualité de la classification

[Newman and Girvan, 2004] ont proposé une mesure de qualité d’undécoupage en communautés, la modularité :

Q = ]{arêtes à l’intérieur des communautés}

−]{arêtes attendues dans un modèle “nul”}

Que peut-être le modèle nul ? Différentes définitions sontpossibles. . . [Newman, 2006] propose

le nombre d’arêtes du modèle nul est celui du graphe observé ;le degré de chaque sommet du modèle nul est celui du grapheobservé (l’attachement à un individu de fort degré est plus probable).

Le modèle nul donne pij =didjn où di est le degré du sommet xi . On a donc

Q =1

2m

∑i,j

[aij − pij] I[C(xi)=C(xj)]

où A = (aij)ij est la matrice d’adjacence du graphe.

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 12 / 22

Page 26: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Un critère de mesure de la qualité de la classification

[Newman and Girvan, 2004] ont proposé une mesure de qualité d’undécoupage en communautés, la modularité :

Q = ]{arêtes à l’intérieur des communautés}

−]{arêtes attendues dans un modèle “nul”}

Que peut-être le modèle nul ? Différentes définitions sontpossibles. . . [Newman, 2006] propose

le nombre d’arêtes du modèle nul est celui du graphe observé ;le degré de chaque sommet du modèle nul est celui du grapheobservé (l’attachement à un individu de fort degré est plus probable).

Le modèle nul donne pij =didjn où di est le degré du sommet xi . On a donc

Q =1

2m

∑i,j

[aij − pij] I[C(xi)=C(xj)]

où A = (aij)ij est la matrice d’adjacence du graphe.Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 12 / 22

Page 27: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Comment adapter un tel critère dans le cadre“classification organisée” ? en cours avec Fabrice Rossi, ENST

Si h est une similarité sur la carte (h(i, j) = e−γd(i,j)2),

une approche organisée de la modularité est obtenue par maximisationsur l’ensemble des plongements possibles sur la carte des noeuds dugraphe de :

S =∑i,j

h(f(xi), f(xj)) (aij − pij)

où f(xi) désigne le neurone de la carte dans lequel le sommet xi estclassé.Problème : La maximisation de Q ou de S sont des problèmesNP-complets (nombre de classifications possibles sur la carte : m2n).

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 13 / 22

Page 28: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Comment adapter un tel critère dans le cadre“classification organisée” ? en cours avec Fabrice Rossi, ENST

Si h est une similarité sur la carte (h(i, j) = e−γd(i,j)2),

une approche organisée de la modularité est obtenue par maximisationsur l’ensemble des plongements possibles sur la carte des noeuds dugraphe de :

S =∑i,j

h(f(xi), f(xj)) (aij − pij)

où f(xi) désigne le neurone de la carte dans lequel le sommet xi estclassé.

Problème : La maximisation de Q ou de S sont des problèmesNP-complets (nombre de classifications possibles sur la carte : m2n).

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 13 / 22

Page 29: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Comment adapter un tel critère dans le cadre“classification organisée” ? en cours avec Fabrice Rossi, ENST

Si h est une similarité sur la carte (h(i, j) = e−γd(i,j)2),

une approche organisée de la modularité est obtenue par maximisationsur l’ensemble des plongements possibles sur la carte des noeuds dugraphe de :

S =∑i,j

h(f(xi), f(xj)) (aij − pij)

où f(xi) désigne le neurone de la carte dans lequel le sommet xi estclassé.Problème : La maximisation de Q ou de S sont des problèmesNP-complets (nombre de classifications possibles sur la carte : m2n).

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 13 / 22

Page 30: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Optimisation de modularité par recuit simulé en cours

avec Sébastien Gadat, IMT

Principe : Lorsque l’on cherche à minimiser une énergie E(f) (= −Q(f) ou−S(f)), on simule de manière stochastique (chaîne de Markov sur lesétats, f : classifications des sommets) ,la probabilité

PT (f) =e−E(f)/T∑g e−E(g)/T

.

Lorque T → 0, PT (f) se concentre sur minf E(f).

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 14 / 22

Page 31: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Optimisation de modularité par recuit simulé en cours

avec Sébastien Gadat, IMT

Principe : Lorsque l’on cherche à minimiser une énergie E(f) (= −Q(f) ou−S(f)), on simule de manière stochastique (chaîne de Markov sur lesétats, f : classifications des sommets) ,la probabilité

PT (f) =e−E(f)/T∑g e−E(g)/T

.

Lorque T → 0, PT (f) se concentre sur minf E(f).Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 14 / 22

Page 32: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Algorithme de recuit simulé pour optimisation de lamodularité

Algorithme1 On initialise la classification des sommets à un état aléatoire

f0 ∈ {1, . . . ,m}⊗n

2 On répète1 On tire deux classes j1 et j2 dans {1, . . . ,m} et un sommet xi dans

(f0)−1(j1) ∩ (f0)−1(j2) (les deux opérations équiprobables)2 Notons f̃ l’état dans lequel xi a subi un échange de classe entre j1 et j2.

On note ∆E = Q(̃f) − Q(f0)3 si ∆E > 0 alors f1 = f̃4 sinon f1 = f̃ avec probabilité e∆E/T et f1 = f0 avec probabilité e−∆E/T

5 On diminue T3 On stoppe à stabilisation de l’algorithme.

Chacun des calculs ∆E ne coûte “presque rien” (multiplication vectorielle).

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 15 / 22

Page 33: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Algorithme de recuit simulé pour optimisation de lamodularité

Algorithme1 On initialise la classification des sommets à un état aléatoire

f0 ∈ {1, . . . ,m}⊗n

2 On répète1 On tire deux classes j1 et j2 dans {1, . . . ,m} et un sommet xi dans

(f0)−1(j1) ∩ (f0)−1(j2) (les deux opérations équiprobables)2 Notons f̃ l’état dans lequel xi a subi un échange de classe entre j1 et j2.

On note ∆E = Q(̃f) − Q(f0)3 si ∆E > 0 alors f1 = f̃4 sinon f1 = f̃ avec probabilité e∆E/T et f1 = f0 avec probabilité e−∆E/T

5 On diminue T3 On stoppe à stabilisation de l’algorithme.

Chacun des calculs ∆E ne coûte “presque rien” (multiplication vectorielle).

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 15 / 22

Page 34: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Exemples

Optimisation de la modularité sur le réseau de collaborations

Optimisation de la modularité organisée sur le réseau decollaborations

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 16 / 22

Page 35: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Exemples

Optimisation de la modularité sur le réseau de collaborations

Optimisation de la modularité organisée sur le réseau decollaborations

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 16 / 22

Page 36: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Exemples

Optimisation de la modularité organisée sur le réseau decollaborations

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 16 / 22

Page 37: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Conclusions et perspectives

Ce que nous avons proposé :

Approches alternatives à la recherche et à l’organisation decommunautés non basées sur des décompositions spectrales ;

Ajout d’un aspect visualisation à la classification.

Questions et travail en cours :

Vitesse de convergence du recuit simulé dans ce cas particulier ?

Comment superposer / comparer des cartes ?

Utilisation d’un algorithme de recuit en champ moyen, plus efficaceque le recuit simulé.

Quel critère de comparaison de deux organisations sur une carte ?

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 17 / 22

Page 38: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Conclusions et perspectives

Ce que nous avons proposé :

Approches alternatives à la recherche et à l’organisation decommunautés non basées sur des décompositions spectrales ;

Ajout d’un aspect visualisation à la classification.

Questions et travail en cours :

Vitesse de convergence du recuit simulé dans ce cas particulier ?

Comment superposer / comparer des cartes ?

Utilisation d’un algorithme de recuit en champ moyen, plus efficaceque le recuit simulé.

Quel critère de comparaison de deux organisations sur une carte ?

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 17 / 22

Page 39: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Sommaire

1 Classification et organisation de graphesMotivationsOutils existants et limites : cartes auto-organisatrices à noyauUne approche stochastique : algorithme de recuit simulé

2 Recherche d’informations

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 18 / 22

Page 40: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Présentation du contexte et relations avec lesgraphes

Jeu de données :

des documents décrits par des mots

Problème : Une requête (décrite aussi par des mots) est confrontée auxdocuments. Quels sont les documents pertinents pour cette requête ?

Modélisation par un graphe pondéré

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 19 / 22

Page 41: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Présentation du contexte et relations avec lesgraphes

Jeu de données :

des documents décrits par des mots

Problème : Une requête (décrite aussi par des mots) est confrontée auxdocuments. Quels sont les documents pertinents pour cette requête ?

Modélisation par un graphe pondéré

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 19 / 22

Page 42: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Présentation du contexte et relations avec lesgraphes

Jeu de données :

des documents décrits par des mots

Problème : Une requête (décrite aussi par des mots) est confrontée auxdocuments. Quels sont les documents pertinents pour cette requête ?Modélisation par un graphe biparti

Document 1

Document 2

Document n

...

Requête

Mot 1

Mot 2

Mot 3

Mot 4

Mot m

Modélisation par un graphe pondéré

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 19 / 22

Page 43: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Présentation du contexte et relations avec lesgraphes

Jeu de données :

des documents décrits par des mots

Problème : Une requête (décrite aussi par des mots) est confrontée auxdocuments. Quels sont les documents pertinents pour cette requête ?Modélisation par un graphe pondéré

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 19 / 22

Page 44: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Distance entre documents

Les noyaux usuels de graphes sont de bons candidats pour construireune “distance” entre sommets (notamment entre documents et entreune requête et un document).

La règle de réponse à la requête est alors :1 Déterminer K(r , xi) pour r la requête est xi les documents2 Retenir les k documents maximisant K(r , xk ) (mesure de simularité)

Problème : Les graphes bipartis considérés dans ces problèmes ontplusieurs milliers de sommets... Nécessité d’un filtre préalable pourdiminuer la taille du graphe.

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 20 / 22

Page 45: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Distance entre documents

Les noyaux usuels de graphes sont de bons candidats pour construireune “distance” entre sommets (notamment entre documents et entreune requête et un document).La règle de réponse à la requête est alors :

1 Déterminer K(r , xi) pour r la requête est xi les documents2 Retenir les k documents maximisant K(r , xk ) (mesure de simularité)

Problème : Les graphes bipartis considérés dans ces problèmes ontplusieurs milliers de sommets... Nécessité d’un filtre préalable pourdiminuer la taille du graphe.

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 20 / 22

Page 46: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Distance entre documents

Les noyaux usuels de graphes sont de bons candidats pour construireune “distance” entre sommets (notamment entre documents et entreune requête et un document).La règle de réponse à la requête est alors :

1 Déterminer K(r , xi) pour r la requête est xi les documents2 Retenir les k documents maximisant K(r , xk ) (mesure de simularité)

Problème : Les graphes bipartis considérés dans ces problèmes ontplusieurs milliers de sommets... Nécessité d’un filtre préalable pourdiminuer la taille du graphe.

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 20 / 22

Page 47: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Un exemple basé sur la base de données CRAN

Similarité basée sur le graphe des correspondances

Similarité basée sur le graphe biparti

Conclusion : Ne semble pas très pertinent pour ce type de graphes...Reste à explorer la classification de documents !

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 21 / 22

Page 48: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Un exemple basé sur la base de données CRAN

Similarité basée sur le graphe biparti

Conclusion : Ne semble pas très pertinent pour ce type de graphes...Reste à explorer la classification de documents !

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 21 / 22

Page 49: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Un exemple basé sur la base de données CRAN

Similarité basée sur le graphe biparti

Conclusion : Ne semble pas très pertinent pour ce type de graphes...Reste à explorer la classification de documents !

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 21 / 22

Page 50: Fouille de données pour de grands graphes. Recherche de communautés et organisation

Références

Boulet, R., Jouve, B., Rossi, F., and Villa, N. (2008).Batch kernel SOM and related laplacian methods for social network analysis.Neurocomputing, 71(7-9):1257–1273.

Newman, M. (2006).Finding community structure in networks using the eigenvectors of matrices.Physical Review, E, 74(036104).

Newman, M. and Girvan, M. (2004).Finding and evaluating community structure in networks.Physical Review, E, 69:026113.

Truong, Q., Dkaki, T., and Charrel, P. (2007).An energy model for the drawing of clustered graphs.In Proceedings of Vème colloque international VSST, Marrakech, Maroc.

Truong, Q., Dkaki, T., and Charrel, P. (2008).Clustered graphs drawing.In Proceedings of Stimulating Manufacturing Excellence in SME, Hammamet, Tunisie.

Villa, N., Rossi, F., and Truong, Q. (2008).Mining a medieval social network by kernel som and related methods.In Proceedings of MASHS 2008 (Modèles et Apprentissages en Sciences Humaines et Sociales), Créteil, France.

Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 22 / 22