73
Fouille de données sur des grands graphes Nathalie Villa-Vialaneix http://www.nathalievilla.org Toulouse School of Economics Séminaire de Statistique et Applications, Luminy 18 décembre 2008 Luminy (18/12/08) Nathalie Villa Data mining & graphes 1 / 31

Fouille de données pour des grands graphes

  • Upload
    tuxette

  • View
    172

  • Download
    4

Embed Size (px)

DESCRIPTION

Séminaire de statistiques et applications, Institut de Mathématiques de Luminy 18 décembre 2008

Citation preview

Page 1: Fouille de données pour des grands graphes

Fouille de données sur des grands graphes

Nathalie Villa-Vialaneixhttp://www.nathalievilla.org

Toulouse School of Economics

Séminaire de Statistique et Applications, Luminy18 décembre 2008

Luminy (18/12/08) Nathalie Villa Data mining & graphes 1 / 31

Page 2: Fouille de données pour des grands graphes

Sommaire

1 Motivations

2 Méthodes à noyau pour graphes

3 Optimisation de la modularité

Luminy (18/12/08) Nathalie Villa Data mining & graphes 2 / 31

Page 3: Fouille de données pour des grands graphes

Motivations

Sommaire

1 Motivations

2 Méthodes à noyau pour graphes

3 Optimisation de la modularité

Luminy (18/12/08) Nathalie Villa Data mining & graphes 3 / 31

Page 4: Fouille de données pour des grands graphes

Motivations

Comprendre la structure de grands graphesQuelques exemples de problèmes modélisés par de grands graphes

1 Réseaux sociaux• réseaux de connaissances• réseaux de l’internet• réseaux de citations

2 Réseaux biologiques• réseaux d’interactions de protéines, de gènes

3 documents, préférences (graphes bipartis), . . .

Problèmes rencontrés lors de la manipulation de ce type de données :• comment représenter le graphe de manière lisible et interprétable ?• quelles méthodes de fouille de données car aucune structure

euclidienne ?• taille des données (plusieurs centaines ou plusieurs milliers de

sommets...) nécessite de faire attention à la complexité.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 4 / 31

Page 5: Fouille de données pour des grands graphes

Motivations

Comprendre la structure de grands graphesQuelques exemples de problèmes modélisés par de grands graphes

1 Réseaux sociaux• réseaux de connaissances• réseaux de l’internet• réseaux de citations

2 Réseaux biologiques• réseaux d’interactions de protéines, de gènes

3 documents, préférences (graphes bipartis), . . .

Problèmes rencontrés lors de la manipulation de ce type de données :• comment représenter le graphe de manière lisible et interprétable ?• quelles méthodes de fouille de données car aucune structure

euclidienne ?• taille des données (plusieurs centaines ou plusieurs milliers de

sommets...) nécessite de faire attention à la complexité.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 4 / 31

Page 6: Fouille de données pour des grands graphes

Motivations

Comprendre la structure de grands graphesQuelques exemples de problèmes modélisés par de grands graphes

1 Réseaux sociaux• réseaux de connaissances• réseaux de l’internet• réseaux de citations

2 Réseaux biologiques• réseaux d’interactions de protéines, de gènes

3 documents, préférences (graphes bipartis), . . .

Problèmes rencontrés lors de la manipulation de ce type de données :• comment représenter le graphe de manière lisible et interprétable ?• quelles méthodes de fouille de données car aucune structure

euclidienne ?• taille des données (plusieurs centaines ou plusieurs milliers de

sommets...) nécessite de faire attention à la complexité.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 4 / 31

Page 7: Fouille de données pour des grands graphes

Motivations

Comprendre la structure de grands graphesQuelques exemples de problèmes modélisés par de grands graphes

1 Réseaux sociaux• réseaux de connaissances• réseaux de l’internet• réseaux de citations

2 Réseaux biologiques• réseaux d’interactions de protéines, de gènes

3 documents, préférences (graphes bipartis), . . .

Problèmes rencontrés lors de la manipulation de ce type de données :• comment représenter le graphe de manière lisible et interprétable ?• quelles méthodes de fouille de données car aucune structure

euclidienne ?• taille des données (plusieurs centaines ou plusieurs milliers de

sommets...) nécessite de faire attention à la complexité.Luminy (18/12/08) Nathalie Villa Data mining & graphes 4 / 31

Page 8: Fouille de données pour des grands graphes

Motivations

Exemple réel 1 : un graphe venu du Moyen-ÂgeUn très grand corpus

Aux archives de Cahors (Lot), corpus de 5000 contrats agraires. Cescontrats

• viennent de 4 seigneuries (environ 25 petits villages au total) duSud-Ouest de la France ;

• ont été établis entre 1240 et 1520 (avant et après la guerre de centans) ;

Ce corpus intéresse les historiens car :• seul un petit nombre de documents du Moyen-Âge parlent de la vie

quotidienne des paysans ;• il peut permettre d’étudier sans a priori l’évolution de la structure du

réseau social avant et après la guerre de 100 ans.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 5 / 31

Page 9: Fouille de données pour des grands graphes

Motivations

Exemple réel 1 : un graphe venu du Moyen-ÂgeUn très grand corpus

Aux archives de Cahors (Lot), corpus de 5000 contrats agraires. Cescontrats

• viennent de 4 seigneuries (environ 25 petits villages au total) duSud-Ouest de la France ;

• ont été établis entre 1240 et 1520 (avant et après la guerre de centans) ;

Ce corpus intéresse les historiens car :• seul un petit nombre de documents du Moyen-Âge parlent de la vie

quotidienne des paysans ;• il peut permettre d’étudier sans a priori l’évolution de la structure du

réseau social avant et après la guerre de 100 ans.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 5 / 31

Page 10: Fouille de données pour des grands graphes

Motivations

Modélisation du réseau social par un graphe

À partir de 1000 contracts datant d’avant la guerre de 100 ans, nousavons modélisé le réseau social par un graphe pondéré :

• sommets : les paysans nommés dans les contrats (sans les nobles);

• 2 paysans sont liés par une arête si :• ils apparaissent ensemble dans le même contrat ;• ils apparaissent dans deux contrats différents dans lesquels ils sont

affiliés au même seigneur et qui différent l’un de l’autre de moins de 15ans.

• les arêtes du graphe sont pondérés par (wi,j)i,j=1...,n quicorrespondent au nombre de contrats satisfaisant ces conditions. Lespoids vérifient :• wi,j = wj,i ≥ 0• wi,i = 0.

But : Fournir aux historiens des outils pour les aider à comprendre lastructure de ce réseau social.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 6 / 31

Page 11: Fouille de données pour des grands graphes

Motivations

Modélisation du réseau social par un graphe

À partir de 1000 contracts datant d’avant la guerre de 100 ans, nousavons modélisé le réseau social par un graphe pondéré :

• sommets : les paysans nommés dans les contrats (sans les nobles);• 2 paysans sont liés par une arête si :

• ils apparaissent ensemble dans le même contrat ;• ils apparaissent dans deux contrats différents dans lesquels ils sont

affiliés au même seigneur et qui différent l’un de l’autre de moins de 15ans.

• les arêtes du graphe sont pondérés par (wi,j)i,j=1...,n quicorrespondent au nombre de contrats satisfaisant ces conditions. Lespoids vérifient :• wi,j = wj,i ≥ 0• wi,i = 0.

But : Fournir aux historiens des outils pour les aider à comprendre lastructure de ce réseau social.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 6 / 31

Page 12: Fouille de données pour des grands graphes

Motivations

Modélisation du réseau social par un graphe

À partir de 1000 contracts datant d’avant la guerre de 100 ans, nousavons modélisé le réseau social par un graphe pondéré :

• sommets : les paysans nommés dans les contrats (sans les nobles);• 2 paysans sont liés par une arête si :

• ils apparaissent ensemble dans le même contrat ;• ils apparaissent dans deux contrats différents dans lesquels ils sont

affiliés au même seigneur et qui différent l’un de l’autre de moins de 15ans.

• les arêtes du graphe sont pondérés par (wi,j)i,j=1...,n quicorrespondent au nombre de contrats satisfaisant ces conditions. Lespoids vérifient :• wi,j = wj,i ≥ 0• wi,i = 0.

But : Fournir aux historiens des outils pour les aider à comprendre lastructure de ce réseau social.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 6 / 31

Page 13: Fouille de données pour des grands graphes

Motivations

Modélisation du réseau social par un graphe

À partir de 1000 contracts datant d’avant la guerre de 100 ans, nousavons modélisé le réseau social par un graphe pondéré :

• sommets : les paysans nommés dans les contrats (sans les nobles);• 2 paysans sont liés par une arête si :

• ils apparaissent ensemble dans le même contrat ;• ils apparaissent dans deux contrats différents dans lesquels ils sont

affiliés au même seigneur et qui différent l’un de l’autre de moins de 15ans.

• les arêtes du graphe sont pondérés par (wi,j)i,j=1...,n quicorrespondent au nombre de contrats satisfaisant ces conditions. Lespoids vérifient :• wi,j = wj,i ≥ 0• wi,i = 0.

But : Fournir aux historiens des outils pour les aider à comprendre lastructure de ce réseau social.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 6 / 31

Page 14: Fouille de données pour des grands graphes

Motivations

Première description du grapheLa plus grande composante connexe du réseau social médiéval :• a 615 sommets (i.e. 615 paysans différents cités dans les contrats),

• a 4193 arêtes dont la somme des poids est 40 329 mais 50% de cesarêtes ont un poids égal à 1 et moins de 2% ont un poids supérieur à100,

• est un “graphe petit monde” avec une petite densité globale (2.2%)et une grande connectivité locale (77%),

• est un “graphe sans échelle typique”.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 7 / 31

Page 15: Fouille de données pour des grands graphes

Motivations

Première description du grapheLa plus grande composante connexe du réseau social médiéval :• a 615 sommets (i.e. 615 paysans différents cités dans les contrats),• a 4193 arêtes dont la somme des poids est 40 329 mais 50% de ces

arêtes ont un poids égal à 1 et moins de 2% ont un poids supérieur à100,

• est un “graphe petit monde” avec une petite densité globale (2.2%)et une grande connectivité locale (77%),

• est un “graphe sans échelle typique”.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 7 / 31

Page 16: Fouille de données pour des grands graphes

Motivations

Première description du grapheLa plus grande composante connexe du réseau social médiéval :• a 615 sommets (i.e. 615 paysans différents cités dans les contrats),• a 4193 arêtes dont la somme des poids est 40 329 mais 50% de ces

arêtes ont un poids égal à 1 et moins de 2% ont un poids supérieur à100,

• est un “graphe petit monde” avec une petite densité globale (2.2%)et une grande connectivité locale (77%),

• est un “graphe sans échelle typique”.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 7 / 31

Page 17: Fouille de données pour des grands graphes

Motivations

Première description du grapheLa plus grande composante connexe du réseau social médiéval :• a 615 sommets (i.e. 615 paysans différents cités dans les contrats),• a 4193 arêtes dont la somme des poids est 40 329 mais 50% de ces

arêtes ont un poids égal à 1 et moins de 2% ont un poids supérieur à100,

• est un “graphe petit monde” avec une petite densité globale (2.2%)et une grande connectivité locale (77%),

• est un “graphe sans échelle typique”.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 7 / 31

Page 18: Fouille de données pour des grands graphes

Motivations

Exemple réel 2 : Réseau de collaborations scientifiques[Newman, 2006]Un réseau de collaborations scientifiques autour de la thématique desréseaux sociaux : graphe connexe pondéré avec 379 sommets.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 8 / 31

Page 19: Fouille de données pour des grands graphes

Motivations

Point de vue adopté

[Newman and Girvan, 2004]

“reducing [the] level of complexity [of a network] to one that can beinterpreted readily by the human eye, will be invaluable in helping us tounderstand the large-scale structure of these new network data”

Méthodologie : Mise en valeur de groupes homogènes (ou fortementconnectés) liés à une visualisation permettant de comprendre facilementles relations entre ces groupes : outils statistiques liés à laclassification (de sommets d’un graphe) et/ou à l’organisation.Problématique de la recherche de communautés: groupes sociauxhomogènes, groupes de protéines, de gènes fortement liés, etc...

Luminy (18/12/08) Nathalie Villa Data mining & graphes 9 / 31

Page 20: Fouille de données pour des grands graphes

Motivations

Point de vue adopté

[Newman and Girvan, 2004]

“reducing [the] level of complexity [of a network] to one that can beinterpreted readily by the human eye, will be invaluable in helping us tounderstand the large-scale structure of these new network data”

Méthodologie : Mise en valeur de groupes homogènes (ou fortementconnectés) liés à une visualisation permettant de comprendre facilementles relations entre ces groupes : outils statistiques liés à laclassification (de sommets d’un graphe) et/ou à l’organisation.

Problématique de la recherche de communautés: groupes sociauxhomogènes, groupes de protéines, de gènes fortement liés, etc...

Luminy (18/12/08) Nathalie Villa Data mining & graphes 9 / 31

Page 21: Fouille de données pour des grands graphes

Motivations

Point de vue adopté

[Newman and Girvan, 2004]

“reducing [the] level of complexity [of a network] to one that can beinterpreted readily by the human eye, will be invaluable in helping us tounderstand the large-scale structure of these new network data”

Méthodologie : Mise en valeur de groupes homogènes (ou fortementconnectés) liés à une visualisation permettant de comprendre facilementles relations entre ces groupes : outils statistiques liés à laclassification (de sommets d’un graphe) et/ou à l’organisation.Problématique de la recherche de communautés: groupes sociauxhomogènes, groupes de protéines, de gènes fortement liés, etc...

Luminy (18/12/08) Nathalie Villa Data mining & graphes 9 / 31

Page 22: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Sommaire

1 Motivations

2 Méthodes à noyau pour graphes

3 Optimisation de la modularité

Luminy (18/12/08) Nathalie Villa Data mining & graphes 10 / 31

Page 23: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Principe général de “Batch kernel SOM”[Villa and Rossi, 2007, Boulet et al., 2008]

Les sommets du graphe sont plongés dans un espace euclidien (par lebiais d’un noyau).

p1

p2

p3

12

3

Chaque neurone j de la carte est représenté par un prototype pj .Les couples (j, pj) et (xi , f(xi)) dépendent l’un de l’autre et sont mis à jouralternativement afin d’approcher la minimisation de l’énergie de la carte :

En =n∑

j=1

M∑i=1

h(d(f(xj), i))‖φ(xi) − pj‖2

Luminy (18/12/08) Nathalie Villa Data mining & graphes 11 / 31

Page 24: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Principe général de “Batch kernel SOM”[Villa and Rossi, 2007, Boulet et al., 2008]

Chaque sommet xi est assigné à un neurone (une classe) de la carte deKohonen, f(xi).Les neurones sont dépendants les un des autres par une relation devoisinage (“distance”: d).

p1

p2

p3

12

3

Chaque neurone j de la carte est représenté par un prototype pj .Les couples (j, pj) et (xi , f(xi)) dépendent l’un de l’autre et sont mis à jouralternativement afin d’approcher la minimisation de l’énergie de la carte :

En =n∑

j=1

M∑i=1

h(d(f(xj), i))‖φ(xi) − pj‖2

Luminy (18/12/08) Nathalie Villa Data mining & graphes 11 / 31

Page 25: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Principe général de “Batch kernel SOM”[Villa and Rossi, 2007, Boulet et al., 2008]

p1

p2

p3

12

3

Chaque neurone j de la carte est représenté par un prototype pj .Les couples (j, pj) et (xi , f(xi)) dépendent l’un de l’autre et sont mis à jouralternativement afin d’approcher la minimisation de l’énergie de la carte :

En =n∑

j=1

M∑i=1

h(d(f(xj), i))‖φ(xi) − pj‖2

Luminy (18/12/08) Nathalie Villa Data mining & graphes 11 / 31

Page 26: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

“Astuce noyau” et calcul de l’énergie

On utilise les propriétés de noyau reproduisant de K pour écrire l’énergie :

En =n∑

j=1

M∑i=1

h(d(f(xj), i))‖φ(xi) − pj‖2

=n∑

j=1

M∑i=1

h(d(f(xj), i))‖φ(xi) −n∑

k=1

αjkφ(xk )‖2

=n∑

j=1

M∑i=1

h(d(f(xj), i))

K(xi , xi) − 2n∑

k=1

αjk K(xi , xk )

+n∑

k ,k ′=1

αkαk ′K(xk , xk ′)

où K(x, x′) = 〈φ(x), φ(x′)〉H .

Luminy (18/12/08) Nathalie Villa Data mining & graphes 12 / 31

Page 27: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

“Astuce noyau” et calcul de l’énergie

On utilise les propriétés de noyau reproduisant de K pour écrire l’énergie :

En =n∑

j=1

M∑i=1

h(d(f(xj), i))‖φ(xi) − pj‖2

=n∑

j=1

M∑i=1

h(d(f(xj), i))‖φ(xi) −n∑

k=1

αjkφ(xk )‖2

=n∑

j=1

M∑i=1

h(d(f(xj), i))

K(xi , xi) − 2n∑

k=1

αjk K(xi , xk )

+n∑

k ,k ′=1

αkαk ′K(xk , xk ′)

où K(x, x′) = 〈φ(x), φ(x′)〉H .

Luminy (18/12/08) Nathalie Villa Data mining & graphes 12 / 31

Page 28: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

“Astuce noyau” et calcul de l’énergie

On utilise les propriétés de noyau reproduisant de K pour écrire l’énergie :

En =n∑

j=1

M∑i=1

h(d(f(xj), i))‖φ(xi) − pj‖2

=n∑

j=1

M∑i=1

h(d(f(xj), i))‖φ(xi) −n∑

k=1

αjkφ(xk )‖2

=n∑

j=1

M∑i=1

h(d(f(xj), i))

K(xi , xi) − 2n∑

k=1

αjk K(xi , xk )

+n∑

k ,k ′=1

αkαk ′K(xk , xk ′)

où K(x, x′) = 〈φ(x), φ(x′)〉H .

Luminy (18/12/08) Nathalie Villa Data mining & graphes 12 / 31

Page 29: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Quel noyau ?

Définition du Laplacien [Kondor and Lafferty, 2002]

Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di =

∑nj=1 wi,j ,

Laplacien : L = (Li,j)i,j=1,...,n où

Li,j =

{−wi,j if i , jdi if i = j

;

Luminy (18/12/08) Nathalie Villa Data mining & graphes 13 / 31

Page 30: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Propriétés du Laplacien I [von Luxburg, 2007]

Composantes connexes

KerL = Span{IA1 , . . . , IAk } où Ai indique les positions des sommets de laième composante connexe du graphe.

1

4

5

2

3

KerL = Span

10011

;

01100

Luminy (18/12/08) Nathalie Villa Data mining & graphes 14 / 31

Page 31: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Propriétés du Laplacien II [Boulet et al., 2008]Communauté parfaite : Sous-graphe complet (clique) dont les sommetspossèdent les mêmes voisins à l’extérieur de la clique.

Laplacien and communautés parfaites

Pour un graphe non pondéré,

Le graphe a une communauté parfaite à m sommets⇔

L possède m vecteurs propres qui ont les mêmes n −m coordonnéesnulles.

Application :

Limite : Seuls 1/3 des sommets du graphe peuvent être représentés decette manière.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 15 / 31

Page 32: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Propriétés du Laplacien II [Boulet et al., 2008]Communauté parfaite : Sous-graphe complet (clique) dont les sommetspossèdent les mêmes voisins à l’extérieur de la clique.Application :

Limite : Seuls 1/3 des sommets du graphe peuvent être représentés decette manière.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 15 / 31

Page 33: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Propriétés du Laplacien II [Boulet et al., 2008]Communauté parfaite : Sous-graphe complet (clique) dont les sommetspossèdent les mêmes voisins à l’extérieur de la clique.Application :

Limite : Seuls 1/3 des sommets du graphe peuvent être représentés decette manière.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 15 / 31

Page 34: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Propriétés du Laplacien III [von Luxburg, 2007]Problème de la coupe optimale : Supposons que le graphe soit connexe.Trouver une classification des sommets du graphe, A1, . . . ,Ak telle que

12

k∑i=1

∑j∈Ai ,j′<Ai

wj,j′

est minimale , est équivalent à

H = arg minh∈Rn×k

Tr(hT Lh

)subject to

hT h = Ihi = 1/

√|Ai |1Ai

peut être approché par

H = arg minh∈Rn×k

Tr(hT Lh

)subject to hT h = I

Spectral clustering : Trouver les vecteurs propres associés aux k pluspetites valeurs propres de L , H, et faire la classification sur les colonnesde H.Quelques problèmes du “spectral clustering” : Utilisation d’une partiedu spectre seulement (laquelle ?), a tendance à produire un faible nombrede classes de très grosses tailles et beaucoup de micro classes (un à cinqindividus).

Luminy (18/12/08) Nathalie Villa Data mining & graphes 16 / 31

Page 35: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Propriétés du Laplacien III [von Luxburg, 2007]Problème de la coupe optimale : Supposons que le graphe soit connexe.Trouver une classification des sommets du graphe, A1, . . . ,Ak telle que

12

k∑i=1

∑j∈Ai ,j′<Ai

wj,j′

est minimale , est équivalent à

H = arg minh∈Rn×k

Tr(hT Lh

)subject to

hT h = Ihi = 1/

√|Ai |1Ai

⇒ problème NP-complet.

peut être approché par

H = arg minh∈Rn×k

Tr(hT Lh

)subject to hT h = I

Spectral clustering : Trouver les vecteurs propres associés aux k pluspetites valeurs propres de L , H, et faire la classification sur les colonnesde H.Quelques problèmes du “spectral clustering” : Utilisation d’une partiedu spectre seulement (laquelle ?), a tendance à produire un faible nombrede classes de très grosses tailles et beaucoup de micro classes (un à cinqindividus).

Luminy (18/12/08) Nathalie Villa Data mining & graphes 16 / 31

Page 36: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Propriétés du Laplacien III [von Luxburg, 2007]Problème de la coupe optimale : Supposons que le graphe soit connexe.Trouver une classification des sommets du graphe, A1, . . . ,Ak telle que

12

k∑i=1

∑j∈Ai ,j′<Ai

wj,j′

est minimale peut être approché par

H = arg minh∈Rn×k

Tr(hT Lh

)subject to hT h = I

Spectral clustering : Trouver les vecteurs propres associés aux k pluspetites valeurs propres de L , H, et faire la classification sur les colonnesde H.Quelques problèmes du “spectral clustering” : Utilisation d’une partiedu spectre seulement (laquelle ?), a tendance à produire un faible nombrede classes de très grosses tailles et beaucoup de micro classes (un à cinqindividus).

Luminy (18/12/08) Nathalie Villa Data mining & graphes 16 / 31

Page 37: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Propriétés du Laplacien III [von Luxburg, 2007]Problème de la coupe optimale : Supposons que le graphe soit connexe.Trouver une classification des sommets du graphe, A1, . . . ,Ak telle que

12

k∑i=1

∑j∈Ai ,j′<Ai

wj,j′

est minimale peut être approché par

H = arg minh∈Rn×k

Tr(hT Lh

)subject to hT h = I

Spectral clustering : Trouver les vecteurs propres associés aux k pluspetites valeurs propres de L , H, et faire la classification sur les colonnesde H.

Quelques problèmes du “spectral clustering” : Utilisation d’une partiedu spectre seulement (laquelle ?), a tendance à produire un faible nombrede classes de très grosses tailles et beaucoup de micro classes (un à cinqindividus).

Luminy (18/12/08) Nathalie Villa Data mining & graphes 16 / 31

Page 38: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Propriétés du Laplacien III [von Luxburg, 2007]Problème de la coupe optimale : Supposons que le graphe soit connexe.Trouver une classification des sommets du graphe, A1, . . . ,Ak telle que

12

k∑i=1

∑j∈Ai ,j′<Ai

wj,j′

est minimale peut être approché par

H = arg minh∈Rn×k

Tr(hT Lh

)subject to hT h = I

Spectral clustering : Trouver les vecteurs propres associés aux k pluspetites valeurs propres de L , H, et faire la classification sur les colonnesde H.Quelques problèmes du “spectral clustering” : Utilisation d’une partiedu spectre seulement (laquelle ?), a tendance à produire un faible nombrede classes de très grosses tailles et beaucoup de micro classes (un à cinqindividus).

Luminy (18/12/08) Nathalie Villa Data mining & graphes 16 / 31

Page 39: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Des versions régularisées de L

1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,Kβ = e−βL =

∑+∞k=1

(−βL)k

k ! .⇒

Kβ : V × V → R

(xi , xj) → Kβi,j

noyau de diffusion (ou noyau de la chaleur)

' Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj etque la diffusion se fait de manière continue le long des arêtes dugraphe.

2 L’inverse généralisée du Laplacien [Fouss et al., 2007] : K = L+.

' Temps moyen pour atteindre xi à partir de xj lors d’une marchealéatoire sur le graphe.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 17 / 31

Page 40: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Des versions régularisées de L

1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,Kβ = e−βL =

∑+∞k=1

(−βL)k

k ! .⇒

Kβ : V × V → R

(xi , xj) → Kβi,j

noyau de diffusion (ou noyau de la chaleur)' Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj etque la diffusion se fait de manière continue le long des arêtes dugraphe.

2 L’inverse généralisée du Laplacien [Fouss et al., 2007] : K = L+.

' Temps moyen pour atteindre xi à partir de xj lors d’une marchealéatoire sur le graphe.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 17 / 31

Page 41: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Des versions régularisées de L

1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,Kβ = e−βL =

∑+∞k=1

(−βL)k

k ! .⇒

Kβ : V × V → R

(xi , xj) → Kβi,j

noyau de diffusion (ou noyau de la chaleur)' Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj etque la diffusion se fait de manière continue le long des arêtes dugraphe.

2 L’inverse généralisée du Laplacien [Fouss et al., 2007] : K = L+.

' Temps moyen pour atteindre xi à partir de xj lors d’une marchealéatoire sur le graphe.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 17 / 31

Page 42: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Des versions régularisées de L

1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,Kβ = e−βL =

∑+∞k=1

(−βL)k

k ! .⇒

Kβ : V × V → R

(xi , xj) → Kβi,j

noyau de diffusion (ou noyau de la chaleur)' Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj etque la diffusion se fait de manière continue le long des arêtes dugraphe.

2 L’inverse généralisée du Laplacien [Fouss et al., 2007] : K = L+.' Temps moyen pour atteindre xi à partir de xj lors d’une marchealéatoire sur le graphe.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 17 / 31

Page 43: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Exemple de résultat obtenuRéseau social médiéval avec noyau de la chaleur [Boulet et al., 2008]

Réseau de collaborations avec inverse généralisée

Questions : Comment utiliser ce travail de classification comme premièreétape d’une représentation complète du graphe ? Comment représentercomplètement la classification (ie, le plongement du graphe sur la carte) ?

Luminy (18/12/08) Nathalie Villa Data mining & graphes 18 / 31

Page 44: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Exemple de résultat obtenuRéseau social médiéval avec noyau de la chaleur [Boulet et al., 2008]

Réseau de collaborations avec inverse généralisée

Questions : Comment utiliser ce travail de classification comme premièreétape d’une représentation complète du graphe ? Comment représentercomplètement la classification (ie, le plongement du graphe sur la carte) ?

Luminy (18/12/08) Nathalie Villa Data mining & graphes 18 / 31

Page 45: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Exemple de résultat obtenuRéseau social médiéval avec noyau de la chaleur [Boulet et al., 2008]

Réseau de collaborations avec inverse généralisée

Questions : Comment utiliser ce travail de classification comme premièreétape d’une représentation complète du graphe ? Comment représentercomplètement la classification (ie, le plongement du graphe sur la carte) ?

Luminy (18/12/08) Nathalie Villa Data mining & graphes 18 / 31

Page 46: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Exemple de résultat obtenuRéseau de collaborations avec inverse généralisée

Questions : Comment utiliser ce travail de classification comme premièreétape d’une représentation complète du graphe ? Comment représentercomplètement la classification (ie, le plongement du graphe sur la carte) ?

Luminy (18/12/08) Nathalie Villa Data mining & graphes 18 / 31

Page 47: Fouille de données pour des grands graphes

Méthodes à noyau pour graphes

Algorithmes force et repousse contraints[Truong et al., 2007, Truong et al., 2008, Villa et al., 2008] La Suite...

En ajoutant des contraintes sur les algorithmes de force et repousse

Luminy (18/12/08) Nathalie Villa Data mining & graphes 19 / 31

Page 48: Fouille de données pour des grands graphes

En ajoutant des contraintes sur les algorithmes de force et repousse

Page 49: Fouille de données pour des grands graphes

En ajoutant des contraintes sur les algorithmes de force et repousse

Page 50: Fouille de données pour des grands graphes

Optimisation de la modularité

Sommaire

1 Motivations

2 Méthodes à noyau pour graphes

3 Optimisation de la modularité

Luminy (18/12/08) Nathalie Villa Data mining & graphes 21 / 31

Page 51: Fouille de données pour des grands graphes

Optimisation de la modularité

Pourquoi une approche alternative aux approches ànoyau ?

Limites de ces approches :

• nécessitent une décomposition spectrale du Laplacien : tropcoûteuse si le graphe a plusieurs milliers de sommets ;

• dépendent du choix du noyau (ie, de la structure euclidienne placéesur les sommets) ;

• problèmes de sélection des paramètres (noyau, taille de la carte)car le critère de qualité habituel de l’algorithme de Kohonen (énergie)dépend de ces paramètres.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 22 / 31

Page 52: Fouille de données pour des grands graphes

Optimisation de la modularité

Un critère de mesure de la qualité de la classification[Newman and Girvan, 2004] ont proposé une mesure de qualité d’undécoupage en communautés, la modularité :

Q = ]{arêtes à l’intérieur des communautés}

−]{arêtes attendues dans un modèle “nul”}

Que peut-être le modèle nul ? Différentes définitions sontpossibles. . . [Newman, 2006] propose• le nombre d’arêtes du modèle nul est celui du graphe observé ;• le degré de chaque sommet du modèle nul est celui du graphe

observé (l’attachement à un individu de fort degré est plus probable).Le modèle nul donne pij =

didjn où di est le degré du sommet xi . On a donc

Q =1

2p

∑i,j

[aij − pij] I[C(xi)=C(xj)]

où A = (aij)ij est la matrice d’adjacence du graphe et 2p =∑

aij .

Luminy (18/12/08) Nathalie Villa Data mining & graphes 23 / 31

Page 53: Fouille de données pour des grands graphes

Optimisation de la modularité

Un critère de mesure de la qualité de la classification[Newman and Girvan, 2004] ont proposé une mesure de qualité d’undécoupage en communautés, la modularité :

Q = ]{arêtes à l’intérieur des communautés}

−]{arêtes attendues dans un modèle “nul”}

Que peut-être le modèle nul ? Différentes définitions sontpossibles. . . [Newman, 2006] propose• le nombre d’arêtes du modèle nul est celui du graphe observé ;• le degré de chaque sommet du modèle nul est celui du graphe

observé (l’attachement à un individu de fort degré est plus probable).

Le modèle nul donne pij =didjn où di est le degré du sommet xi . On a donc

Q =1

2p

∑i,j

[aij − pij] I[C(xi)=C(xj)]

où A = (aij)ij est la matrice d’adjacence du graphe et 2p =∑

aij .

Luminy (18/12/08) Nathalie Villa Data mining & graphes 23 / 31

Page 54: Fouille de données pour des grands graphes

Optimisation de la modularité

Un critère de mesure de la qualité de la classification[Newman and Girvan, 2004] ont proposé une mesure de qualité d’undécoupage en communautés, la modularité :

Q = ]{arêtes à l’intérieur des communautés}

−]{arêtes attendues dans un modèle “nul”}

Que peut-être le modèle nul ? Différentes définitions sontpossibles. . . [Newman, 2006] propose• le nombre d’arêtes du modèle nul est celui du graphe observé ;• le degré de chaque sommet du modèle nul est celui du graphe

observé (l’attachement à un individu de fort degré est plus probable).Le modèle nul donne pij =

didjn où di est le degré du sommet xi . On a donc

Q =1

2p

∑i,j

[aij − pij] I[C(xi)=C(xj)]

où A = (aij)ij est la matrice d’adjacence du graphe et 2p =∑

aij .Luminy (18/12/08) Nathalie Villa Data mining & graphes 23 / 31

Page 55: Fouille de données pour des grands graphes

Optimisation de la modularité

Comment adapter un tel critère dans le cadre“classification organisée” ? [Rossi and Villa, 2008]Si h est une similarité sur la carte (h(i, j) = e−γd(i,j)2

),

une approche organisée de la modularité est obtenue par maximisationsur l’ensemble des plongements possibles sur la carte des noeuds dugraphe de :

S =∑i,j

h(f(xi), f(xj)) (aij − pij)

où f(xi) désigne le neurone dans lequel le sommet xi est classé.Problème : La maximisation de Q ou de S sont des problèmesNP-complets (nombre de classifications possibles sur la carte : m2n).

Luminy (18/12/08) Nathalie Villa Data mining & graphes 24 / 31

Page 56: Fouille de données pour des grands graphes

Optimisation de la modularité

Comment adapter un tel critère dans le cadre“classification organisée” ? [Rossi and Villa, 2008]Si h est une similarité sur la carte (h(i, j) = e−γd(i,j)2

),

une approche organisée de la modularité est obtenue par maximisationsur l’ensemble des plongements possibles sur la carte des noeuds dugraphe de :

S =∑i,j

h(f(xi), f(xj)) (aij − pij)

où f(xi) désigne le neurone dans lequel le sommet xi est classé.

Problème : La maximisation de Q ou de S sont des problèmesNP-complets (nombre de classifications possibles sur la carte : m2n).

Luminy (18/12/08) Nathalie Villa Data mining & graphes 24 / 31

Page 57: Fouille de données pour des grands graphes

Optimisation de la modularité

Comment adapter un tel critère dans le cadre“classification organisée” ? [Rossi and Villa, 2008]Si h est une similarité sur la carte (h(i, j) = e−γd(i,j)2

),

une approche organisée de la modularité est obtenue par maximisationsur l’ensemble des plongements possibles sur la carte des noeuds dugraphe de :

S =∑i,j

h(f(xi), f(xj)) (aij − pij)

où f(xi) désigne le neurone dans lequel le sommet xi est classé.Problème : La maximisation de Q ou de S sont des problèmesNP-complets (nombre de classifications possibles sur la carte : m2n).

Luminy (18/12/08) Nathalie Villa Data mining & graphes 24 / 31

Page 58: Fouille de données pour des grands graphes

Optimisation de la modularité

Optimisation de modularité par recuit simulé en cours avec

Sébastien Gadat, IMTPrincipe : Lorsque l’on cherche à minimiser une énergie E(f) (= −Q(f) ou−S(f)), on simule de manière stochastique (chaîne de Markov sur lesétats, f : classifications des sommets),la probabilité

PT (f) =e−E(f)/T∑g e−E(g)/T

.

Lorque T → 0, PT (f) se concentre sur minf E(f).

Luminy (18/12/08) Nathalie Villa Data mining & graphes 25 / 31

Page 59: Fouille de données pour des grands graphes

Optimisation de la modularité

Optimisation de modularité par recuit simulé en cours avec

Sébastien Gadat, IMTPrincipe : Lorsque l’on cherche à minimiser une énergie E(f) (= −Q(f) ou−S(f)), on simule de manière stochastique (chaîne de Markov sur lesétats, f : classifications des sommets),la probabilité

PT (f) =e−E(f)/T∑g e−E(g)/T

.

Lorque T → 0, PT (f) se concentre sur minf E(f).Luminy (18/12/08) Nathalie Villa Data mining & graphes 25 / 31

Page 60: Fouille de données pour des grands graphes

Optimisation de la modularité

Algorithme de recuit simulé pour optimisation de lamodularité

Algorithme

1 On initialise la classification des sommets à un état aléatoiref0 ∈ {1, . . . ,m}⊗n

2 On répète1 On tire deux classes j1 et j2 dans {1, . . . ,m} et un sommet xi dans

(f0)−1(j1) ∩ (f0)−1(j2) (les deux opérations équiprobables)2 Notons f̃ l’état dans lequel xi a subi un échange de classe entre j1 et j2.

On note ∆E = Q(̃f) − Q(f0)3 si ∆E > 0 alors f1 = f̃4 sinon f1 = f̃ avec probabilité e∆E/T et f1 = f0 avec probabilité e−∆E/T

5 On diminue T

3 On stoppe à stabilisation de l’algorithme.

Chacun des calculs ∆E ne coûte “presque rien” (multiplication vectorielle).

Luminy (18/12/08) Nathalie Villa Data mining & graphes 26 / 31

Page 61: Fouille de données pour des grands graphes

Optimisation de la modularité

Algorithme de recuit simulé pour optimisation de lamodularité

Algorithme

1 On initialise la classification des sommets à un état aléatoiref0 ∈ {1, . . . ,m}⊗n

2 On répète1 On tire deux classes j1 et j2 dans {1, . . . ,m} et un sommet xi dans

(f0)−1(j1) ∩ (f0)−1(j2) (les deux opérations équiprobables)2 Notons f̃ l’état dans lequel xi a subi un échange de classe entre j1 et j2.

On note ∆E = Q(̃f) − Q(f0)3 si ∆E > 0 alors f1 = f̃4 sinon f1 = f̃ avec probabilité e∆E/T et f1 = f0 avec probabilité e−∆E/T

5 On diminue T

3 On stoppe à stabilisation de l’algorithme.

Chacun des calculs ∆E ne coûte “presque rien” (multiplication vectorielle).Luminy (18/12/08) Nathalie Villa Data mining & graphes 26 / 31

Page 62: Fouille de données pour des grands graphes

Optimisation de la modularité

ExemplesOptimisation de la modularité sur le réseau de collaborations

Luminy (18/12/08) Nathalie Villa Data mining & graphes 27 / 31

Page 63: Fouille de données pour des grands graphes

Optimisation de la modularité

Exemples

Optimisation de la modularité sur le réseau de collaborations

Luminy (18/12/08) Nathalie Villa Data mining & graphes 27 / 31

Page 64: Fouille de données pour des grands graphes

Optimisation de la modularité

Optimisation de modularité organisée par recuitdéterministe [Rossi and Villa, 2008]

Principe général : Approcher EPT (f) = eS(f)/T∑g eS(g)/T en approchant PT par

une distribution qui se factorise:

• PT (f) est approchée par RET (f) = e

∑i,k Fik Eik /T∑

g e∑

i,k Gik Eik /Toù F (resp. G) est la

matrice d’affectation de taille n ×m de la classification f (resp. g) et Eest une matrice réelle de même taille.

Sous RET (f), les Fik sont indépendants pour i = 1, . . . , n.

• On choisit E de manière à minimiser la distance deKullback-Leibler : KL(R |P) =

∑f RE

T (f) logRE

T (f)PT (f) .

• Les quantités E et ERET

(Fik ) sont estimées itérativementalternativement par un algorithme EM.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 28 / 31

Page 65: Fouille de données pour des grands graphes

Optimisation de la modularité

Optimisation de modularité organisée par recuitdéterministe [Rossi and Villa, 2008]

Principe général : Approcher EPT (f) = eS(f)/T∑g eS(g)/T en approchant PT par

une distribution qui se factorise:

• PT (f) est approchée par RET (f) = e

∑i,k Fik Eik /T∑

g e∑

i,k Gik Eik /Toù F (resp. G) est la

matrice d’affectation de taille n ×m de la classification f (resp. g) et Eest une matrice réelle de même taille.Sous RE

T (f), les Fik sont indépendants pour i = 1, . . . , n.

• On choisit E de manière à minimiser la distance deKullback-Leibler : KL(R |P) =

∑f RE

T (f) logRE

T (f)PT (f) .

• Les quantités E et ERET

(Fik ) sont estimées itérativementalternativement par un algorithme EM.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 28 / 31

Page 66: Fouille de données pour des grands graphes

Optimisation de la modularité

Optimisation de modularité organisée par recuitdéterministe [Rossi and Villa, 2008]

Principe général : Approcher EPT (f) = eS(f)/T∑g eS(g)/T en approchant PT par

une distribution qui se factorise:

• PT (f) est approchée par RET (f) = e

∑i,k Fik Eik /T∑

g e∑

i,k Gik Eik /Toù F (resp. G) est la

matrice d’affectation de taille n ×m de la classification f (resp. g) et Eest une matrice réelle de même taille.Sous RE

T (f), les Fik sont indépendants pour i = 1, . . . , n.

• On choisit E de manière à minimiser la distance deKullback-Leibler : KL(R |P) =

∑f RE

T (f) logRE

T (f)PT (f) .

• Les quantités E et ERET

(Fik ) sont estimées itérativementalternativement par un algorithme EM.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 28 / 31

Page 67: Fouille de données pour des grands graphes

Optimisation de la modularité

Optimisation de modularité organisée par recuitdéterministe [Rossi and Villa, 2008]

Principe général : Approcher EPT (f) = eS(f)/T∑g eS(g)/T en approchant PT par

une distribution qui se factorise:

• PT (f) est approchée par RET (f) = e

∑i,k Fik Eik /T∑

g e∑

i,k Gik Eik /Toù F (resp. G) est la

matrice d’affectation de taille n ×m de la classification f (resp. g) et Eest une matrice réelle de même taille.Sous RE

T (f), les Fik sont indépendants pour i = 1, . . . , n.

• On choisit E de manière à minimiser la distance deKullback-Leibler : KL(R |P) =

∑f RE

T (f) logRE

T (f)PT (f) .

• Les quantités E et ERET

(Fik ) sont estimées itérativementalternativement par un algorithme EM.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 28 / 31

Page 68: Fouille de données pour des grands graphes

Optimisation de la modularité

Algorithme de recuit déterministe pour optimisation de lamodularité organisée

Algorithme

Pour une suite décroissante de valeurs T1, T2, . . . , TL ,

1 On initialise ERET

(Fik ) de manière aléatoire dans [0, 1]

2 On répète pour l = 1, . . . , L1 Phase E : Eik = 2

∑j,i

∑k ′ ERE

T(Fjk ′)Hkk ′Bji où H est la matrice des

similarités sur la carte et B = 12p (A − P);

2 Phase M : ERET

(Fik ) = eEik /Tl∑k ′ eEik ′ /Tl

3 On convertit ERET

(Fik ) en classification :

f(xi) = arg maxk=1,...,m

ERET

(Fik ).

Luminy (18/12/08) Nathalie Villa Data mining & graphes 29 / 31

Page 69: Fouille de données pour des grands graphes

Optimisation de la modularité

Exemple : Analyse du réseau de collaborationsscientifiques

Recuit déterministe Kernel SOM (Inv. généralisée)Modularité = 0,836 Modularité = 0,816

% d’arêtes coupées sur la carte : 0 % d’arêtes coupées : 0,04

Luminy (18/12/08) Nathalie Villa Data mining & graphes 30 / 31

Page 70: Fouille de données pour des grands graphes

Optimisation de la modularité

Conclusions et perspectives

Conclusions• Présentation d’algorithmes d’organisation pour les graphes

• Approches spectrales, approches issues de l’optimisation

• Ajout d’un aspect visuel

Perspectives• Essai sur de très grands graphes (plusieurs milliers de sommets) :

réseaux biologiques, recherche d’informations

• Comparaison / Évolution ???

Luminy (18/12/08) Nathalie Villa Data mining & graphes 31 / 31

Page 71: Fouille de données pour des grands graphes

Optimisation de la modularité

Conclusions et perspectives

Conclusions• Présentation d’algorithmes d’organisation pour les graphes

• Approches spectrales, approches issues de l’optimisation

• Ajout d’un aspect visuel

Perspectives• Essai sur de très grands graphes (plusieurs milliers de sommets) :

réseaux biologiques, recherche d’informations

• Comparaison / Évolution ???

Luminy (18/12/08) Nathalie Villa Data mining & graphes 31 / 31

Page 72: Fouille de données pour des grands graphes

Optimisation de la modularité

Boulet, R., Jouve, B., Rossi, F., and Villa, N. (2008).Batch kernel SOM and related laplacian methods for social network analysis.Neurocomputing, 71(7-9):1257–1273.

Fouss, F., Pirotte, A., Renders, J., and Saerens, M. (2007).Random-walk computation of similarities between nodes of a graph, with application to collaborative recommendation.IEEE Transactions on Knowledge and Data Engineering, 19(3):355–369.

Kondor, R. and Lafferty, J. (2002).Diffusion kernels on graphs and other discrete structures.In Proceedings of the 19th International Conference on Machine Learning, pages 315–322.

Newman, M. (2006).Finding community structure in networks using the eigenvectors of matrices.Physical Review, E, 74(036104).

Newman, M. and Girvan, M. (2004).Finding and evaluating community structure in networks.Physical Review, E, 69:026113.

Rossi, F. and Villa, N. (2008).Topologically ordered graph clustering via deterministic annealing.soumis.

Truong, Q., Dkaki, T., and Charrel, P. (2007).An energy model for the drawing of clustered graphs.In Proceedings of Vème colloque international VSST, Marrakech, Maroc.

Truong, Q., Dkaki, T., and Charrel, P. (2008).Clustered graphs drawing.In Proceedings of Stimulating Manufacturing Excellence in SME, Hammamet, Tunisie.

Villa, N. and Rossi, F. (2007).A comparison between dissimilarity SOM and kernel SOM for clustering the vertices of a graph.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 31 / 31

Page 73: Fouille de données pour des grands graphes

Optimisation de la modularité

In Proceedings of the 6th Workshop on Self-Organizing Maps (WSOM 07), Bielefield, Germany.

Villa, N., Rossi, F., and Truong, Q. (2008).Mining a medieval social network by kernel som and related methods.In Proceedings of MASHS 2008 (Modèles et Apprentissages en Sciences Humaines et Sociales), Créteil, France.

von Luxburg, U. (2007).A tutorial on spectral clustering.Statistics and Computing, 17(4):395–416.

Luminy (18/12/08) Nathalie Villa Data mining & graphes 31 / 31