52
Contexte et motivations Cartes de Kohonen Noyau de la chaleur Résultats Fouille de données issues d’un grand graphe par carte de Kohonen à noyau Nathalie Villa-Vialaneix En collaboration avec Fabrice Rossi, Romain Boulet & Bertrand Jouve Institut de Mathématiques de Toulouse, France - [email protected] Séminaire BIA Toulouse, 13 mars 2008 Nathalie Villa Séminaire BIA - 13 mars 2008

Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

  • Upload
    tuxette

  • View
    146

  • Download
    0

Embed Size (px)

DESCRIPTION

Séminaire de l’Unité de Biométrie et Intelligence Artificielle, INRA, Toulouse March 21st, 2008

Citation preview

Page 1: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Fouille de données issues d’un grand graphepar carte de Kohonen à noyau

Nathalie Villa-VialaneixEn collaboration avec Fabrice Rossi, Romain Boulet & Bertrand

Jouve

Institut de Mathématiques de Toulouse, France [email protected]

Séminaire BIA Toulouse, 13 mars 2008

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 2: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Sommaire

1 Contexte et motivations

2 Cartes de Kohonen

3 Noyau de la chaleur

4 Résultats

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 3: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Sommaire

1 Contexte et motivations

2 Cartes de Kohonen

3 Noyau de la chaleur

4 Résultats

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 4: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Explorer une grosse base de données historique

Data1000 contrats agraires,

de 4 seigneuries (environ 10 villages) du Lot,

établis entre 1250 et 1350 (avant la guerre de cent ans).

Questions des historiens :les liens sociaux sont-ils familiaux ? géographiques ?peut-on trouver des personnalités ayant un rôle socialprépondérant ? des familles ?. . .

⇒ Data mining est nécessaire.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 5: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Explorer une grosse base de données historique

Data1000 contrats agraires,

de 4 seigneuries (environ 10 villages) du Lot,

établis entre 1250 et 1350 (avant la guerre de cent ans).

Questions des historiens :les liens sociaux sont-ils familiaux ? géographiques ?peut-on trouver des personnalités ayant un rôle socialprépondérant ? des familles ?. . .

⇒ Data mining est nécessaire.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 6: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Explorer une grosse base de données historique

Data1000 contrats agraires,

de 4 seigneuries (environ 10 villages) du Lot,

établis entre 1250 et 1350 (avant la guerre de cent ans).

Questions des historiens :les liens sociaux sont-ils familiaux ? géographiques ?peut-on trouver des personnalités ayant un rôle socialprépondérant ? des familles ?. . .

⇒ Data mining est nécessaire.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 7: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Un problème modélisé par un graphe

À partir de la base de données, construire un graphe pondéré:

avec 615 sommets x1, . . . , xn := paysans nommés dans lescontrats ;

avec des poids (wi,j)i,j=1,...,n := ]{contrats où xi et xj sont citéssimultanément}.

Nombre de sommets : 615Nombres d’arêtes : 4193Total des poids : 40 329Diametre : 10Densité : 2,2%

Classer les sommets en groupes sociaux homogènes pourcomprendre la structure globale de la communauté paysanne.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 8: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Un problème modélisé par un graphe

À partir de la base de données, construire un graphe pondéré:

avec 615 sommets x1, . . . , xn := paysans nommés dans lescontrats ;

avec des poids (wi,j)i,j=1,...,n := ]{contrats où xi et xj sont citéssimultanément}.

Nombre de sommets : 615Nombres d’arêtes : 4193Total des poids : 40 329Diametre : 10Densité : 2,2%

Classer les sommets en groupes sociaux homogènes pourcomprendre la structure globale de la communauté paysanne.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 9: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Un problème modélisé par un graphe

À partir de la base de données, construire un graphe pondéré:

avec 615 sommets x1, . . . , xn := paysans nommés dans lescontrats ;

avec des poids (wi,j)i,j=1,...,n := ]{contrats où xi et xj sont citéssimultanément}.

Nombre de sommets : 615Nombres d’arêtes : 4193Total des poids : 40 329Diametre : 10Densité : 2,2%

Classer les sommets en groupes sociaux homogènes pourcomprendre la structure globale de la communauté paysanne.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 10: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Un problème modélisé par un graphe

À partir de la base de données, construire un graphe pondéré:

avec 615 sommets x1, . . . , xn := paysans nommés dans lescontrats ;

avec des poids (wi,j)i,j=1,...,n := ]{contrats où xi et xj sont citéssimultanément}.

Nombre de sommets : 615Nombres d’arêtes : 4193Total des poids : 40 329Diametre : 10Densité : 2,2%

Classer les sommets en groupes sociaux homogènes pourcomprendre la structure globale de la communauté paysanne.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 11: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Un double objectif : classification et organisation

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 12: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Un double objectif : classification et organisationClasser les sommets en groupes de proximité. . .

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 13: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Un double objectif : classification et organisationClasser les sommets en groupes de proximité. . . et organiser les groupes.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 14: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Sommaire

1 Contexte et motivations

2 Cartes de Kohonen

3 Noyau de la chaleur

4 Résultats

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 15: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Principe général de l’algorithme de Kohonen[Kohonen, 2001]

Soient des données (xi)i=1,...,n ∈ H (espace vectoriel de grandedimension, graphe, . . . ).

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 16: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Principe général de l’algorithme de Kohonen[Kohonen, 2001]

Chaque xi est affecté à un neurone (une classe) de la carte, f(xi).Les neurones sont définis les uns par rapport aux autres par unerelation de voisinage (“distance”: d).

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 17: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Principe général de l’algorithme de Kohonen[Kohonen, 2001]

p1

p2

p3

12

3

Chaque neurone j de la carte est représenté par un prototype pj .Les couples (j, pj) et (xi , f(xi)) dépendent l’un de l’autre et sontremis à jour itérativement.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 18: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Préserver la topologie des données dans H

Énergie

Le but est de minimiser l’énergie de la carte :

E =

∫ M∑i=1

h(d(f(x), i))‖x − pi‖2H

dP(x)

où h est une fonction décroissante (ex : h(t) = αe−t/2σ2).

L’énergie est approchée par sa version empirique :

En =n∑

j=1

M∑i=1

h(d(f(xj), i))‖xj − pi‖2H.

et la minimisation est approchée par l’algorithme SOM.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 19: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Préserver la topologie des données dans H

Énergie

Le but est de minimiser l’énergie de la carte :

E =

∫ M∑i=1

h(d(f(x), i))‖x − pi‖2H

dP(x)

où h est une fonction décroissante (ex : h(t) = αe−t/2σ2).

L’énergie est approchée par sa version empirique :

En =n∑

j=1

M∑i=1

h(d(f(xj), i))‖xj − pi‖2H.

et la minimisation est approchée par l’algorithme SOM.Nathalie Villa Séminaire BIA - 13 mars 2008

Page 20: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Batch SOM

Initialiser de manière aléatoire γ0ji ∈ R (i, j = 1, . . . , n) et

p0j =

∑ni=1 γ

0ji xi . Ensuite, pour l = 1, . . . , n répéter

Phase d’affectationpour tout xi ,

f l(xi) = arg minj=1,...,M

∥∥∥∥∥∥∥xi −

n∑i=1

γljixi

∥∥∥∥∥∥∥H

Phase de représentation

γlj = arg min

γ∈Rn

n∑i=1

h(f l(xi), j)

∥∥∥∥∥∥∥xi −

n∑l′=1

γl′xl′

∥∥∥∥∥∥∥2

H

Problème : Quelle “distance” définir entre deux sommets ???

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 21: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Batch SOM

Initialiser de manière aléatoire γ0ji ∈ R (i, j = 1, . . . , n) et

p0j =

∑ni=1 γ

0ji xi . Ensuite, pour l = 1, . . . , n répéter

Phase d’affectationpour tout xi ,

f l(xi) = arg minj=1,...,M

∥∥∥∥∥∥∥xi −

n∑i=1

γljixi

∥∥∥∥∥∥∥H

Phase de représentation

γlj = arg min

γ∈Rn

n∑i=1

h(f l(xi), j)

∥∥∥∥∥∥∥xi −

n∑l′=1

γl′xl′

∥∥∥∥∥∥∥2

H

Problème : Quelle “distance” définir entre deux sommets ???

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 22: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Batch SOM

Initialiser de manière aléatoire γ0ji ∈ R (i, j = 1, . . . , n) et

p0j =

∑ni=1 γ

0ji xi . Ensuite, pour l = 1, . . . , n répéter

Phase d’affectationpour tout xi ,

f l(xi) = arg minj=1,...,M

∥∥∥∥∥∥∥xi −

n∑i=1

γljixi

∥∥∥∥∥∥∥H

Phase de représentation

γlj = arg min

γ∈Rn

n∑i=1

h(f l(xi), j)

∥∥∥∥∥∥∥xi −

n∑l′=1

γl′xl′

∥∥∥∥∥∥∥2

H

Problème : Quelle “distance” définir entre deux sommets ???

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 23: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Batch SOM

Initialiser de manière aléatoire γ0ji ∈ R (i, j = 1, . . . , n) et

p0j =

∑ni=1 γ

0ji xi . Ensuite, pour l = 1, . . . , n répéter

Phase d’affectationpour tout xi ,

f l(xi) = arg minj=1,...,M

∥∥∥∥∥∥∥xi −

n∑i=1

γljixi

∥∥∥∥∥∥∥H

Phase de représentation

γlj = arg min

γ∈Rn

n∑i=1

h(f l(xi), j)

∥∥∥∥∥∥∥xi −

n∑l′=1

γl′xl′

∥∥∥∥∥∥∥2

H

Problème : Quelle “distance” définir entre deux sommets ???Nathalie Villa Séminaire BIA - 13 mars 2008

Page 24: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Sommaire

1 Contexte et motivations

2 Cartes de Kohonen

3 Noyau de la chaleur

4 Résultats

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 25: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Dissimilarités usuelles entre sommets

L’indice de Dice (Jaccard) :

D(xi , xj) =

∣∣∣Γ(xi) ∩ Γ(xj)∣∣∣

|Γ(xi)|+ |Γ(xj)|

(graphes non pondérés) ;

Dissimilarités basées sur les plus courts chemins ;

Dissimilarités ou distances basées sur le Laplacien : “spectralclustering”.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 26: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Dissimilarités usuelles entre sommets

L’indice de Dice (Jaccard) :

D(xi , xj) =

∣∣∣Γ(xi) ∩ Γ(xj)∣∣∣

|Γ(xi)|+ |Γ(xj)|

(graphes non pondérés) ;

Dissimilarités basées sur les plus courts chemins ;

Dissimilarités ou distances basées sur le Laplacien : “spectralclustering”.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 27: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Dissimilarités usuelles entre sommets

L’indice de Dice (Jaccard) :

D(xi , xj) =

∣∣∣Γ(xi) ∩ Γ(xj)∣∣∣

|Γ(xi)|+ |Γ(xj)|

(graphes non pondérés) ;

Dissimilarités basées sur les plus courts chemins ;

Dissimilarités ou distances basées sur le Laplacien : “spectralclustering”.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 28: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Laplacien [Kondor and Lafferty, 2002]

DéfinitionsPour un graphe de sommets V = {x1, . . . , xn} et de poids positifs(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di =

∑nj=1 wi,j ,

Laplacien : L = (Li,j)i,j=1,...,n où

Li,j =

{−wi,j if i , jdi if i = j

;

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 29: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Propriétés du Laplacien I [von Luxburg, 2007]

Composantes connexesKerL = Span{IA1 , . . . , IAk } où Ai indique les positions des sommetsde la ième composante connexe du graphe.

1

4

5

2

3

KerL = Span

10011

;

01100

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 30: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Propriétés du Laplacien II [Boulet et al., 2008]

Communauté parfaite : Sous-graphe complet (clique) dont lessommets possèdent les mêmes voisins à l’extérieur de la clique.

Laplacien and communautés parfaitesPour un graphe non pondéré,

Le graphe a une communauté parfaite à m sommets⇔

L possède m vecteurs propres qui ont les mêmes n −mcoordonnées nulles.

Application :

Limite : Seuls 1/3 des sommets du graphe peuvent êtrereprésentés de cette manière.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 31: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Propriétés du Laplacien II [Boulet et al., 2008]

Communauté parfaite : Sous-graphe complet (clique) dont lessommets possèdent les mêmes voisins à l’extérieur de la clique.Application :

Limite : Seuls 1/3 des sommets du graphe peuvent êtrereprésentés de cette manière.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 32: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Propriétés du Laplacien II [Boulet et al., 2008]

Communauté parfaite : Sous-graphe complet (clique) dont lessommets possèdent les mêmes voisins à l’extérieur de la clique.Application :

Limite : Seuls 1/3 des sommets du graphe peuvent êtrereprésentés de cette manière.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 33: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Propriétés du Laplacien III [von Luxburg, 2007]

Problème de la coupe optimale : Supposons que le graphe soitconnexe.Trouver une classification des sommets du graphe, A1, . . . ,Ak telleque

12

k∑i=1

∑j∈Ai ,j′<Ai

wj,j′

est minimale , est équivalent à

H = arg minh∈Rn×k

Tr(hT Lh

)subject to

hT h = Ihi = 1/

√|Ai |1Ai

peut être approché par

H = arg minh∈Rn×k

Tr(hT Lh

)subject to hT h = I

Spectral clustering : Trouver les vecteurs propres associés aux kplus petites valeurs propres de L , H, et faire la classification sur lescolonnes de H.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 34: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Propriétés du Laplacien III [von Luxburg, 2007]

Problème de la coupe optimale : Supposons que le graphe soitconnexe.Trouver une classification des sommets du graphe, A1, . . . ,Ak telleque

12

k∑i=1

∑j∈Ai ,j′<Ai

wj,j′

est minimale , est équivalent à

H = arg minh∈Rn×k

Tr(hT Lh

)subject to

hT h = Ihi = 1/

√|Ai |1Ai

⇒ problème NP-complet.

peut être approché par

H = arg minh∈Rn×k

Tr(hT Lh

)subject to hT h = I

Spectral clustering : Trouver les vecteurs propres associés aux kplus petites valeurs propres de L , H, et faire la classification sur lescolonnes de H.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 35: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Propriétés du Laplacien III [von Luxburg, 2007]

Problème de la coupe optimale : Supposons que le graphe soitconnexe.Trouver une classification des sommets du graphe, A1, . . . ,Ak telleque

12

k∑i=1

∑j∈Ai ,j′<Ai

wj,j′

est minimale peut être approché par

H = arg minh∈Rn×k

Tr(hT Lh

)subject to hT h = I

Spectral clustering : Trouver les vecteurs propres associés aux kplus petites valeurs propres de L , H, et faire la classification sur lescolonnes de H.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 36: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Propriétés du Laplacien III [von Luxburg, 2007]

Problème de la coupe optimale : Supposons que le graphe soitconnexe.Trouver une classification des sommets du graphe, A1, . . . ,Ak telleque

12

k∑i=1

∑j∈Ai ,j′<Ai

wj,j′

est minimale peut être approché par

H = arg minh∈Rn×k

Tr(hT Lh

)subject to hT h = I

Spectral clustering : Trouver les vecteurs propres associés aux kplus petites valeurs propres de L , H, et faire la classification sur lescolonnes de H.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 37: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Une version régularisée de L

Régularisation : la matrice de diffusion : pour β > 0,Kβ = e−βL =

∑+∞k=1

(−βL)k

k ! .⇒

k β : V × V → R

(xi , xj) → Kβi,j

noyau de diffusion (ou noyau de la chaleur).

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 38: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Processus de diffusion sur un graphe

Si Z0 = (1 1 1 . . . 1 1)T est la “chaleur” de chaque sommet autemps 0 et si une petite fraction ε de cette chaleur se propage lelong des arêtes du graphe à chaque pas de temps, alors après tpas de temps, la chaleur des sommets du graphe est :

Zt = (1 + εL)t Z0

Limites : Pas de temps↘ ∆t par : t ↪→ t/(∆t) et ε ↪→ ε∆t ; alors(∆t)→ 0 (processus de diffusion continu) ce qui donne :

lim Zt = eεtL = K εt

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 39: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Processus de diffusion sur un graphe

Si Z0 = (1 1 1 . . . 1 1)T est la “chaleur” de chaque sommet autemps 0 et si une petite fraction ε de cette chaleur se propage lelong des arêtes du graphe à chaque pas de temps, alors après tpas de temps, la chaleur des sommets du graphe est :

Zt = (1 + εL)t Z0

Limites : Pas de temps↘ ∆t par : t ↪→ t/(∆t) et ε ↪→ ε∆t ; alors(∆t)→ 0 (processus de diffusion continu) ce qui donne :

lim Zt = eεtL = K εt

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 40: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Properties

1 Diffusion sur le graphe : k β(xi , xj) ' quantité de chaleuraccumulée dans xj après un temps donné si la chaleur 1 estinjectée dans xi au temps 0 et si la diffusion est effectuée demanière continue le long des arêtes du graphe.β ' intensité de la diffusion;

2 Opérateur régularisant : pour u ∈ Rn ∼ V , uT Kβu est plusgrand pour les vecteurs u qui varient beaucoup entre deuxsommets “proches” du graphe.β ' intensité de la regularisation (pour des petits β, lesvoisinages directs sont plus importants);

3 Propriété de noyau reproduisant : k β est symétrique etpositif⇒ ∃ Hilbert space (H , 〈., .〉) et φ : V → H tel que

k β(xi , xj) = 〈φ(xi), φ(xj)〉.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 41: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Properties

1 Diffusion sur le graphe : k β(xi , xj) ' quantité de chaleuraccumulée dans xj après un temps donné si la chaleur 1 estinjectée dans xi au temps 0 et si la diffusion est effectuée demanière continue le long des arêtes du graphe.β ' intensité de la diffusion;

2 Opérateur régularisant : pour u ∈ Rn ∼ V , uT Kβu est plusgrand pour les vecteurs u qui varient beaucoup entre deuxsommets “proches” du graphe.β ' intensité de la regularisation (pour des petits β, lesvoisinages directs sont plus importants);

3 Propriété de noyau reproduisant : k β est symétrique etpositif⇒ ∃ Hilbert space (H , 〈., .〉) et φ : V → H tel que

k β(xi , xj) = 〈φ(xi), φ(xj)〉.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 42: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Properties

1 Diffusion sur le graphe : k β(xi , xj) ' quantité de chaleuraccumulée dans xj après un temps donné si la chaleur 1 estinjectée dans xi au temps 0 et si la diffusion est effectuée demanière continue le long des arêtes du graphe.β ' intensité de la diffusion;

2 Opérateur régularisant : pour u ∈ Rn ∼ V , uT Kβu est plusgrand pour les vecteurs u qui varient beaucoup entre deuxsommets “proches” du graphe.β ' intensité de la regularisation (pour des petits β, lesvoisinages directs sont plus importants);

3 Propriété de noyau reproduisant : k β est symétrique etpositif⇒ ∃ Hilbert space (H , 〈., .〉) et φ : V → H tel que

k β(xi , xj) = 〈φ(xi), φ(xj)〉.

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 43: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Batch kernel SOM [Villa and Rossi, 2007]

Initialiser de manière aléatoire γ0ji ∈ R (i, j = 1, . . . , n) et

p0j =

∑ni=1 γ

0jiφ(xi). Ensuite, pour l = 1, . . . , n répéter

Phase d’affectationpour tout xi ,

f l(xi) = arg minj=1,...,M

∥∥∥∥∥∥∥φ(xi) −n∑

i=1

γljiφ(xi)

∥∥∥∥∥∥∥H

Phase de représentation

γlj = arg min

γ∈Rn

n∑i=1

h(f l(xi), j)

∥∥∥∥∥∥∥φ(xi) −n∑

l′=1

γl′φ(xl′)

∥∥∥∥∥∥∥2

H

Initialiser de manière aléatoire γ0ji ∈ R (i, j = 1, . . . , n) et

p0j =

∑ni=1 γ

0jiφ(xi). Ensuite, pour l = 1, . . . , n répéter

Phase d’affectationpour tout xi ,

f(xi) = arg minj=1,...,M

n∑u,u′=1

γjuγju′k β(xu, xu′) − 2n∑

u=1

γjuk β(xu, xi)

Phase de représentation

γlji =

h(f l(xi), j))∑ni′=1 h(f l(xi′ , j))

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 44: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Batch kernel SOM [Villa and Rossi, 2007]

Initialiser de manière aléatoire γ0ji ∈ R (i, j = 1, . . . , n) et

p0j =

∑ni=1 γ

0jiφ(xi). Ensuite, pour l = 1, . . . , n répéter

Phase d’affectationpour tout xi ,

f(xi) = arg minj=1,...,M

n∑u,u′=1

γjuγju′k β(xu, xu′) − 2n∑

u=1

γjuk β(xu, xi)

Phase de représentation

γlji =

h(f l(xi), j))∑ni′=1 h(f l(xi′ , j))

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 45: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Sommaire

1 Contexte et motivations

2 Cartes de Kohonen

3 Noyau de la chaleur

4 Résultats

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 46: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Cartes obtenues [Boulet et al., 2008]

RICH

465

7 9

9 8

520

324

107

9 2

423

407

408

524

515

510

2 7

150

22

23

54

25

26

27

38

29

3

1 0

2

1 1

2

1 2

2

1 3

2

1 4

2

1 5

2

1 6

2

1 7

4

1 8

2

1 9

3

2 0

2

2 1

2

2 2

2

2 3

3

2 4

2

2 5 2

2 6

2

2 7

5

2 8

2

2 9

2

3 0

1 13 1

2

3 2

2

3 3

8

3 4

2

3 6

2

3 7

2

3 8

2

3 9

3

4 0

2

4 1

2

4 2

2

4 3

2

4 4

2

4 5

3

4 6

4

4 8

2

4 9

4

5 0

2

5 1

2

5 3

2

5 4

3

5 5

2

5 9

2

6 0

2

6 1

3

6 2

4

6 3

2

6 4

3

6 5

2

6 6 3

6 7

2

6 8

2

6 9

3

7 0

2

7 1

2

7 2

2

7 3

2

7 4

2

7 6

2

7 9

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 47: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Cartes obtenues [Boulet et al., 2008]

RICH

465

7 9

9 8

520

324

107

9 2

423

407

408

524

515

510

2 7

150

22

23

54

25

26

27

38

29

3

1 0

2

1 1

2

1 2

2

1 3

2

1 4

2

1 5

2

1 6

2

1 7

4

1 8

2

1 9

3

2 0

2

2 1

2

2 2

2

2 3

3

2 4

2

2 5 2

2 6

2

2 7

5

2 8

2

2 9

2

3 0

1 13 1

2

3 2

2

3 3

8

3 4

2

3 6

2

3 7

2

3 8

2

3 9

3

4 0

2

4 1

2

4 2

2

4 3

2

4 4

2

4 5

3

4 6

4

4 8

2

4 9

4

5 0

2

5 1

2

5 3

2

5 4

3

5 5

2

5 9

2

6 0

2

6 1

3

6 2

4

6 3

2

6 4

3

6 5

2

6 6 3

6 7

2

6 8

2

6 9

3

7 0

2

7 1

2

7 2

2

7 3

2

7 4

2

7 6

2

7 9

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 48: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Quelques cartes thématiques

1 Noms2 Dates et Comparaison3 Lieux et Comparaison

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 49: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Représentation globale La Suite...

Réalisée par Dinh Truong et Tao Dkaki

Nathalie Villa Séminaire BIA - 13 mars 2008

Page 50: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Réalisée par Dinh Truong et Tao Dkaki

Page 51: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Réalisée par Dinh Truong et Tao Dkaki

Page 52: Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivationsCartes de KohonenNoyau de la chaleur

Résultats

Références

Boulet, R., Jouve, B., Rossi, F., and Villa, N. (2008).Batch kernel SOM and related laplacian methods for social networkanalysis.Neurocomputing.To appear.

Kohonen, T. (2001).Self-Organizing Maps, 3rd Edition, volume 30.Springer, Berlin, Heidelberg, New York.

Kondor, R. and Lafferty, J. (2002).Diffusion kernels on graphs and other discrete structures.In Proceedings of the 19th International Conference on Machine Learning,pages 315–322.

Villa, N. and Rossi, F. (2007).A comparison between dissimilarity SOM and kernel SOM for clustering thevertices of a graph.In Proceedings of the 6th Workshop on Self-Organizing Maps (WSOM 07),Bielefield, Germany.

von Luxburg, U. (2007).A tutorial on spectral clustering.Technical Report TR-149, Max Planck Institut für biologische Kybernetik.Avaliable at http://www.kyb.mpg.de/publications/attachments/luxburg06_TR_v2_4139%5B1%5D.pdf.

Nathalie Villa Séminaire BIA - 13 mars 2008