20
2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements Pierre Senellart

Fouille de graphes et détection d'évènements · 2015. 10. 1. · 2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Fouille de graphes et détection d'évènements · 2015. 10. 1. · 2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements

2 octobre 2015, Journée de la Chaire Big Data & Market Insights

Fouille de grapheset détection d’évènements

Pierre Senellart

Page 2: Fouille de graphes et détection d'évènements · 2015. 10. 1. · 2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements

PAGE 2 / 20 Chaire BD&MI Pierre Senellart

Données graphes

� �

� � �

1 2 3

4 5 6

0.5

0.8 0.2 0.4

Un graphe c’est :un ensemble de nœuds (ou sommets)un ensemble d’arêtes (ou liens), chacunereliant deux de ces nœuds

Variantes :Les arêtes peuvent être orientées ou nonorientéesLes nœuds ou arêtes peuvent être étiquetéespar un identifiant, un nom, une chaîne decaractèresLes nœuds ou arêtes peuvent être pondéréspar un entier, un nombre décimalLes arêtes multiples entre deux mêmesnœuds ou non

Page 3: Fouille de graphes et détection d'évènements · 2015. 10. 1. · 2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements

PAGE 3 / 20 Chaire BD&MI Pierre Senellart

Données modélisées par des graphes

nœud arête

réseau social individu connexion, amitié, suiveur. . .Internet ordinateur, routeur connexion filiaire ou sans filWeb page Web hyperlienWeb sémantique concept, valeur faitréseau ferroviaire gare connexionréseau routier intersection segment de routetransactions compte bancaire transfertmétabolisme protéine interaction métaboliquecerveau neurone connexion

Page 4: Fouille de graphes et détection d'évènements · 2015. 10. 1. · 2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements

PAGE 4 / 20 Chaire BD&MI Pierre Senellart

Défis des données graphes

Les mêmes que les Big Data en général :

Volume : très grand nombre de nœuds ou d’arêtes rendantnécessaire l’utilisation d’algorithmes très efficaces(linéaires ou quasi-linéaires en la taille du graphe), ou ladistribution

Vélocité : certains graphes évoluent très rapidement, des nœuds ouarêtes apparaissant ou disparaissant continûment

Variété : hétérogénéité des liens entre nœuds, différences destructure d’un graphe à un autre

Véracité : incertitude sur les pondérations ou les annotations d’ungraphe

Page 5: Fouille de graphes et détection d'évènements · 2015. 10. 1. · 2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements

PAGE 5 / 20 Chaire BD&MI Pierre Senellart

Types de problèmes à résoudre

requêtes de chemin ou de distanceQuel est le chemin le plus court de Pau à Grenoble dans legraphe de la SNCF?

identification de communauté ou de nœuds centrauxQuels sont les individus influents sur Twitter dans le domainedes cosmétiques ?

fiabilitéQuelle est la robustesse du sous-réseau Internet dugouvernement face à des attaques par déni de service ?

recherche de motifs intéressantsQuels comptes bancaires reçoivent-ils des transferts dont lescaractéristiques les rendent remarquables (et suspects) ?

etc.

Page 6: Fouille de graphes et détection d'évènements · 2015. 10. 1. · 2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements

PAGE 6 / 20 Chaire BD&MI Pierre Senellart

Dans cet exposé

Vue d’ensemble de trois travaux de recherche conduits à TélécomParisTech :

Découverte de motifs dans les graphes hétérogènes(avec C. Meng, R. Cheng, S. Maniu, U. Hong Kong ; WWW 2015)

Maximisation d’influence en ligne(avec S. Lei, S. Maniu, L. Mo, R. Cheng, U. Hong Kong ; KDD 2015)Requêtes efficaces dans des graphes incertains

(avec M. Monet)

Zoom sur un quatrième travail d’une doctorante de la chaire :Détection d’événèments dans les graphes

(O. Balalau ; WSDM 2015)

Page 7: Fouille de graphes et détection d'évènements · 2015. 10. 1. · 2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements

PAGE 7 / 20 Chaire BD&MI Pierre Senellart

Plan

Introduction

Motifs dans les graphes hétérogènes

Maximisation d’influence en ligne

Requêtes dans les graphes incertains

Détection d’événements

Page 8: Fouille de graphes et détection d'évènements · 2015. 10. 1. · 2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements

PAGE 8 / 20 Chaire BD&MI Pierre Senellart

Problème

Trouver des paires de nœuds de cegraphe qui sont similaires à la paire(« B. Obama », « M. Obama »).

Page 9: Fouille de graphes et détection d'évènements · 2015. 10. 1. · 2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements

PAGE 9 / 20 Chaire BD&MI Pierre Senellart

Approche

Trouver des méta-chemins de longueur non bornée dans unmétagraphe de types qui relient la paire exemple pairs :

Person marriedTo������! Person

Person graduateOf������! University graduateOf�1

��������! Person

Énumérer efficacement les méta-chemins dans un ordre glouton, lesplus prometteurs d’abord, en s’appuyant sur une structure d’index

Raffiner avec les types de nœuds

Page 10: Fouille de graphes et détection d'évènements · 2015. 10. 1. · 2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements

PAGE 10 / 20 Chaire BD&MI Pierre Senellart

Résultats

Utilisé pour la prédiction de liens dans divers réseaux hétérogènes

Fonctionne mieux que les approches classiques basées sur le fait deborner la longueur d’un chemin

Reste efficace

Page 11: Fouille de graphes et détection d'évènements · 2015. 10. 1. · 2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements

PAGE 11 / 20 Chaire BD&MI Pierre Senellart

Plan

Introduction

Motifs dans les graphes hétérogènes

Maximisation d’influence en ligne

Requêtes dans les graphes incertains

Détection d’événements

Page 12: Fouille de graphes et détection d'évènements · 2015. 10. 1. · 2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements

PAGE 12 / 20 Chaire BD&MI Pierre Senellart

Problème

Trouver les utilisateurs les plus influents dans un réseau social, enlançant des campagnes de marketing et en en observant le résultat

Le but est d’avoir touché le plus grand nombre d’individu

On ne connaît pas la probabilité qu’un utilisateur va influencer unautre

Page 13: Fouille de graphes et détection d'évènements · 2015. 10. 1. · 2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements

PAGE 13 / 20 Chaire BD&MI Pierre Senellart

Approche

Feedback

1

42

3

Uncertain Influence Graph

Selection Phase

Heuristic

Explore‐Exploit (EE)

Choose Seeds

Update Graph

1

42

3

0.5

0.1 0.9

0.50.2

Real World

Seed Nodes

PDF

X

Action Phase

follow

follow follow

followfollow

Maintenir une connaissance partielle du monde sous la forme d’ungraphe probabiliste

Mettre à jour cette connaissance du monde en observant lerésultat de la campagne de marketing

Décider de la prochaine campagne en explorant le monde ou enexploitant la connaissance partielle du monde

Page 14: Fouille de graphes et détection d'évènements · 2015. 10. 1. · 2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements

PAGE 14 / 20 Chaire BD&MI Pierre Senellart

Résultats

Page 15: Fouille de graphes et détection d'évènements · 2015. 10. 1. · 2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements

PAGE 15 / 20 Chaire BD&MI Pierre Senellart

Plan

Introduction

Motifs dans les graphes hétérogènes

Maximisation d’influence en ligne

Requêtes dans les graphes incertains

Détection d’événements

Page 16: Fouille de graphes et détection d'évènements · 2015. 10. 1. · 2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements

PAGE 16 / 20 Chaire BD&MI Pierre Senellart

Problème

On se donne un graphe avec des probabilités sur les arêtes(probabilité qu’une connexion Internet soit fonctionnelle,distribution de probabilité sur les temps de trajet dans un réseaude transport, etc.)

On pose une requête sur ce graphe probabiliste (quelle est laprobabilité que ce graphe soit connexe ? quelle est la probabilitéque j’arrive à mon domicile en moins d’une heure ?)

Même pour une modélisation très simple et des requêtes trèssimple, ce problème est #P-difficile : aucun espoir de le résoudreen temps raisonnable

Mais les graphes du monde réel ne sont pas arbitraires, certainsont une faible largeur d’arbre et peuvent êtres « décomposés enarbres »

Page 17: Fouille de graphes et détection d'évènements · 2015. 10. 1. · 2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements

PAGE 17 / 20 Chaire BD&MI Pierre Senellart

Approche

O(f(q,k))Query q, int k

O(EXP(k).|I|)InstanceI

de treewidth ≤ k

AutomateA

Encodage d’arbre

T

O(|A|.|I|)

Circuit de Provenance

C

Page 18: Fouille de graphes et détection d'évènements · 2015. 10. 1. · 2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements

PAGE 18 / 20 Chaire BD&MI Pierre Senellart

Résultats

Significativement plus rapide que MayBMS, un système de gestion dedonnées probabilistes, pour certaines requêtes (celles qui ne se prêtentpas à des optimisations) et certains jeux de données (ceux avec faiblelargeur d’arbre)

Page 19: Fouille de graphes et détection d'évènements · 2015. 10. 1. · 2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements

PAGE 19 / 20 Chaire BD&MI Pierre Senellart

Plan

Introduction

Motifs dans les graphes hétérogènes

Maximisation d’influence en ligne

Requêtes dans les graphes incertains

Détection d’événements

Page 20: Fouille de graphes et détection d'évènements · 2015. 10. 1. · 2 octobre 2015, Journée de la Chaire Big Data & Market Insights Fouille de graphes et détection d’évènements