Upload
trey
View
52
Download
0
Embed Size (px)
DESCRIPTION
Fouille de données complexes. Karine Zeitouni Master COSY – Université de Versailles Saint-Quentin Edition 2005-2006 En ligne sur : http://www.prism.uvsq.fr/users/karima/DM. Introduction. De plus en plus d’entrepôts de données sont ou seront créés Raisons principales : - PowerPoint PPT Presentation
Citation preview
Karine Zeitouni
Master COSY – Université de Versailles Saint-Quentin
Edition 2005-2006
En ligne sur :
http://www.prism.uvsq.fr/users/karima/DM
Fouille de données complexes
K. Zeitouni Cours M2 COSY - Fouille de données complexes
2
Introduction De plus en plus d’entrepôts de données sont ou seront
créés Raisons principales :
Le tout numérique dans l’entreprise génère des données à entreposer échange et recherche de données facilités (via Internet) capteurs et numérisations de toute sorte (librairies digitales)
Explosion des données multimédias SIG / Télédétection (données cartographiques, données satellitales) agence de photo de presses CAO, Bio-informatique, imagerie médicales (données techniques) finance (cours des actions= séries temporelles) GED (documents, emails) vidéo, …
K. Zeitouni Cours M2 COSY - Fouille de données complexes
3
Plan
Fouille de données spatiales
Les Bases de données spatiales
Méthodes de la FDS
Fouille de données textuelles
Fouille de données séquentielles
Bases de données spatiales
K. Zeitouni Cours M2 COSY - Fouille de données complexes
5
Définition d’une BD spatiale
Ensemble organisé d’objets géographiques :
Chaque objet est une association d'une description
qualitative ou quantitative et d’une localisation spatiale
Gérée au sein d’un SIG
Organisée en couches thématiques
Ex : découpage administratif, Réseaux routier, Cadastre,
POS, Topographie (courbes de niveau)...
K. Zeitouni Cours M2 COSY - Fouille de données complexes
6
Interface graphique
K. Zeitouni Cours M2 COSY - Fouille de données complexes
7
Parallèle relationnel – Spatial (1)
Parallèle entre Thème et table: Un thème peut être vu comme une table avec un attribut de
localisation
Table
Id_route
1
2
3
TypeSurface
Goudronnée
Goudronnée
Goudronnée
Nom_route
Av. Morane Saulnier
Rue Dewoitine
Av. Europe
Nb_voies
4
3
1
Localisation
K. Zeitouni Cours M2 COSY - Fouille de données complexes
8
Requêtes spatiales Sélection
Ville de plus de 10 000
Sélection spatiale Accès aux objets situés dans une
fenêtre donnée
Accès par relation à un objet Communes au bord de le N10
Jointure spatiale Zones d’intersection des communes
et des forêts (map overlay)
Agrégation Fusion des communes par
département
select c.nom, c.locfrom commune cwhere c.population > 10000
select c.nom, c.locfrom commune cwhere c.population > 10000
select c.*from commune c, route rwhere r.nom = 'N10' and adjacent(c.loc, r.loc)
select c.*from commune c, route rwhere r.nom = 'N10' and adjacent(c.loc, r.loc)
select c.nom, f.nom, Intersection (c.loc, f.loc)from commune c, foret fwhere Intersecte (c.loc, f.loc)
select c.nom, f.nom, Intersection (c.loc, f.loc)from commune c, foret fwhere Intersecte (c.loc, f.loc)
select departement, fusion (loc)from communegroup by departement
select departement, fusion (loc)from communegroup by departement
select c.nom, c.locfrom commune cwhere Intersecte (c.loc,
Rectangle(xmin,ymin,xmax,ymax))
select c.nom, c.locfrom commune cwhere Intersecte (c.loc,
Rectangle(xmin,ymin,xmax,ymax))
Parallèle relationnel – Spatial (2)
K. Zeitouni Cours M2 COSY - Fouille de données complexes
9
Parallèle relationnel – Spatial (3)
RELATIONNEL SPATIAL Données Entier, Réel, Texte, … Plus complexes: Point, Ligne, Région …
Prédicats et calculs
Tests : =, >,… Calculs : +, /,… et fonctions simples
Prédicats et calculs géom. et topologiques: Tests : intersecte, adjacent à,… Fonctions géom. : intersection, surface…
Manipulation Opérateurs de l'algèbre : Sélection, Projection, Jointure… Agrégats : Count, Sum, Avg…
Manipulation par thème ou inter-thèmes Sélection et jointure sur critère spatial Agrégats : fusion d'objets adjacents
Liens entre objets
Par clés de jointures Liens spatiaux (souvent) implicites
Méthodes d'accès
Index B-tree, hachage Index R-tree, quad-tree, etc.
Cette comparaison montre que : les SGBD Géographiques sont spécifiques, mais ils peuvent être vus comme une extension des SGBD relationnels
K. Zeitouni Cours M2 COSY - Fouille de données complexes
10
Exemple d’Oracle spatial
Niveau de fiabilité supérieur à celui des simples fichiers (sécurité
d’accès, intégrité transactionnelle…)
Intégration des données géo-spatiales dans un SGBD:
=>utilisation beaucoup plus efficace des données
=>garantie de l’universalité et de l’interopérabilité - conforme aux normes
(OpenGIS, ISO, …)
=>requêtes combinées aux informations géo-spatiales et classiques -
dans un langage SQL (familier aux développeurs)
Fouille de données spatiales
K. Zeitouni Cours M2 COSY - Fouille de données complexes
12
Problème typeDr. John Snow découvre la cause probable des cas de choléra
K. Zeitouni Cours M2 COSY - Fouille de données complexes
13
Autre application - Analyse de l’accidentologie routière Vise à décrire et expliquer le risque routier par :
la description des accidents inventoriés leur contexte géographique
Fouille deDonnéesSpatiales
Cartes etconnaissances
extraites
Accidentsinventoriés
Voirie
Activités
...
K. Zeitouni Cours M2 COSY - Fouille de données complexes
14
Fouille de données spatiales versus Analyse spatiale
Fouille de données spatiales Analyse spatiale (Dr J. Snow)Découverte automatique de connaissances
Découverte visuelle de connaissances
Exploratoire (génère des hypothèses) Confirmatoire
Opère sur des gros volumes de données Inapplicable sur des BD volumineuses
Applications décisionnelles : Analyse spatiale de phénomènes localisés :
risque routier, épidémiologie, criminologie, pollution, …
FDS versus Analyse spatiale
K. Zeitouni Cours M2 COSY - Fouille de données complexes
15
FD « classique » Batterie de méthodes exploratoires Pas de raisonnement spatial
BD spatiales Requêtes avec critères spatiaux Pas d’analyse exploratoires
Fouille de données spatiales Intègre les techniques de BDS et de FD Explore les données et les relations spatiales d ’une BDS
Fouille de données spatiales versus Fouille de données classique
K. Zeitouni Cours M2 COSY - Fouille de données complexes
16
Fouille de données spatiales - Définition
Découverte de connaissances implicites depuis une BDS toute propriété, règle ou régularité
impliquant les objets de la BD spatiales et/ou les objets avoisinants
et leurs relations spatiales
Principales méthodes : Statistiques spatiales
Clustering
Règles d’association
Classification
K. Zeitouni Cours M2 COSY - Fouille de données complexes
17
Statistiques spatiales
Analyse globale - Mesure d’auto-corrélation spatiale d’une variable
Indice global (par carte) de Moran et Geary (en 1945 et 54)
Analyse locale - Indice local d’associations spatiales (LISA) [Anselin 90]
Particularités au niveau local => met en évidence les données atypiques
utilise une matrice de voisinage binaire ou pondérée (wij)
quantifie la contribution individuelle de chaque lieu à l’indice global
i
i
jjiji
Local
NXX
XXwXX
M2
K. Zeitouni Cours M2 COSY - Fouille de données complexes
18
Application aux sections
Lim_roub.shpRes_roub.shp
LISA (2)-32.929 - -2.76-2.76 - -0.341-0.341 - 2.8322.832 - 8.6738.673 - 171.983
Vert : moins corrélé que la
moyenne globale
Rouge : plus corrélé que
l’indice global
Jaune: comme l’indice
global
Blanc : tronçons sans
calcul (pas d’accidents)
K. Zeitouni Cours M2 COSY - Fouille de données complexes
19
Application aux régionsAutocorrélation locale du nombre de blessés
K. Zeitouni Cours M2 COSY - Fouille de données complexes
20
Problèmes engendrés
Problème 1: Les données spatiales sont liées Les méthodes de FD supposent les données indépendantes
Problème 2: Les relations spatiales sont implicites Non stockées dans la BD
Leur calcul nécessite des jointures coûteuses
Leur intégration dans l’analyse est coûteuse
Problème 3: Les relations spatiales sont multiples Topologiques (adjacence, intersection, …) ou métriques (distance)
Le choix de la bonne relation spatiale est difficile
K. Zeitouni Cours M2 COSY - Fouille de données complexes
21
Clustering
Groupage d’objets similaires / séparation dissimilaires Similarité en spatial = distance euclidienne Utilisé moins pour classer que pour découvrir des concentrations ou
des points chauds ex: criminologie, épidémiologie, accidents
Méthodes en spatial : orientés perf. : CLARANS, DBSCAN, ... sur spatial & attributs : GDBSCAN, Neighborhood EM [Govaert] évitement obstacle : COE-CLARANS [Han] Concentration atypiques : machine GAM [Openshaw]
K. Zeitouni Cours M2 COSY - Fouille de données complexes
22
Clustering spatial sous contraintes
Problème : Trouver des regroupements qui respectent des contraintes et des obstacles
physiques
Contraintes physiques « COE-CLARANS » [Tung ICDT’01] Ex: installation de réseaux ATM doit tenir compte des obstacles géographiques
(rivière, pont, etc.) Solution: calculer la distance entre p et q en considérant les obstacles
Pont
Rivière
K. Zeitouni Cours M2 COSY - Fouille de données complexes
23
Exemple avec la machine GAM : caractériser les accidents de nuit/ WE
##
#
#
#
#
#
## ##
##
#
#
## #
#
###
#
#
#
##
##
#
#
#
###
#
#
###
#
#
###
##
#
##
###
###
###
###
#
#
# #
##
##
#
#
#
#
###
#
#
## #
#
#
##
#
#
#
#
#
#
#
# ###
#
#
###
##
#
##
## #
##
#
#
##
##
##
###
#
#
#
##
##
#
#
##
#
# ##
#
##
#
###
#
# #
#
#
#
##
#
#
#
##
#
#
#
## #
#
#
#
#
####
#
###
##
##
#
###
#
###
#
##
#
###
#
#
###
#
##
#
#
#
#
#
# #
#
## #
###
#
##
#
##
##
#
#
##
# #
#
#
#
##
#####
#
#
#
##
###
#
##
######
####
#
# #
# ##
##
##
#
#
##
#
##
#
## ##
#
#
#
##
##
####
##
##
######
# #
#####
###### #
##
#
###
##
#
##
###
#
#
#
#
####
#
#
#
#
#
#
##
#
#
####
#
##
###
#
####
####
###
#
#
###
##
#
##
##
#
###
#
##
#
###
#
#
#
# ###
#
### # #
##
#
#
###
#
#
###
###
# ##
#
######
#
# #####
###
## # ##
##
#
#
#######
#
#
##
#
####
#
#
#
#
#
#
#
#
#
#
##
#
#
###
##
###
# #
##
###
##
###
##
#
#
#
#
#
##
#
#
#
#
##
#
##
#
###
#
#
#
#
##
#
#
##
#
#
#
#
#
#####
#
#
#
##
#
#
##
##
###
#
# #
#
#
##
# #
#
##
#
#
#
##
###
##
#
#
##
##
#
#
#
#
##
##
#
##
#
#
###
#
#
#
#
#
#
#
#
#
#
#
#
#
##
#
#
#
#
#
##
##
#
####
#
#### #
#
#
###
####
#
###
#
#
#
# ##
#
#
##
##
#
#
#
### #
###
####
## #
## #
#
####
##
#
###
#
#
###
# ######
##
####
##
###
###
#
#
#
######
######
##
#######
#
#
#
####
#####
###
#####
######
###########
####
#
##
###
#
##
##
####
#### ##
#########
## ##
#######
#####
################
###############
#######
#######
###############
##########
####
###
###
###
#
#
##
#
#
##
#
#
###
#
######
####################
##############
###
###############
######
####################
################
##
#
#######
######
###########
# ####
##
#
##
#
##
#
# ### ###
###########
##########
########
####
### #
##
#
##
#####
####
#
#
##
#
###
#########
##
# ###
#####
#
##### ##
###
###
##
#
#
#
#
#
#
#
## ######
####
#########
#
##### #
#
###
##########
#
#
### #
# ###
#####
## ###
####
##
#
#
#
#######
#
#########
###
###
###
####
##### #
####
###
##
# ##### #
####
######
########
### #
##
##
#
#
###
######
##
##
######
#
####
#####
#
#######
####
#########
#####
#########
## #
######
#
#####
#########
########
####
########
#
#
##
#
### #
# ########
#####
####
##
###
######
#####
#######
#######
#########
##
#####
#######
#
##
####
##
#
########
##
###
####
###
#
#
#
#
#
#####
#
#
########
####
###
#####
# #
#
#
#####
### #
##
#
#
#
#
#
#
#
#
#
#
##
#
#
##
#
#
#
##
#
#
# #
#
##
#
##
###
#
#
#
#
##
#
#
#
##
##
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
# #
#
#
#
#
#
#
#
###
#
#
###
#
###
#####
##
#
#
#
#
### #
#
##
###### ##
####
#
#
####
###
#
#
#
#
#
#
#
##
##
#
#
##
#
#
#
##
#
## #
###
##
####
#
##
###
#
##
##
#
#
#
#
#
Localisations des accidents de nuit WE en rouge
Recherche de concentrations spatiales locales atypiques
K. Zeitouni Cours M2 COSY - Fouille de données complexes
24
Clustering sous Oracle 10g
But: Trouver les zones de concentration de criminologie.
Moyen: Grouper les données spatiales dans une table spécifiée USBG_high_crimes1. Définir high_crimes>150Create Table USBG_high_crimes AsSelect* From USBG_data Where CrimeIndex>150
2. Appliquer la méthode de clustering (k=4)Select geometry FromTable(sdo_sam.spatial_cluster(‘USBG_high_crimes’,’geom’,4))
K. Zeitouni Cours M2 COSY - Fouille de données complexes
25
Clustering sous Oracle 10g
Visualiser les clusters par Oracle MapViewerUSBG_data en jaune, partie crimes élevés en bleu foncé et clusters en
bleu transparent
K. Zeitouni Cours M2 COSY - Fouille de données complexes
26
Règles d’associations spatiales
1. Règle d’association multi-dimensionnelle Sur une table (attributs x Valeurs) en remplaçant les valeurs
d ’"articles" d'une transaction par les valeurs d’attributs
"A1^A2...^Am => B1^...^Bn" avec support et confianceoù Ai et Bj sont des valeurs d'attributs
2. Sur des données spatialesidem + Rel° spatiales => idem + Rel° spatiales
ce qui revient à trouver des associations entre des propriétés des objets et celles de leurs "voisins"
K. Zeitouni Cours M2 COSY - Fouille de données complexes
27
Exemple
station_service ^ dans (zone_rurale) -> proche (autoroute) (25%, 80%)
exprime que les stations service en zone rurales sont près des autoroutes, à 80% (confiance) et que ces stations forment 25% (support) des stations inventoriées.
VariantesThème de référence [Koperski]Règle de co-localisation quelconque [Shashi]
K. Zeitouni Cours M2 COSY - Fouille de données complexes
28
Co-localisation
Sous ensemble d’objets spatiaux fréquemment situés ensemble
K. Zeitouni Cours M2 COSY - Fouille de données complexes
29
Rappel Règles de classement pour expliquer une variable « classe » par
des variables explicatives.
En FDSLes propriétés du voisinage peuvent être explicatives
Exemple : classer les accidents selon 3 classes d’impliqués (piéton, 2 roues, véhicules) selon les propriétés des accidents et des objets voisins
Découvre des liens cachés avec certains types de voisins et les illustrer sur la carte.
Arbre de décision spatial
K. Zeitouni Cours M2 COSY - Fouille de données complexes
30
Exemple – Spatial CART
K. Zeitouni Cours M2 COSY - Fouille de données complexes
31
FD spatiales
FD multi-tables
Index de Jointure Spatial
Eta
pe 1
AlgosILP
Etendre les algorithmesau multi-tables
Adapter les données aux algos existants
CROISEMENT
ConnaissancesConnaissances
Prendre en compte la duplication des objets
algorithme classique
Eta
pe 2
Approches proposées
Programme logique
K. Zeitouni Cours M2 COSY - Fouille de données complexes
32
Approche préconisée par Oracle 10g
K. Zeitouni Cours M2 COSY - Fouille de données complexes
33
Index de jointure spatiale?
Structure secondaire qui matérialise et codifie les relations spatiales
ID1 Relation spatiale ID2
01
02
…..
60
45
…….
…..
99
…….
53
12
43
……
…..
75
Id ….. Ann
01
02
…..
…..
….
…
…..
99
….
…
….
…
…
Id …. Bnn
01
02
…..
…..
….
…
…..
99
….
…
….
….
…
…
Thème 1 Thème 2Index de jointure spatiale
……. ……….. ….. … …….. … …
….
K. Zeitouni Cours M2 COSY - Fouille de données complexes
34
La FD classique est mono-table
1 table unique
Valeurs atomiques
1 exemple d’apprentissage
par ligne
Représentation des données en FD classique
K. Zeitouni Cours M2 COSY - Fouille de données complexes
35
Transformation préalable
ID1 Date Impliqué … An Dist_ école Dist_ marché
01 12/03/03 Piéton … an1 10 Null
02 10/04/03 2 roues … An2 75 20
IndexJS
…
…
…
An22 roues10/04/0302
an1Piéton12/03/0301
AnImpliquéDateID1
200302
750102
550201
100101
DistID2ID1
Accident
Marché03
Ecole01
Ecole02
LibelleID
Bâtiment
Opérateur CROISEMENT
K. Zeitouni Cours M2 COSY - Fouille de données complexes
36
Conclusion sur la FDS
La fouille de données spatiales = prolongement de la
fouille de données Tient compte des interactions dans l’espace
La préparation des données peut changer la donne ? FD spatiale FD multi-tables grâce aux index de jointures
spatiales FD classique grâce à l’opérateur
C’est souvent le cas d’autres objets complexes : Fouille de texte FD par transformation en vecteur de termes
Fouille d’images FD sur descripteurs
Fouille de données textuelles
K. Zeitouni Cours M2 COSY - Fouille de données complexes
38
Fouille de textes
Croissance phénoménale de données textuelles Documents sur Internet, mail, rapports, … Besoin d’automatiser leur recherche et leur classement
Comment faire supporter à la machine le traitement rapide du langage naturel ?
Techniques d’Analyse du Langage Naturel (TALN): Extraction d’éléments du langage : nom propres (personne, lieu, société) Utilise les règles de grammaire et des patrons linguistiques, des thésaurus
(synonymes et hiérarchies de termes) ou des ontologies (règles en plus) Fouille de textes (si grand nombre de textes)
Clustering de texte Classification (catégorisation) Associations de termes
K. Zeitouni Cours M2 COSY - Fouille de données complexes
39
Fouille de texte versus fouille de données
Data Mining Text Mining
Objetnumérique & catégorique
textuel
Structure structuré non-structuré
Représentation simple complexe
Dimension dizaines milliers
MaturitéImplémentation vaste
dès 1994Implémentation vaste
dès 2000
K. Zeitouni Cours M2 COSY - Fouille de données complexes
40
Classification de documents
Principe Classification (par apprentissage) de textes dans 1 ou plusieurs
catégories
Application en e-commerce : Relier une description de produit en texte libre à une classe de produits.
Application web: les sites tels que Yahoo constituent une exellente base
d’apprentissage, car les catégories y ont été générées manuellement.
Sert à générer un classifieur pour classer les prochains documents.
Ces classes peuvent servir comme balises sémantiques
textes Moteur de Catégorisation
Moteur de Catégorisation
sportculturesanté
politiceconomicvacances
K. Zeitouni Cours M2 COSY - Fouille de données complexes
41
Site organisé par catégorie
K. Zeitouni Cours M2 COSY - Fouille de données complexes
42
Processus global de catégorisation
Sélection des termes
Sélection des termes
Termes uniques présents dans les documents
pré-traitement pré-traitement
Vecteur des documents
Calcul des similaritésCalcul des similarités
k proches voisins
Calcul des scores des catégories
Calcul des scores des catégories
catégories affectées
Documentsd’apprentissage
DictionnaireDictionnaire
Représentation Représentation
Vecteurs des documents
Vecteurs des documents
document
Termes uniquesTermes uniques
ApprentissageCatégorisation
K. Zeitouni Cours M2 COSY - Fouille de données complexes
43
Prétraitement des documentsDocument: doc
Tokenizing
Removing stop words
Stemming words*
Calculating term frequency
StemmedTermsTF*stoppedTermsTF
Génère des données de type:(docID, (term, term frequency)*)
K. Zeitouni Cours M2 COSY - Fouille de données complexes
44
Ex: Stop-words (mots chevilles)
Liste de mots (ex. ceux listés par Oracle text) sont les 200 suivants :a , beaucoup, comment, encore, lequel, moyennant, près, ses, toujours, afin,
ça, concernant, entre, les, ne, puis, sien, tous, ailleurs, ce, dans, et, lesquelles, ni, puisque, sienne, toute, ainsi, ceci, de, étaient, lesquels, non, quand, siennes, toutes, alors, cela, dedans, était, leur, nos, quant, siens, très, après, celle, dehors, étant, leurs, notamment, que, soi, trop, attendant, celles, déjà, etc, lors, notre, quel, soi-même, tu, au, celui, delà, eux, lorsque, notres, quelle, soit, un, aucun, cependant, depuis, furent, lui, nôtre, quelqu’un, sont, une, aucune, certain, des, grâce, ma, nôtres, quelqu’une, suis, vos, au-dessous, certaine, desquelles, hormis, mais, nous, quelque, sur, votre, au-dessus, certaines, desquels, hors, malgré, nulle, quelques-unes, ta, vôtre, auprès, certains, dessus, ici, me, nulles, quelques-uns, tandis, vôtres, auquel, ces, dès, il, même, on, quels, tant, vous, aussi, cet, donc, ils, mêmes, ou, qui, te, vu, aussitôt, cette, donné, jadis, mes, où, quiconque, telle, y, autant, ceux, dont, je, mien, par, quoi, telles, autour, chacun, du, jusqu, mienne, parce, quoique, tes, aux, chacune, duquel, jusque, miennes, parmi, sa, tienne, auxquelles, chaque, durant, la, miens, plus, sans, tiennes, auxquels, chez, elle, laquelle, moins, plusieurs, sauf, tiens, avec, combien, elles, là, moment, pour, se, toi, à, comme, en, le, mon, pourquoi, selon, ton.
K. Zeitouni Cours M2 COSY - Fouille de données complexes
45
Représentation des documents et Mesure de similarité
Représentation des documents Vecteurs de document
ou matrice Document x terme
Pondération (ex: tf-idf)
+ Réduction de dimension
Similarité : Par le cosinus : Plus il est élevé (angle obtus) plus les
documents sont similaires
w11 w12 w1T
w21 w22 w2T
wN1 wN2 wNT
d1
d2
dN
t1 t2 tT
jiji ddddSimil ,cos),(
K. Zeitouni Cours M2 COSY - Fouille de données complexes
46
Pondération TF-IDF
TF-IDF signifie Term Frequency x Inverse
Document Frequency : Proposée par [Salton 1989], mesure l'importance d’un terme
dans un document relativement à l’ensemble des documents.
Avec: tf i,j = fréquence du terme i dans le document j
df i = nombre de documents du corpus contenant le terme i N = nombre de documents du corpus
K. Zeitouni Cours M2 COSY - Fouille de données complexes
47
Évaluation de Performances Ex. pour la catégorisation binaire (Y/N):
Mesures basés sur la table de contingences :
Rappel mesure la largeur de la catégorisation : ratio des documents bien classés par rapport à l’ensemble des documents appartenant réellement à la catégorie. r=a/(a+c)
Précision mesure la qualité de la catégorisation et correspond à la fraction des documents bien classés sur tous les documents affectés à la catégorie. p=a/(a+b)
F-mesure mesure le compromis entre r et p: F1=2r*p/(r+p)
pré-étiqueté Y pré-étiquetéNAffecté à Y a b a+b
Affecté à N c d c+d
a+c b+d a+b+c+d
Fouille de données séquentielles
K. Zeitouni Cours M2 COSY - Fouille de données complexes
49
Utilisations
Panier de la ménagère en considérant l’historique des transactions des clients.
Le Web Usage Mining en considérant les succession des pages accédées par un même internaute.
Analyse de séquences ADN Analyse de séquences d’événements quelconques :
Ex: Séquence d’activités de l’enquête «Ménages- Déplacements»
Différences avec les séries temporelles Séries qualitatives et non numériques Parfois série d’ensembles, série de données multi-variées, …
K. Zeitouni Cours M2 COSY - Fouille de données complexes
50
Ex : Le Web Usage Mining Le Weblog contient des informations riches sur la
dynamique du Web => Son analyse permet de cibler les utilisateurs (clients, marchés) potentiels
La recherche de régularités (séquences fréquentes de pages) permet :
D’ajuster la conception des pages et des liens et d’améliorer les performances des sites
Les associations de pages côté client permet d’optimiser le cache du navigateur, d’effectuer du « prefetching »
L’analyse de tendance (temporelle): Indique les changements et la dynamique du web pour s’y adapter
K. Zeitouni Cours M2 COSY - Fouille de données complexes
51
Sous-séquences fréquentes
Algorithme GSP [Skirant 95]: Extension d’Apriori Génération de candidats modifiée Inconvénient : plusieurs parcours de la base => coût élevé
a b c
aa ab ac ba bb bc ca cb cc
abb abc bbb bbc cbb cbc
abbc abcb bbcb cbbc cbcb
K. Zeitouni Cours M2 COSY - Fouille de données complexes
52
Sous-séquences fréquentes (Suite)
Algorithme PrefixSpan [Pei 2001]: Inspiré de FP-tree et FP-growth de J. Han Code les données dans une structure d’arbre Plus performant que GSP si la structure tient en mémoire Problème : compacité moyenne => peut dépasser la taille de
la mémoire
K. Zeitouni Cours M2 COSY - Fouille de données complexes
53
Sous-séquences fréquentes (Suite)
Algorithme TBI [Savary 2005]: Un seul parcours de la base Codage compact au fur et à mesure dans un tableau binaire Maintien des fréquences des séquences lues et d’un index
pour l’accès rapide par longueur. Plus performant que PrefixSpan
Méthode en 2 phases : Phase de codage dans la structure de donnée (Lit 1 fois la BD) Phase de génération de fréquents en mémoire
K. Zeitouni Cours M2 COSY - Fouille de données complexes
54
Sous-séquences fréquentes (Suite) Structure de données
M T E S M R T M
0 1 0 0 1 0 1 1
1
VS
TB NB
Index
1 4 6 8 9
240
0 1 1 0 1 0 1 1
1 0 0 0 0 0 0 0
0 1 0 0 1 0 0 1
0 1 0 0 0 0 0 0
.. .. .. .. .. .. .. .. ...
389
500
5Pointe sur le débutde séquences de
taille 3
Pointe sur le débutde séquences de
taille 1.
Fréquence de la séquenceentière
K. Zeitouni Cours M2 COSY - Fouille de données complexes
55
Sous-séquences fréquentes (Suite)
Algo TBI (Seuil-support, Tmax)Pour s dans la BD
Gen-vecteur-séquences (VS, s) //génère le vecteur de séquences
Coder et Insérer séquence dans le TBI
Décalage éventuel pour séquences déjà codées
Mettre à jour NB et Index
Fin pour
Pour k = 1 à Tmax //taille maximale des séquences de la base
- Générer Ck
- Gen-séquences-fréquentes (Seuil-support, k)
Fin Pour
K. Zeitouni Cours M2 COSY - Fouille de données complexes
56
Sous-séquences fréquentes (Suite)
Algo. Gen-vecteur-séquences (VS, s) --s : nouvelle séquence
indice=1 -- Position courante dans VS
Pour chaque article a de s
Si a (VS à partir de indice)
Si b s tel que b VS et position(b) > indice
Insérer a avant b dans VS
indice = indice + 1
Sinon insérer a à la fin de VS
indice = Longueur VS+1
Fin Pour
Fin
K. Zeitouni Cours M2 COSY - Fouille de données complexes
57
Sous-séquences fréquentes (Suite)
Algo. Gen-séquences-fréquentes (Seuil-support, k) :
Lk = // ensemble des séquences fréquentes de tailles k
Pour toutes les sous-séquences candidates s de taille k
- Pour toutes les lignes l du TBI à partir de la ligne index[k]
- Si s l
- s.count = s.count + NB[k] // fréquence de s
- Fin Pour
- Si s.count >= Seuil-support
- Lk= Lk s
Fin Pour
K. Zeitouni Cours M2 COSY - Fouille de données complexes
58
Conclusion
La recherche d’information a dominé la recherche au cours du demi-siècle passé.
La découverte d’informations dominera la recherche au cours du siècle à venir.
Directions de recherche Vers les outils intégrés de data mining
“Vertical” (spécifique par application) data mining invisible (systèmes intelligents)
Vers les méthodes intelligentes, efficaces et passant à l’échelle Réduire les accès disque Surtout réduire les calculs tels que les similarités sur des données
complexes.
K. Zeitouni Cours M2 COSY - Fouille de données complexes
59
Références
Miller H.J., Han J., Geographic Data Mining and Knowledge Discovery, Research monographs in geographic information systems, 2001.
Ester M., Kriegel H.-P., Sander J., Xu X.: A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining (KDD-96), Portland, 1996, pp. 226-231.
Ester M., Kriegel H.P., Sander J., "Spatial Data Mining: A Database Approach", Proc. of 5th Symposium on Spatial Databases, Berlin, Germany, 1997.
K. Koperski, G. B. Marchisio, « Multi-level Indexing and GIS Enhanced Learning for Satellite Imageries », In proceedings of Workshop on Multimedia Data Mining, August 20, 2000, Boston, MA, USA, pages 8-13. In conjunctions with the 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining 2000.
Lu, W., Han, J. and Ooi, B.: Discovery of General Knowledge in Large Spatial Databases, in Proc. of 1993 Far East Workshop on Geographic Information Systems (FEGIS'93), Singapore, June 1993
K. Zeitouni Cours M2 COSY - Fouille de données complexes
60
Références (suite)R. Ng and J.Han, "Efficient and Effective Clustering Method for Spatial Data Mining'', in
Proc. of Int. Conf. on Very Large Data Bases (VLDB'94), Santiago, Chile, September 1994, pp. 144-155.
Tung A.KH, Ng R T., Lakshmanan L VS, Han J., Constraint-based clustering in large databases. ICDT 2001.
Zeitouni K., "Data Mining Spatial" - Numéro spécial, Revue internationale de géomatique, Editions Hermès, Vol. 9, 4 (99).
Zeitouni K.,Yeh L., Aufaure M-A., "Join indices as a tool for spatial data mining", Int. Workshop on Temporal, Spatial and Spatio-Temporal Data Mining, LNAI n° 2007, Springer, Lyon, September 2000.
Sites web :
http://www.kdnuggets.com/
http://www.cs.bham.ac.uk/~anp/TheDataMine.html
Site de DBMiner/GeoMiner : http://db.cs.sfu.ca/DBMiner/index.html
K. Zeitouni Cours M2 COSY - Fouille de données complexes
61
Références (suite) Agrawal R., Srikant R.: Mining sequential patterns. In Proc. of the 11th Int'l Conference on Data Engineering, Taipei,
Taiwan, March 1995.Han, J., Jamil, H. M., Lu, Y., Chen, L., Liao, Y. and Pei, J. DNA Miner: A system prototype for mining DNA
sequences. In the proc. of the ACM SIGMOD International Conference on the management of data, Day 21-24, 2001, Santa Barbara, CA, USA.
M. J. Zaki. 2001. SPADE: an efficient algorithm for mining frequent sequences. Machine Learning Journal, 42 (1/2): 31-60.
R. Srikant and R. Agrawal. 1996. Mining sequential patterns: generalization and performance improvements. Proceedings of the 15th International Conference on Extending Database Technology, 3-17.
J. Pei, J. Han, B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayal, and M-C. Hsu. 2001. PrefixSpan: mining sequential patterns efficiently by prefix-projected pattern growth. Proceedings of the 17th International Conference on Data Engineering (ICDE), 215-224.
F.Masseglia, P.Poncelet, M.Teisseire: Incremental mining of sequential patterns in large databases. Data Knowledge Engineering 46(1): 97-121 (2003).
Savary L., Zeitouni K., “Indexed Bit Map (IBM) for Mining Frequent Sequences”, 9th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD 2005), Porto, Portugal, October 3-7, 2005. Lecture Notes in Computer Science n° 3721 / 2005, Springer-Verlag Ed, pp. 659 – 666. Vesrion en Français ”Tableau de Bits Indexé (TBI) pour la Recherche de Séquences Fréquentes », Actes de la conférenceExtraction et Gestion de connaissances (EGC) 2005.