View
21
Download
0
Category
Tags:
Preview:
DESCRIPTION
Optimisation de la technique de RBC pour la classification dans un processus de data mining. Mounir Ben Ayed (1,2) – Issam Féki (2) – Adel Alimi (2) (1) Faculté des Sciences de Sfax - Dept d’Informatique et des Com. (2) Research Group for intelligent machines (REGIM - ENIS). - PowerPoint PPT Presentation
Citation preview
Optimisation de la technique de RBC pour la classification dans un
processus de data mining
Mounir Ben Ayed(1,2) – Issam Féki(2) – Adel Alimi(2)
(1)Faculté des Sciences de Sfax - Dept d’Informatique et des
Com. (2)
Research Group for intelligent machines (REGIM - ENIS)
FDC - Lille 17 Janvier 2006
2
Contexte
Dans le domaine médical -> RBC
Algorithme standards Kppv (k plus proche voisins) .
Les bases de + en + grande (Entrepôt de données)
Temps d’exécution de l’algorithme Kppv de + en + long
Objectif :
diminuer le temps nécessaire pour la classification d’un nouveau cas
3
Plan de la présentation
Data Mining (techniques)
Le raisonnement à base de cas
Approche proposée
Évaluation des performances
Conclusion et perspectives
4
Généralité sur le Data MiningTechniques
Data Mining
Raisonnement à base de cas
Les arbres de décision
Les réseaux de neurones
Les algorithmes génétiques
Autres …
5
Raisonnement à base de cas
-Technique qui provient des travaux en sciences cognitive (1980)
-La similarité entre les descriptions de problèmes est une indication de l’utilité des solutions antécédentes.
Principe :
-Utilisation des expériences passées pour résoudre de nouveaux problèmes.
-L’ensemble des expériences forme une base de cas.
6
Raisonnement à base de casK plus proches voisins (Kppv)
-Algorithme de recherche des cas les plus proches similaires à un nouveau cas
-Convertir les enregistrements en des points et calculer les distances entre ces points.
A a un plus proche voisin B,
B a de nombreux voisins proches autres que A
7
Raisonnement à base de casKppv
-La classification d’un nouveau cas nécessite le calcul des distances entre ce cas est tous les cas de la base
Classification très coûteuse en temps
Plus la taille de la base est importante plus le temps d’exécution (par Kppv) est long
8
Les améliorations du Kppv
-Représenter tous les cas d’une classe par un cas unique.Exemple: les moyennes des données associées à une classe
Base de cas original
Calcul de la moyenne de
chaque classe
Distinction des cas représentant les
classes
Base de cas des
représentants des classes
Exécution K ppv
Nouveau cas
Cas classé
Category-Based Search
La méthode ‘’Category_Based Search’’ (Iwayama,1995)
9
-Pas de comparaison de tous les cas avec le nouveau cas
Gain de temps
10
-Utilisation d’un algorithme de classification non supervisé
Distinction automatique d’un représentant pour chaque classe
-Comparaison du nouveau cas seulement avec les représentant générés
-pas de comparaison du nouveau cas avec tous les cas
Gain de temps
La méthode: ‘’Cluster Based search’’ (Salton,1983)
11
Approche proposéeRéduction des bases de donnéesRecherche du plus proches voisinsAffectation des poids:
Pondérer la similarité globale entre deux cas
-Des valeurs affectées par un expert aux attributs de la base de données : Degrés d’importance aux attributs les plus «importants »
12
Approche proposée
Processus de classification proposé
Affectation des poids
Normalisation des données
Base de cas originale
Base de cas réduite
Réduction
Exécution Kppv
Nouveau cas
Cas classé
-Analyse des données (types des valeurs d’attributs de poids fort). -Calcul des moyennes des champs variables. -Formulation de la requête. -Filtration de la base de cas.
13
Approche proposéeRéduction des bases de données
-Construction de la requête :
Select all
From heart
where(type de douleur=4) and (electro=0)
Valeurs des attributs de fort poids du nouveau cas
14
Attr age sexe
type de douleur
tension
sérum sucre
électro
fréquence
angine
dépression
pente
nombre navire
Résultat
Les cas
60 0 4 0,1 0,21 0 2 0,132 0,1 0,2 4,2 0,2 0,7
54 1 4 0,1 0,24 0 0 0,126 0,1 0,2 8,2 0,1 0,7
54 1 4 0,1 0,29 0 2 0,116 0,1 0,3 2,2 0,2 0,3
52 1 4 0,1 0,26 0 0 0,161 0,1 0 0,1 0,1 0,7
68 0 3 0,2 0,27 1 2 0,15 0,1 0,1 6,2 0 0,7
42 0 4 0,1 0,32 0 0 0,125 0,1 0,1 8,2 0 0,6
47 1 4 0,1 0,28 0 2 0,118 0,1 0,1 0,2 0,1 0,3
Poids 8 0 10 9 7 9 10 8 1 4 1 4
Approche proposée
Réduction des bases de données
Base de données ‘’Anomalie cardiaque’’
15
Approche proposée
Réduction des bases de données
-Affectation des mêmes poids pour les attributs du nouveau cas
Analyse des données et distinction des attributs de poids fort:
Nom attribut poids
Type de douleur 10
Résultat d’électro-cardiogra. 10
Poids 8 0 10 9 7 9 10 8 1 4 1 4
Attr age sexetype de douleur
tension
sérum sucre
électro
fréquenc
angine
dépression pente
nombre navire
Résultat
cas
44 0 4 0,1 0,32 0 0 0,112 0,1 0 6,1 0,1 ?
16
Approche proposée
Réduction des bases de données
-Exécution de la requête
-Génération d’une base de données réduite:
40 enregistrements au lieu de 270
Réduction de 85,19% du nombre d’enregistrements
17
Approche proposéeRecherche du plus proche voisins
Même résultat:
-Algorithme standard Kppv (toute la base) et après réduction
Résultat
0,6
Poids 8 0 10 9 7 9 10 8 1 4 1 4
Attr age sexetype de douleur
tension
sérum sucre
électro
fréquenc
angine
dépression pente
nombre navire
cas
44 0 4 0,1 0,32 0 0 0,112 0,1 0 6,1 0,1
18
Évaluation des performancesInfluence du contenue de la base de données-La base de données ‘Breast’
-Le nouveau cas à classer
poids 10 10 9 8 4 4 0 0 1
attrcode
épaisseur Taille forme
Adhésion Taille S
N Noyaux
Chromatin Nucleoli Mitoses Class
Lecas
1295327 4 3 2 1 2 1 3 1 1 ?
10 10
Épaisseur en mm
Taille en mm
1 1
5 7
5 3
3 1
3 1
1 1
poids
attr
code
Lescas
1365328
242970
1133041
183936
1168278
1059552
9 8 4 4 0 0 1
forme Adhesion Taille S
N Noyaux
Chromatin Nucleoli Mitoses Class
2 1 2 1 2 1 1 Bénin
7 1 5 8 3 4 1 Bénin
1 2 2 1 2 1 1 Bénin
1 1 2 1 2 1 1 Bénin
1 1 2 1 2 1 1 Bénin
1 1 2 1 3 1 1 Malin
19
Évaluation des performances
Influence du contenue de la base de données
Select all From Breast where (‘forme’=2)
20
Évaluation des performances
Influence des poids des attributs
Le résultat d’exécution de la requête est une table vide
Poids 10 10 10 10 10 10 10 10 10 10 10 10
Attr age sexetype de douleur
tension
sérum sucre
électro
fréquence
angine
dépression
pente
nombre navire
Résultat
Les cas
60 0 4 0,1 0,21 0 2 0,132 0,1 0,2 4,2 0,2 0,7
54 1 4 0,1 0,24 0 0 0,126 0,1 0,2 8,2 0,1 0,7
54 1 4 0,1 0,29 0 2 0,116 0,1 0,3 2,2 0,2 0,3
52 1 4 0,1 0,26 0 0 0,161 0,1 0 0,1 0,1 0,7
68 0 3 0,2 0,27 1 2 0,15 0,1 0,1 6,2 0 0,7
42 0 4 0,1 0,32 0 0 0,125 0,1 0,1 8,2 0 0,6
47 1 4 0,1 0,28 0 2 0,118 0,1 0,1 0,2 0,1 0,3
Poids 10 10
Poids 10 10 10
Poids 10 10 10 10
21
Évaluation des performances
Influence de la taille de base de cas
Configurations
Bases de Données
Cancer Cœur Véhicule Hépatite
Nbr Tot Attr 10 12 17 19
Nbr Attr P Fort 2 1 4 6
Nbr Enreg 699 270 846 155
Temps de réduction 12s 10s 19s 27s
22
Évaluation des performancesÉtude comparative entre les deux approches:
Approche standard:
Approche proposée:
Temps de class. par K ppv classique 571s 220s 691s 126s
Configurations
Bases de Données
Cancer Cœur Véhicule Hépatite
Nbr Tot Attr 10 12 17 19
Nbr Attr P Fort 2 2 4 6
Nbr Enreg 699 270 846 155
Nbr Enreg 61
Temps de classement par K ppv 52s
Nbr Enreg 61 40
Temps de classement par K ppv 52s 33s
Nbr Enreg 61 40 112
Temps de classement par K ppv 52s 33s 92s
Nbr Enreg 61 40 112 65
Temps de classement par K ppv 52s 33s 92s 54s
Configurations
Bases de Données
Cancer Cœur Véhicule Hépatite
Nbr Tot Attr 10 12 17 19
Nbr Attr P Fort 2 2 4 6
23
Évaluation des performancesComparaison du temps:
0100200300400500600700800
Approchestandards
Temps approcheproposée
Temps
Bases de données
Approche standards
Cancer 571
Cœur 220
Véhicule 691
Hépatite 126
Temps approche proposée
64
43
107
71
Temps de réduction
Temps d’exécution
12 52
10 33
19 92
27 54
Pourcentage de réduction
88%
80%
84%
43%
24
Conclusion et perspectives
• Approche basée sur la réduction des bases de données selon les poids accordés aux attributs.
Performances satisfaisantes en terme de qualité et de temps d’exécution.
Perspectives :
• Comparaison avec le Category_Based Search ET le Cluster Based search
•Rendre le système plus intelligent (Apprentissage de ses résultats antérieurs).
• Nouvelle méthode de réduction des bases de données de valeurs de poids d’attributs égaux.
25
Merci de votre attention.
Recommended