Optimisation de la technique de RBC pour la classification dans un processus de data mining

Optimisation de la technique de RBC pour la classification dans un

processus de data mining

Mounir Ben Ayed(1,2) – Issam Féki(2) – Adel Alimi(2)

(1)Faculté des Sciences de Sfax - Dept d’Informatique et des

Com. (2)

Research Group for intelligent machines (REGIM - ENIS)

FDC - Lille 17 Janvier 2006

Contexte

Dans le domaine médical -> RBC

Algorithme standards Kppv (k plus proche voisins) .

Les bases de + en + grande (Entrepôt de données)

Temps d’exécution de l’algorithme Kppv de + en + long

Objectif :

diminuer le temps nécessaire pour la classification d’un nouveau cas

Plan de la présentation

Data Mining (techniques)

Le raisonnement à base de cas

Approche proposée

Évaluation des performances

Conclusion et perspectives

Généralité sur le Data MiningTechniques

Data Mining

Raisonnement à base de cas

Les arbres de décision

Les réseaux de neurones

Les algorithmes génétiques

Autres …

Raisonnement à base de cas

-Technique qui provient des travaux en sciences cognitive (1980)

-La similarité entre les descriptions de problèmes est une indication de l’utilité des solutions antécédentes.

Principe :

-Utilisation des expériences passées pour résoudre de nouveaux problèmes.

-L’ensemble des expériences forme une base de cas.

Raisonnement à base de casK plus proches voisins (Kppv)

-Algorithme de recherche des cas les plus proches similaires à un nouveau cas

-Convertir les enregistrements en des points et calculer les distances entre ces points.

A a un plus proche voisin B,

B a de nombreux voisins proches autres que A

Raisonnement à base de casKppv

-La classification d’un nouveau cas nécessite le calcul des distances entre ce cas est tous les cas de la base

Classification très coûteuse en temps

Plus la taille de la base est importante plus le temps d’exécution (par Kppv) est long

Les améliorations du Kppv

-Représenter tous les cas d’une classe par un cas unique.Exemple: les moyennes des données associées à une classe

Base de cas original

Calcul de la moyenne de

chaque classe

Distinction des cas représentant les

classes

Base de cas des

représentants des classes

Exécution K ppv

Nouveau cas

Cas classé

Category-Based Search

La méthode ‘’Category_Based Search’’ (Iwayama,1995)

-Pas de comparaison de tous les cas avec le nouveau cas

Gain de temps

-Utilisation d’un algorithme de classification non supervisé

Distinction automatique d’un représentant pour chaque classe

-Comparaison du nouveau cas seulement avec les représentant générés

-pas de comparaison du nouveau cas avec tous les cas

Gain de temps

La méthode: ‘’Cluster Based search’’ (Salton,1983)

Approche proposéeRéduction des bases de donnéesRecherche du plus proches voisinsAffectation des poids:

Pondérer la similarité globale entre deux cas

-Des valeurs affectées par un expert aux attributs de la base de données : Degrés d’importance aux attributs les plus «importants »

Approche proposée

Processus de classification proposé

Affectation des poids

Normalisation des données

Base de cas originale

Base de cas réduite

Réduction

Exécution Kppv

Nouveau cas

Cas classé

-Analyse des données (types des valeurs d’attributs de poids fort). -Calcul des moyennes des champs variables. -Formulation de la requête. -Filtration de la base de cas.

Approche proposéeRéduction des bases de données

-Construction de la requête :

Select all

From heart

where(type de douleur=4) and (electro=0)

Valeurs des attributs de fort poids du nouveau cas

Attr age sexe

type de douleur

tension

sérum sucre

électro

fréquence

angine

dépression

nombre navire

Résultat

Les cas

60 0 4 0,1 0,21 0 2 0,132 0,1 0,2 4,2 0,2 0,7

54 1 4 0,1 0,24 0 0 0,126 0,1 0,2 8,2 0,1 0,7

54 1 4 0,1 0,29 0 2 0,116 0,1 0,3 2,2 0,2 0,3

52 1 4 0,1 0,26 0 0 0,161 0,1 0 0,1 0,1 0,7

68 0 3 0,2 0,27 1 2 0,15 0,1 0,1 6,2 0 0,7

42 0 4 0,1 0,32 0 0 0,125 0,1 0,1 8,2 0 0,6

47 1 4 0,1 0,28 0 2 0,118 0,1 0,1 0,2 0,1 0,3

Poids 8 0 10 9 7 9 10 8 1 4 1 4

Approche proposée

Réduction des bases de données

Base de données ‘’Anomalie cardiaque’’

Approche proposée

-Affectation des mêmes poids pour les attributs du nouveau cas

Analyse des données et distinction des attributs de poids fort:

Nom attribut poids

Type de douleur 10

Résultat d’électro-cardiogra. 10

Poids 8 0 10 9 7 9 10 8 1 4 1 4

Attr age sexetype de douleur

tension

sérum sucre

électro

fréquenc

angine

dépression pente

nombre navire

Résultat

44 0 4 0,1 0,32 0 0 0,112 0,1 0 6,1 0,1 ?

Approche proposée

-Exécution de la requête

-Génération d’une base de données réduite:

40 enregistrements au lieu de 270

Réduction de 85,19% du nombre d’enregistrements

Approche proposéeRecherche du plus proche voisins

Même résultat:

-Algorithme standard Kppv (toute la base) et après réduction

Résultat

Poids 8 0 10 9 7 9 10 8 1 4 1 4

tension

sérum sucre

électro

fréquenc

angine

dépression pente

nombre navire

44 0 4 0,1 0,32 0 0 0,112 0,1 0 6,1 0,1

Évaluation des performancesInfluence du contenue de la base de données-La base de données ‘Breast’

-Le nouveau cas à classer

poids 10 10 9 8 4 4 0 0 1

attrcode

épaisseur Taille forme

Adhésion Taille S

N Noyaux

Chromatin Nucleoli Mitoses Class

1295327 4 3 2 1 2 1 3 1 1 ?

Épaisseur en mm

Taille en mm

Lescas

1365328

242970

1133041

183936

1168278

1059552

9 8 4 4 0 0 1

forme Adhesion Taille S

N Noyaux

Chromatin Nucleoli Mitoses Class

2 1 2 1 2 1 1 Bénin

7 1 5 8 3 4 1 Bénin

1 2 2 1 2 1 1 Bénin

1 1 2 1 2 1 1 Bénin

1 1 2 1 3 1 1 Malin

Influence du contenue de la base de données

Select all From Breast where (‘forme’=2)

Influence des poids des attributs

Le résultat d’exécution de la requête est une table vide

Poids 10 10 10 10 10 10 10 10 10 10 10 10

tension

sérum sucre

électro

fréquence

angine

dépression

nombre navire

Résultat

Les cas

60 0 4 0,1 0,21 0 2 0,132 0,1 0,2 4,2 0,2 0,7

54 1 4 0,1 0,24 0 0 0,126 0,1 0,2 8,2 0,1 0,7

54 1 4 0,1 0,29 0 2 0,116 0,1 0,3 2,2 0,2 0,3

52 1 4 0,1 0,26 0 0 0,161 0,1 0 0,1 0,1 0,7

68 0 3 0,2 0,27 1 2 0,15 0,1 0,1 6,2 0 0,7

42 0 4 0,1 0,32 0 0 0,125 0,1 0,1 8,2 0 0,6

47 1 4 0,1 0,28 0 2 0,118 0,1 0,1 0,2 0,1 0,3

Poids 10 10

Poids 10 10 10

Poids 10 10 10 10

Influence de la taille de base de cas

Configurations

Bases de Données

Cancer Cœur Véhicule Hépatite

Nbr Tot Attr 10 12 17 19

Nbr Attr P Fort 2 1 4 6

Nbr Enreg 699 270 846 155

Temps de réduction 12s 10s 19s 27s

Évaluation des performancesÉtude comparative entre les deux approches:

Approche standard:

Approche proposée:

Temps de class. par K ppv classique 571s 220s 691s 126s

Configurations

Bases de Données

Nbr Enreg 699 270 846 155

Nbr Enreg 61

Temps de classement par K ppv 52s

Nbr Enreg 61 40

Temps de classement par K ppv 52s 33s

Nbr Enreg 61 40 112

Temps de classement par K ppv 52s 33s 92s

Nbr Enreg 61 40 112 65

Temps de classement par K ppv 52s 33s 92s 54s

Configurations

Bases de Données

Évaluation des performancesComparaison du temps:

0100200300400500600700800

Approchestandards

Temps approcheproposée

Bases de données

Approche standards

Cancer 571

Cœur 220

Véhicule 691

Hépatite 126

Temps approche proposée

Temps de réduction

Temps d’exécution

Pourcentage de réduction

Conclusion et perspectives

• Approche basée sur la réduction des bases de données selon les poids accordés aux attributs.

Performances satisfaisantes en terme de qualité et de temps d’exécution.

Perspectives :

• Comparaison avec le Category_Based Search ET le Cluster Based search

•Rendre le système plus intelligent (Apprentissage de ses résultats antérieurs).

• Nouvelle méthode de réduction des bases de données de valeurs de poids d’attributs égaux.

Merci de votre attention.

Optimisation de la technique de RBC pour la classification dans un processus de data mining

Documents

Consultant optimisation projets industriels et processus

Processus de sélection et référentiels - strategie.gouv.fr · la surface en m² SDO ... optimisation des surfaces, ... – Calcul du capacitaire cible . Méthodologie (extraits)-

PerceptiveLIVE 2013 - Pilotage de la perfomance : optimisation des processus et des contenus

QUALISPHERE LAQUALITE SIMPLEMENT - … · documents et des processus • Qualité perçue par les clients • Optimisations des performances • Optimisation de la communication interne

Optimisation des processus métier

Optimisation de la technique de RBC pour la classification dans un processus de data mining Mounir Ben Ayed (1,2) – Issam Féki (2) – Adel Alimi (2) (1)

Optimisation du processus de conception: proposition d'un … · 2020-04-21 · Introduction générale Optimisation du processus de conception : Proposition d’un modèle de sélection

Observations instantanées Atelier de formation Boîte à outils en Harmonisation Optimisation des processus Par Pascal Beauchamp

Optimisation du processus de revue des dossiers de lot au

OPTIMISATION DU PROCESSUS DE TRAITEMENT DES …iucpq.qc.ca/sites/default/files/affiche_iucpq-ul_lab_hematologie_4mai_br.pdf · CONTEXTE ÉQUIPE MULTIDISCIPLINAIRE DE 10 PERSONNES

Processus Les Outils d Optimisation

OPTIMISATION DU PROCESSUS D’IMMERSION - …dlibrary.univ-boumerdes.dz:8080/bitstream/123456789/817/1/Messaid... · DATTES SECHES - JUS D’ORANGE. Résumé L’intérêt de cette

RBC Mind the Gap - About RBC - RBC

RBC-RBC Safe Communication Interface Test …€¦ · ... C LASS 1 RBC-RBC Safe Communication Interface Test ... Interface; Requirements, v1.1.0 Subset-098 05.07 RBC-RBC Safe Communication

Optimisation du processus de développement du médicament

Boîte à outils en harmonisation optimisation des processus

Optimisation des processus d’entreprise liés à la cao manu

DOSSIER - GPOMag, le magazine des dirigeants … · « Optimisation des processus documentaires - Solutions pour les documents entrants/circulants 2012-2014 », étude Markess International

Boîte à outils en harmonisation optimisation des processus Formations données à lensemble des directions Septembre-octobre 2013 Cécile Lagoutte Conseillère

Ensemble vers demain - GMSA€¦ · Formation vendeuses • • • • Ensemble vers demain Optimisation des processus et rationalisation des coûts pas nos efforts pour maintenir