Data mining analyse discriminante

Preview:

DESCRIPTION

 

Citation preview

TECHNIQUES PRÉDICTIVES DU DATA MINING

MODÈLES PARAMÉTRIQUES :

ANALYSE DISCRIMINANTE CLASSIFICATION SUPERVISÉ, SCORING

MOHAMED HENY SELMI

ECOLE SUPÉRIEURE PRIVÉE D'INGÉNIERIE ET DE TECHNOLOGIES

POSITION DU PROBLÈME

Observations multidimensionnelles

réparties en k groupes définis a

priori.

Classification Supervisée

Mohamed Heny SELMI © ESPRIT medheny.selmi@esprit.tn

TYPES

DESCRIPTIVE

trouver une

représentation des

individus qui sépare

le mieux les groupes

PRÉDICTIVE

trouver des règles

d’affectation des

individus à leur

groupe

Mohamed Heny SELMI © ESPRIT medheny.selmi@esprit.tn

on a un ensemble d’individus caractérisés par une variable à expliquer Y qualitative et des variables explicatives Xi quantitatives

PROPRIÉTÉ DE L’ANALYSE

DISCRIMINANTE

Y variable à expliquer qualitative à k catégories

X1, X2, … , Xp variables explicatives

i. Objectfi1: Décrire Étude de la distribution des Xi/ Y

Géométrie : Analyse factorielle discriminante AFD

Tests : Analyse de variance multidimensionnelle

ii. Objectif2: Classer Étude de P(Y/ X1, X2, … , Xp )

Modélisation fonctionnelle : Approche bayésienne

Modélisation logique : Arbre de décision

Méthodes géométriques.

Mohamed Heny SELMI © ESPRIT medheny.selmi@esprit.tn

PRINCIPE DE L’ANALYSE

DISCRIMINANTE

Créer une méthode pour choisir entre les combinaisons linéaires des variables celle qui maximise l'homogénéité de chaque classe (Fisher)

Théorème de Huyghens : décomposer la matrice de covariances de la population de taille n en deux matrices différentes, l'une donnant la variabilité dans chacune des k classes et l'autre la variabilité entre les k classes:

S = E + H S matrice des variances/covariances

E matrice de la variabilité inter-classes

H matrice de la variabilité intra-classes

Mohamed Heny SELMI © ESPRIT medheny.selmi@esprit.tn

PRINCIPE DE L’ANALYSE

DISCRIMINANTE

Chercher des fonctions qui séparent le mieux entre les classes

des fonctions qui maximisent la variabilité inter-classes :

calculer le vecteur F qui maximise

Ft EF / FtSF

on déduit la relation :

EF = λ SF

qui devient, lorsque la matrice de covariances est inversible

S-1EF = λ F

Mohamed Heny SELMI © ESPRIT medheny.selmi@esprit.tn

PRINCIPE DE L’ANALYSE

DISCRIMINANTE

Les variables qui maximise la variabilité inter-classes est donnée par XF1 :

où F1 est le vecteur propre associé à la plus grande valeur propre de la matrice S-1E.

La variabilité inter-classes associée représente ainsi la proportion λ1 de la variabilité totale.

Cette valeur est une mesure de la capacité discriminante de F1, elle sera d'autant plus importante que λ1 s'approchera de 1.

Mohamed Heny SELMI © ESPRIT medheny.selmi@esprit.tn

RECHERCHE DES FACTEURS

DISCRIMINANTS

Mohamed Heny SELMI © ESPRIT medheny.selmi@esprit.tn

Exemple : analyse discriminante pour k=3

RECHERCHE DES FACTEURS

DISCRIMINANTS

Mohamed Heny SELMI © ESPRIT medheny.selmi@esprit.tn

Exemple : analyse discriminante pour k=3

RECHERCHE DES FACTEURS

DISCRIMINANTS

Le 1er facteur discriminant (F1) est une nouvelle variable,

combinaison linéaire des variables descriptives (centrées), dont

la variance inter-classe est maximum (ou, de façon équivalente

la variance intra-classe est minimum).

Mohamed Heny SELMI © ESPRIT medheny.selmi@esprit.tn

RECHERCHE DES FACTEURS

DISCRIMINANTS

Mohamed Heny SELMI © ESPRIT medheny.selmi@esprit.tn

RECHERCHE DES FACTEURS

DISCRIMINANTS

Mohamed Heny SELMI © ESPRIT medheny.selmi@esprit.tn

RECHERCHE DES FACTEURS

DISCRIMINANTS

Mohamed Heny SELMI © ESPRIT medheny.selmi@esprit.tn

RECHERCHE DES FACTEURS

DISCRIMINANTS

Mohamed Heny SELMI © ESPRIT medheny.selmi@esprit.tn

GÉOMÉTRIQUEMENT

le 1er facteur détermine un axe dans le nuage de points (passant par l'origine) tel que les projections des points sur cet axe aient une variance inter-classe (variance des moyennes de classe) maximale.

Mohamed Heny SELMI © ESPRIT medheny.selmi@esprit.tn

PROPRIÉTÉS DES

FACTEURS DISCRIMINANTS

Les facteurs sont entièrement déterminés par la matrice définie par: S-1E (vecteurs propres)

Le nombre maximum de facteurs discriminants = k– 1

La part de variance inter-classes expliquée =

[variance inter/ variance totale est décroissante entre les facteurs

successifs]

Mohamed Heny SELMI © ESPRIT medheny.selmi@esprit.tn

ANALYSE DISCRIMINANTE

DESCRIPTIVE

Si 2 groupes => 1 seul facteur = axe de projection où la

séparation inter-classe est la mieux exprimée =>

coordonnées sur cet axe = scores discriminants.

Si + de 2 groupes => plan discriminant (F1) et (F2)

= plan de projection ou la variance inter-classe B (=>

dispersion des centroïdes dans le plan) sera la mieux

représentée

Mohamed Heny SELMI © ESPRIT medheny.selmi@esprit.tn

ACP CONTRE

ANALYSE DISCRIMINANTE

Mohamed Heny SELMI © ESPRIT medheny.selmi@esprit.tn

ANALYSE DISCRIMINANTE

PRÉDICTIVE

Mohamed Heny SELMI © ESPRIT medheny.selmi@esprit.tn

Les facteurs discriminants donnent la meilleure représentation de la séparation des k centroïdes de classe (dans un espace orthonormé) pour un individu x projeté dans l'espace des facteurs: attribuer la classe dont le centroïde est le plus proche.

détermination de 3 régions de décision (R1, R2 , R3) délimitant les points 'sensés‘ appartenir aux différentes classes

ANALYSE DISCRIMINANTE

PRÉDICTIVE

NOTIONS MATHÉMATIQUE

Distance d de 2 points x et y :

avec H : matrice intra-classes des groupes.

On classe x dans le groupe Gi pour lequel la distance au centre gi est minimale :

Mohamed Heny SELMI © ESPRIT medheny.selmi@esprit.tn

)()(),²( 1 yxHyxyxd t

i

t

i

t

i

t

i

t

ii gHgxHgxHxgxHgxgxd 1111 2)()(),²(

),²(min igxd )2(max 11

i

t

i

t

i gHgxHg

ANALYSE DISCRIMINANTE

PRÉDICTIVE

NOTIONS MATHÉMATIQUE

Pour chacun des k groupes Gi, on a une fonction discriminante de Fisher :

On classe X dans le groupe pour lequel la fonction est maximale

Mohamed Heny SELMI © ESPRIT medheny.selmi@esprit.tn

ppiiii XXX ,22,11, ...

EXEMPLE D’ANALYSE

DISCRIMINANTE PRÉDICTIVE

Mohamed Heny SELMI © ESPRIT medheny.selmi@esprit.tn

But : construire les fonctions prédictives des groupes de fleurs selon leurs caractéristiques via une analyse discriminante

Recommended