View
85
Download
2
Category
Preview:
Citation preview
ANALYSE DES DONNEES
Partie I :
- ACP (analyse en composante principales)
- AFC (analyse factorielle des correspondances)
- AFCM (Analyse en composante multiple)
- AD (analyses discriminantes)
Partie II :
- Application informatique (ASA SPSS STATA R S plus SPAD…..)
1
Rappels sur la statistique classique :
I- Données
La statistique descriptive classique se propose d’étudier des populations composées d’individus vus sous l’angle d’un seul caractère (quantitatif ou qualitatif)
Remarque : en générale on parle de variable à la place de caractère.
Exemple :
Population Caractère qualitatif Caractère quantitatif Secteur d’activité d’une économie
Valeur ajoutée Région (localité)
Les factures de la société X SA pour l’économie N
Montant Type de clientèle
Les points de ventes d’un produit P
Nombre d’unité vendu à la date N
Conditionnement
Pour une interprétation plus élevée les données collectées sont synthétisé sous fourme de paramètre de position (moyenne, médiane, mode etc.……) ou de dispersion (Variances, étendus …..), de représentation graphique (Histogramme, diagramme en bâton, en secteur….)
Remarque 1: Ces synthèses et représentions sont forcement réductrice mais elles facilitent l’interprétation des données (en faisant les principales caractéristiques).
Remarque 2 : il est parfois souhaitable de rendre quantitatif certains caractères qualitatif ceci dans le but de pouvoir mener des calculs intéressent.
Exemple : « l’étude de satisfaction clientèle »
L’opinion des clients sur les produits de la société X SA, peut s’exprimer à travers une note de 1 à 5.
b) Rappels sur les séries simples (étude d’une seule variable)
Valeur du caractère x x1…………………xp TotalEffectif partiel n1……………………..np ∑ ¿= n
La moyenne arithmétique
x=1n∑ nixi (ni= 1 si les données sont individualisées)
Variance
( x+x )2= yi
2
V (x )=1n∑ (xi−x)2
Ecart-type
𝜎 = √V (x)
*La médiane
La médiane est la valeur de la variable noté Me qui partage les effectifs rangés dans l’ordre croissant ou décroissant en deux groupes d’effectifs égaux.
*Le Mode
C’est la valeur la plus fréquente ou c’est la valeur de la variable qui correspond à l’effectif le plus élevé.
C) Les série statistiques doubles (bidimensionnelles)
Il s’agit d’étudier ici une population vu sous l’angle de deux caractères ex : (valeur ajouté et région).
Population Caractère I Caractère IISecteur d’activité Valeur Ajoutée Région
On s’intéresse essentiellement à une éventuelle liaison existant entre les deux caractères
Cas 1 : cas ou les deux variables sont quantitatives
On vérifie s’il y a une corrélation en représentant sur un plan les points des coordonnées (x, y)
Exemple :
Entreprises Chiffre d’affaire Effectif moyenE1 20 37E2 25 45E3 35 49
Nuage des points
On peut chercher à ajuster une courbe d’équation y = f(x) à ce nuage de points.
En cas de corrélation linéaire, l’intensité est mesuré par le coefficient de corrélation linéaire
noté r(x,y)= cov (x , y )
δxδy. Є [-1 ; 1]
3
Corrélation forte
-1 0,9 0,9 1
Cas2 : Cas ou les deux variables sont qualitatives
On obtient alors un tableau qui croise deux variables qualitatives. L’analyse sera fondée sur un test d’indépendance du Khi2.
Exemple 1 :
Région
Secteur d’activitéCentre Nord ………….
AgricultureIndustrie
Exemple 2 :
X ayant 2 modalités
Y ayant 3 modalités
On pose :
X Y1 12 31 22 22 32 12 2
4
On croise X & Y
Y X
1 2 3
1 1 1 0
2 1 2 2
Cas3 : cas ou l’une des variables est qualitative et l’autre quantitative.
On obtient une possibilité de comparaison des moyennes prise par la variable quantitative et ceci pour chaque modalité de la variable qualitative.
L’analyse peut alors se traduire par un test de comparaison de moyennes de deux échantillons.
Rappels sur les séries bi-variées
Etude simultanée de deux variables X Y
Tableau
Moyenne arithmétique de la variable X
x=1n∑i=0
n
xi
Moyenne arithmétique de la variable Y
y=1n∑i=0
n
yi
Les variances
V ( x )=1n∑ ¿¿
V ( y )=1n∑ ( yi− y)2
Les écart-types
𝜎 = √ V (x)𝜎 = √ V ( y ) Covariance entre les variables X et Y
Cov (x, y) = 1n∑
1
n
( xi−x ) ( yi− y )²
Remarque : si X = Y alors Cov(x, y) = Cov(x, x) = Var(x)
2) L’analyse des données multidimensionnelles
5
a) Les différents types de tableaux à traiter
Tableau de mesure : Individus croisé avec caractères quantitatifs
Ex : trois entreprises Dakaroise sont étudiés sous l’angle de plusieurs paramètres économiques et financiers.
CA Effectif moyen
Valeur Ajouté
Résultat net % du CA
Salaire net mensuel
PME1 3 9 1,1 0,9 1100PME2 26 48 13 1,2 1200PME3 54 47 29 3,5 1240
Tableaux de contingences (tableau qui croise deux variables qualitatives ou une variable qualitative et une variable quantitative)
Un tableau de contingence est un tableau croisé qui ventile une certaine quantité selon les modalités de caractère.
- Deux variables qualitatives
Ex :
Nord Est ………Agricole n
Industrie
- 1 variable qualitative et 1 variable quantitative
Ex : « enquêtes sur les opinions politiques …….. »
OpinionsAge
Benno Fal 2012 Rewni APR YNM
[18-25[ 8 12 10 11 25[25-30[ 9 17 15 17 19[30-40[ 13 11 25 19 27[40-60[ 27 32 17 15 08
Interprétations :
Les électeurs âgés 30 à 40 ans ayant une sensibilité politique proche d’YNM sont 27.
Remarque : Dans un tableau de contingence la somme des lignes et la somme des colonnes a toujours un sens.
Tableaux logiques
6
Ces tableaux concernent des individus étudiés sous l’angle de plusieurs variables qualitatives. Chaque variable pouvant prendre plusieurs modalités.
Si l’individu possède la modalité d’une variable on lui affecte le coefficient 1 si non le chiffre 0.
Ex : « étudiants sont regardés sous l’angle de leur sexe de leur préférence musicale et picturale. »
Sexe Préférence musicale Préférence picturaleH F Jazz Mbala RNB Raggea Figuration Abstraite
E1 1 0 1 0 0 0 0 1E2 0 1 0 1 0 0 0 1E3 1 0 0 0 0 1 1 0…….
Remarque : les tableaux logiques permettent typiquement de coder des résultats d’enquête d’opinions. On dira que le tableau est mis sous forme disjonctive complète c à d que l’individu possède une et une seule modalité pour chaque caractère.
En cas d’enquête comportant des questions à réponse multiple il faut, pour obtenir un tableau disjonctif complet, faire de chaque modalité une variable a par entière possédant deux modalité OUI ou NON.
Ex : enquête de satisfaction client
Question : Quel plat préférez vous ?
Thieboudjen Mafé Attiéké Yassa
Tableau
Thieboudjene Mafe Attieké Yassaoui non oui non oui non non oui
Diallo 1 0 1 0 1 0 0 1
Ainsi l’ensemble des réponses aux questions d’une enquête peut être toujours codé sous la forme d’un tableau logique disjonctif complet. (TLDC)
b) Insuffisance de la statistique descriptive élémentaire
La statique de manière générale a pour vocation de proposer des résumés de l’information. Ces résumés peuvent prendre une forme numérique (caractère de tendance centrale : moyenne médiane mode ou de dispersion : variance écart-type étendu), ou une forme graphique. La statistique descriptive élémentaire permet au plus d’étudier deux variable simultanément.
Remarque : jusqu'à trois variables on peut toujours obtenir une représentation graphique.
7
Exemple :
Entreprise Salaire moyen mensuel Valeur ajouté CAE1 25 30 40? ? ? ?
On a E1 = (25 ; 30 ; 40)
Représentation
Question : y a-t-il alors une possibilité de visualisation en la résument, l’image multidimensionnelle du nuage des points.
Remarque : à partir de trois variables il faut des méthodes plus élaborés d’où l’utilité de s’appuyer sur l’analyse des données.
c) Motivation et place de l’ADM dans l’analyse statistique
L’analyse statistique se décompose en quatre étapes.
Niveau 1 : Sondage collecte enquêteNiveau 2 : Mise en forme des données Tableaux, graphiquesNiveau 3 : ADM Analyse des données interprétationNiveau 4 : Modélisation Econométrie
d) Points commun aux différentes méthodes d’analyse des données
*Objectifs : Ces méthodes visent à réduire les données pour mieux dégager les relations essentielles entre les éléments du tableau tout en minimisant la perte d’information entrainée par la réduction opérée.
Les méthodes d’analyse des données cherchent essentiellement à décrire et non à construire des modèles explicites et décisionnelles.
*Fondements mathématiques et statistiques : Les tableaux de données constituent des matrices et l’analyse des données fait appel largement aux calculs matriciel.
*Recours à l’outil informatiques : ces méthodes n’ont pu être mise en œuvre que grâce à l’ordinateur car elles conduisent à des manipulations de nombres irréalisables manuellement. Elles se sont donc considérablement développées dans les entreprises parallèlement au développement des micro-ordinateurs.
*méthodes présentées et l’approche retenue :
Parmi les nombreuses méthodes actuellement utilisées nous en présenterons 3 qui font parti des méthodes factorielles.
8
- L’analyse en composante principale
- L’analyse factorielle des correspondances (AFC)
- Analyse discriminante (AD)
e) Principes de l’analyse factorielle des données :
Principe 1 : il s’intéresse à l’étude de K variables observé sur n individus
X1 ………………. X j …………….. X k
I 1 X11 X j
1 X k1
I i X1i X j
i X ki
I n X1n X j
n X kn
Xij = valeur prise par la variable j pour l’individu i
Convention :
- Les individus sont en générales représenté en ligne,
- les variables sont en colonne
Ainsi chaque individu Ii (x1i ;…………..x j
i ; …….xki ) peut être considéré comme un vecteur de
Rk. Chaque variable Xj (x j1;……… x j
i ;………x jn ) correspond a un vecteur de Rn
On dispose alors :
- d’un nuage d’individus dans l’espace Rk
- d’un nuage de variables dans l’espace Rn
Règles : De préférence on commence d’abord par étudier le nuage des variables afin de détecter les éventuelles liaisons.
En pratique on fournit à l’ordinateur le tableau à analyser en lui indiquant la méthode factorielle à utiliser. Il se charge alors de reproduire la photographie. L’analyste n’a donc aucun calcul affaire par contre il lui faut beaucoup de rigueur et de finesse pour interpréter les photos fourni par l’ordinateur.
Principe 2 : on pare du nuage des individus et on essaye de faire des regroupements les moins arbitraires possible : la classification automatique.
9
CHAP II : L’ANALYSE EN COMPOSANTES PRINCIPALE
L’ACP est une méthode de description des tableaux de mesures
a) Tableau de données brutes (Z)- Les individus sont représentés en ligne
- Les variables sont représentés en colonne
Considérons n individus étudiés à travers p variables.
Posons :
Zi j la valeur prise par la variable Zj pour l’individu i
Z1 Z j Zp
1 Z11 Z1
j Z1p
2 Z21 Z1
j Z2p
i Zi1 Zi
j Zip
n Zn1 Zn
j Znp
L’ACP cherche à décrire les relations entre les individus, entre les variables, et entre les individus et les variables.
b) Nuage des points individus
A chaque individu est associé en ligne la valeur des variables représentant les cordonnées de
l’individu i dans l’espace de dimension P. On pose pour l’individu i, Zi = (Zi1…Zi
j … Zip) dans
ce contexte, l’ACP s’intéresse plus particulièrement aux distances entre les individus.
Exemple :
Dans un espace de dimension deux, la distance euclidienne usuelle entre les points A (a ; a ‘) et B(b ; b’) est :
d = √(b-a)² + (b’-a’) ²
10 a b
a’
b’d
En ACP les variables sont rarement de même nature (certaines sont exprimé en m3 d’autres en Kg d’autres en % etc.) et la distance ainsi mesuré n’aura pas grande signification.
Pour rendre les données homogènes, elles sont centrées et réduites (on obtient alors des
nombres sans unité). Ainsi Z ji sera remplacé par Y j = ( Zi
j –Z j) /(𝜎(Z j) avec Z j = moyenne de
la variable Z j et 𝜎(Z j) = écart-type de la variable Z j. Ainsi Y ij est une variable centrée réduite.
Le centrage est juste une technique alors que la réduction supprime l’influence des unités.
c) Nuage des p points variables
A chaque variable sont associés en colonne les n valeurs attribué aux individus.
On associe à chaque vecteur Z j les coordonnées centrées réduites.
y1j
y ij
ynj
Ici l’ACP s’intéresse plus particulièrement aux corrélations entre les variables. On sait que le coefficient de corrélation entre les variables Z j et Zkpeut être calculé avec les données initiales
ou avec les données centrées réduites(Y ). On a:
r (Z j , Zk) = cov (Z j , Zk )σ ( Z j ) σ ( Zk ) =
1n ∑
( zij−z j)( zi
k−zk )σ ( Z j ) σ ( Zk )
r (Z j , Zk) = 1n ∑ yi
j y ik
Posons : X ij =
yij
√n
r (Z j , Zk) = ∑i=1
n y ij
√n∗ y i
k
√n=∑
i
n
X ij X i
k
En réécrivant r (Z j , Zk) sous forme matricielle, on obtient :
X j= (x1
j
.
.
.xn
j) et X k= (
x1k
.
.
.xn
k) ∑i
n
X ij X i
k=X (n , i)j X (n , 1)
k
r (Z j , Zk) = corr. ( X j Xk )= tX j . X k = ∑ x ij x i
k
11
Y j = Avec Y ij =
Z ij−Z i
j
σ ( Z j )
Remarque1 : si on note X la matrice des X j tous les coefficients de corrélation entre les variables prise deux à deux peuvent être obtenu en faisant le produit de la transposé de X par X. tX .X = Г
Résumé :
En ACP les données initiales Z sont :
- Centrées et réduites pour mieux apprécier les distance entres les individus.
- Divisé par √ n pour permettre le calcul de corrélation entre les variables
On a: Zij X i
j= Z i
j – Z j
σ Z j√n
Remarque1 : la division par √n ne modifie pas la forme du nuage des individus. Elle ne fait que modifier l’échelle.
Remarque 2:
Calculons σ (X j) =¿ Y j
√n) =
1
√nσ (Y j )
Et Y j est réduite σ (Y j ) = 1 σ 2 ( X j )= 1n
(1)
Calculons la variance de X j:
Comme X j est centrée var( x j ) = 1n
∑ ( x ij )2. (2 )
En rapprochant (1) et (2) on a : 1n
= 1n
∑ ( x ij )2 ∑ ( x i
j )2=1 ∀ j=1 ……… ρ
∑ ( x ij )2= . tX j X k.= ‖X j‖2
‖X j‖ = 1 on en déduit que ∀ j, X jse trouve sur la sphère (0,1).
Remarque 3: Distance entre 2 variables X k X k '
d2 ( Xk Xk ' ) = ∑ ( X ik−X i
k' )2
= ∑ ( X ik )2
+ ∑ ( X ik ' )2- 2 ∑ X i
k X ik '
= 1 + 1 – 2 ∑ X ik X i
k '
d2 ( Xk Xk ' )=¿ 2 [1−∑ X ik X i
k ' ]= 2[1−corr ( X ik , X i
k ') ]
Si corr ( X ik , X i
k ' ) 1 d2 ( Xk Xk ' ) 0
12
Conclusion : La distance entre deux variables est d’autant plus petite que ses deux variables sont corrélées.
Remarque :
Malheureusement, l’ensemble des corrélations (des variables prises 2 à 2) se trouve dans l’espace de dimension n ; donc difficilement appréhendable.
II- Analyse des nuages de points individus Cas d’un espace de dimension 2
Considérons l’exemple suivant où six (6) individus sont analysés avec deux (2) variables Z1et
Z2.
INDIVIDUS VAR Z1 VAR Z2
1 3 500
2 9 700
3 4 1400
4 13 1900
5 8 1700
6 11 1000
TOTAL 48 7200
ECRAT TYPE 3,55 g 509,22
MOYENNE 8 1200
13
2 4 6 8 10 12 140
200
400
600
800
1000
1200
1400
1600
1800
2000
G
Series2
1) L’ACP centre les données du tableau, ce qui revient à prendre pour nouvelle origine le point G ( Z1 Z2) appelé centre de gravité ou point moyen de nuage. Ensuite, elle réduit et
les divise par√n.
Individus VAR X1 VAR X2
1 - 0.5735 - 0.5604
2 + 0.1147 - 0.4003
3 - 0.4508 + 0.1601
4 + 0.5735 + 0.5604
5 0 + 0.4003
6 + 0.3441 - 0.1601
TOTAL 0 0
Ecart-Type 1/V6 1/V6
∑ ( x ij )2 1 1
* Mesure de l’étalement : (inertie) :
14
La somme des carrés des distances entre les points individus et le point moyen G est appelé l’inertie totale du nuage. Elle mesure la distance des points autour du centre de gravité du nuage.
2 60123456789
10
G
i
15
Gi = distance entre l’individu et le centre G
Inertie totale = ∑ ( Gi )2
On a :
- le carré de la distance de 1 à G (Gi )2.= (0,5735)2 + (0,5604 )2 = 0,64295
- Le carré de la distance de 2 à G = 0,17339 de 3 à G = 0,23612 de 4 à G = 0,64295 de 5 à G = 0,16024
de 6 à G = 0,14403
∑j=1
p
∑i
n
( X ij )2=∑
j=1
p
1=p
Remarque :
Lorsque l’ACP est normé, la somme des carrés de toute les données x ijest égale au nombre des
variables.
Ici, l’inertie totale est donc égale à 2.
2) L’intérêt de l’ACP est de faire apparaître l’axe principal d’allongement du nuage c’est- à- dire « l’axe passant par G sur lequel la distance entre les projections des points sur (D) sont maximales. On l’appelle l’axe factoriel N°1.
En rapprochant l’inertie de l’axe 1 à l’inertie total du nuage, on obtient le taux d’inertie N°1.
Exemple :
Si le taux de l’inertie N°1 est de 70%.
Interprétation :
1) En remplaçant les points initiaux par une projection sur l’axe 1, on passe d’un espace de dimension 2 à un espace de dimension 1 (l’axe 1) et restitue 70% de l’info initiale.
2) L’axe N°2, perpendiculaire à l’axe N°1 et passant par G, est appelé axe factoriel N°2. Son taux d’inertie est nécessairement plus faible.
Remarque1 : Le plan factoriel N°1 est le plan déterminé par les deux (2) premiers axes.
Le graphe proposé par l’ACP fait apparaitre uniquement les axes principaux d’arrangement du nuage de points. Ils seront utilisés comme axes de repère.
Remarque2 : les axes 1 et 2 ont été remplacé par les axes (axe1), (axe2) on les appelle composantes principales ou facteur.
Remarque 3 : les individus éloignés de l’individu moyen sont appelés individus originaux et permettent de donner une signification aux axes factorielles.
Remarque 4 : en dimension 3, deux points même éloignés peuvent avoir des points de projection très proche voir confondus sur le plan factorielle.
16
Exemple 1 : deux points éloignés
Exemple 2 : deux points proches x1
x2
Deux points proches dans la réalité resteront proches par rapport à leurs points de projection.
Remarque : Pour réduire le risque d’interprétation le logiciel d’ACP propose pour chaque point individu des indicateurs de la qualité de sa représentation.
*Qualité de représentation d’un individu i sur le plan factoriel défini par les axes l et k
Axe l
Axe k
La qualité de la représentation de l’individu i sur l’axe k est mesurée par le rapport (c i
k
d)
2
La qualité de la représentation de l’individu i sur l’axe l est mesurée par le rapport (c i
l
d)
2
Ce rapport est d’autant plus proche de 1 que le point est bien représenté sur cet axe.
On note QLT (k, l) (i) = ( d 'd
) 2
On a en outre d’2 = (C ik) 2 + (C i
k . ip) 2 ou d’2 = (Cki) 2 + (Cl
i) 2
17
x1
x2
x ' 2 x ' 1
Les ponts x1 et x2 sont très éloignés dans la réalité, mais leurs projections sur le plan factoriel sont confondues.
x ' 2 x ' 1
i
d
Soit alors QLT (k, l) (i) = ( Ci
k
d) 2 + (
Cik
d) 2 = cos ( i , k )+cos ( i ,l )❑
2❑2
On a: QLT (k, l) (i) = cos ( i , k )+cos ( i ,l )❑2
❑2
III - Analyse du nuage des variables
Considérons un exemple de dimension 3.
Ex : Trois individus sont étudiés à travers 4 variables
Variable 1 Variable 2 Variable 3 Variable 4Ind1 14 160 7 90Ind2 9 240 3 25Ind3 37 110 15 40Total 60 510 25 155Moyenne 20 170 8,333 51,667Ecart-Type 12,193 53 ,54 4,989 27,789
Chaque point variable est représenté dans un espace de dimension 3 (les trois individus)
ACP : après centrage, réduction et division par √ n on obtient :
X 1 X 2 X 3 X 4Ind1 -0,284 -0,108 0,154 +0,796Ind2 -0,521 +0,755 -0,617 -0,554Ind3 +0,805 -0,647 +0,772 -0,242Total 0 0 0 0Moyenne 0 0 0 0Ecart-Type 1/√ 3 1/√ 3 1/√ 3 1/√ 3
∑ (xij) ² 1 1 1 1
On est sur la sphère de rayon unité
Dans un espace de dimension 3 les points variables sont donc situés sur une sphère d’origine o et de rayon 1. On obtient la représentation des 4 points variables dans un espace de dimension 3.
18
19
Remarque :
- Deux points proches sur la sphère correspondent à deux variables fortement corrélés.
- Deux points quasiment opposés par rapport à G correspondent à deux variables fortement corrélés négativement.
- Deux ponts dans des directions quasiment orthogonales par rapport à G correspondent à deux variables faiblement corrélées.
Pour la représentation graphique du nuage des points variables sur le premier plan factoriel on projette les points sur les axes principaux.
Dans l’exemple précédent on obtient le tableau de corrélation. Le logiciel d’ACP fournit la matrice C de corrélation
X1 X2 X3 X4
X1 1
X2 0,883 1
X3 -0,986 -0,948 1
X4 -O133 -0,347 +0,032 1
On sait que var (X j)= 1n
Corr. (X i,X j) = cov ( x j x j )σ ( x j ) σ ( x j )
= 1
Le graphe montre que X1 et X3 sont fortement corrélé ce que montre le coefficient de corrélation linéaire.
Un coefficient de corrélation élevé entre la variable Xj et l’axe k indique que la variable contribue fortement à la définition de l’axe k : ce qui peut aider à donner une signification à cet axe. Le logiciel d’ACP peut éditer les coordonnées des points variables sur les axes factoriels c.-à-d. les coefficients de corrélation entre variables et les composantes principales.
R(V ik, X j ) = ∑V i
k X ij ≡coordonnees de X j dans labaseV k
Dans l’exemple précédent, on obtient :
Variables C1axe 1 C2axe 2X1 0,966 -0,258
X2 -0,975 -0,225
X3 0,915 -0,096
X 4 0,129 0,992
20
Les variables X1, X2, X3, contribuent à la formation de l’axe 1
La variable X4 celle qui contribue à la création de l’axe2.
Définition : Le plan factoriel du nuage des individus est appelé plan direct.
Le plan factoriel du nuage des variables est appelé plan dual.
Remarque1 : les distances entre les projections des points variables sur le plan dual sont le reflet des corrélations entre les variables.
Remarques 2 : l’interprétation des graphs duaux (projections des points variables) doit se faire parallèlement à celle des graphs directs (projection des individus)
IV- interprétation d’une ACP
a) Démarche générale
Etape1 : On détermine le nombre d’axe que l’on désire conserver dans l’interprétation.
Etape2 : On interprète en termes de corrélation les positions des variables sur les plans factoriels. On précise éventuellement l’origine de ses corrélations en examinant les représentations factorielles des individus.
Etape3 : On cherche à donner une interprétation à chaque axe
Etape 4 : On commence s’il y a lieu à l’aide des éléments dégagés ci-dessus des photos des individus (par rapport l’individu moyen si cela a un sens)
Etape 5 : On examine le bi-plot (superposition du graph dual et du graph direct)
b) Etude détaillé
Etape1 : On classe par ordre décroissant de valeur propre les axes factoriels. Pour retenir le nombre d’axe on examine l’histogramme des valeurs propre en essayant de détecter le décrochage (il s’agit de pouvoir dire si les valeurs propres sont significativement différentes).
Remarque : il n’existe pas de règles propres pour la détermination des axes ; le tout dépend des objectifs de l’étude.
Étape 2 : On examine les graphs duaux en termes de corrélation
Etape3 : Interprétation des axes
L’interprétation des axes permet de trouver un sens au facteur correspondant
Remarque : Tout facteur n’est pas facilement interprétable
Etape4 : A défaut de toujours pouvoir illustrer un axe avec une ou plusieurs variables on peut chercher à la faire avec les individus. L’analyse des individus est celle de leur différence par rapport à celle de l’individu moyen. Par conséquent on doit impérativement procéder par des
21
regroupements pour résumer ses différences en quelques grands traits. On cherche les points originaux, ceux qui sont isolés des autres. Il faut en suite les commenter, en général en priorité car ils peuvent avoir un impacte gênant sur la visualisation de disparité par rapport au reste des individus. (Remède : on peut les mettre en supplémentaire).
Etape5 : On examine simultanément les graphs discrets et duaux : le bi-plot.
Remarque1 : la qualité de la représentation des individus est sous forme d’un tableau d’indicateur QLT en fonction des cosinus carrés.
Remarque2 : Les corrélations entre les variables sont données dans les matrices de corrélation.
Etude de cas concret
Enoncé : les données réels considères ici proviennent de la revue de l’UNICEF « la situation des enfants dans le monde en 1999 »
Les 10 individus seront les 10 pays les plus peuplés de l’Afrique de l’ouest et du centre.
Ces pays sont étudié selon :
- Le PIB par habitant, exprimé en dollar US de l’année 1999 (PNB)
- Espérance de vie à la naissance en années 1997
Pays PNB E V 97BF 230 46Cameroun 610 56CI 660 51Ghana 360 58Guinée 560 46Mali 240 48Niger 200 48Nigeria 240 52Sénégal 570 51Tchad 160 48
L’ACP donne :
Num IND MOY E-TYPE MIN MAX1 PNB 383 195,11 160 6602 EV 97 50,4 4,061 46 58
22
Matrice de corrélation Valeurs propres
Coordonnées des variables sur les axes
Coordonnées Corel var facteurs
Identif libellé 1 2 1 2
PNB 0.82 0.58 0.82 0.82
EV97 0.82 -0.58 0.82 -0.58
CERCLE DE CORELLATION
23
EV97
PNB
Val. propre
Pourcent P. cumulée
1 1.33 66.53 66.53
2 0.67 33.45 100
PNB EV97
PNB 1 0.33
EV97 0.33 1
Graphe dual
Graphe direct et dual
Question : Donner une interprétation de ce tableau de données.
Correction
Méthode adaptée : ACP car on a un tableau de mesures :
PNB moyenne = 383
Ces deux variables ne sont exprimé de même nature. On utilisera donc 1 ACP normée
EV99 moyenne = 50,4
Le graph indique que l’axe 1 représente 66.5% de l’inertie total
Cela signifie que cet axe restitue environ 67% de l’information.
L’axe 2 traduit 33% de l’information
24
G
EV97
PNB
G
.TCHAD
.NIGER
.MALI
.GHANA EV97
.CAMEROUN
.SENEGAL
.COTE D’Ivoire
PNB
.GUINEE
Nigeria.
La matrice des corrélations montre que corr. (EV99 ; PNB) = 0,33 qui n’est pas négligeable
La lecture des coordonnées sur les axes donne :
PNB = 0,82 sur l’axe1
EV97 = 0 ,82 sur l’axe 1
Ces deux variables avec leur forte coordonnée participent à la formation de l’axe1,
PNB= 0,58
EV97= -0,58
De même les variables EV97 et PNB (fortes coordonnées) participent également à la formation de l’axe2.
Le cercle de corrélations montre que PNB et EV97 sont du même coté de l’axe 1 alors qu’elles s’opposent sur l’axe2.
On observe que sur la droite du graphique une corrélation entre EV97 et PNB
L’axe 1 oppose dynamisme économique et niveau de vie élevé à marasme économique et niveau de vie faible.
Interprétation des graphs individus et variables (bi-plot)
Nous constatons que les pays Mali Niger Burkina Cote d’ivoire sont bien représentés sur l’axe1 (voir indicateur) d’autre part le Ghana Nigeria Guinée expliquent l’axe 2.
- On obtient sur l’axe1 le groupe (Tchad Mali Niger Burkina) avec un PNB et une espérance de vie faible s’opposent au groupe (Cameroun CI Sénégal) ou ces deux indicateurs sont nettement meilleurs.
- Sur l’axe 2 à la faible espérance de vie et PNB s’opposent le Nigeria le Ghana pour lesquels EV97 est élevé et PNB est faible.
Remarque : Le Nigeria a une espérance de vie sup à celle du group CI Sénégal mais son PNB relativement faible le place éloigné de ces deux pays.
25
CHAPITRE III : ANALYSE FACTORIELLE DES CORRESPONDANCES
L’analyse de la correspondance est destinée à extraire de l’information a partir des tableaux de contingence (tout tableau de nombre dont la somme des lignes est égale à la somme des colonnes).
Exemple : supposons qu’un établissement hospitalier est relevé pour 5 services de l’établissement les dépenses faites ou estimées sur les postes suivants :
- Acte en K, Acte en B, Acte en Z, Hôtellerie, Divers
Sur une période donnée, ses dépenses mesurées en franc sont exprimé dans le tableau suivant :
Actes K Actes B Actes Z Hôtellerie Divers Total Service1 60 39 42 54 12 207Service2 27 18 12 19 8 84Service3 135 110 120 160 103 628Service4 450 300 225 150 150 1500Service5 36 24 18 12 12 120Total 708 491 417 285 285 2539
Ce tableau de contingence étudie les dépenses reparti selon deux critères : service et poste.
Pour tenir compte du faite que la somme des lignes et la somme des colonnes a un sens on utilise une analyse spécifique : AFC
1) Tableau des profilsa) Choix de la distance La distance euclidienne
X= (x1…………..x p)
d2(x , y) = ∑ ( xi− y i )2
Y= (…y1…………y p)
Remarque :
x1 et x2 se ressemblent (les dépenses sont proches)
X4 et x5 différents (les dépenses sont éloignées)
La distance euclidienne transcrit les distances de mesure entre les services. Pour éliminer l’effet de masse lié aux ordres de grandeur l’AFC se propose de transformer les données. On calcule alors les tableaux des fréquences à partir du tableau des effectifs
26
X1 .. X j ….. X p Total
y1 f 11 .. f 1 j ……. f 1p f 1
.. .. …….. …. …..y i f i 1 .. f ij …….. f ip f i .
.. .. ……..yn f n1 .. f nj ……. f np f n
Total f .1 .. f . j ……… f p f n .
On obtient :
Actes K Actes B Actes Z Hôtellerie Divers Total Service1 0,29 0,11 0,20 0,26 0,06 1Service2 0,32 0,21 0,14 0,23 0,10 1Service3 0,21 0,18 0,19 0,25 0,16 1Service4 0,30 0,20 0,15 0,25 0,10 1Service5 0,30 0,20 0,15 0,25 0,10 1Total 0,28 0,20 0,16 0,25 0,11 1
On observe que le service 4 et 5 ont le même profile de dépense 30% 20% 15% 25% et 10%
Remarque1 : On a utilisé la distance euclidienne entre les profils ligne pour réduire l’effet de masse.
d2 ( x i xk )=∑ ( f ij
f i .
−f kj
f k .)
2
Distance euclidienne sur les profils
Remarque 2 : Pour éliminer l’effet de masse on pondère chaque différence par un coefficient égale à l’inverse de la fréquence de la modalité colonne.
On obtient : d2 m ( x i xk)=∑ 1❑
f . j( f ij
f i .
−f kj
f k .)
2
Exemple : Enquête sur la clientèle de deux médecins
Le nombre de consultation sur un an, classé par catégorie socio professionnelle client en activité ou non (jeune chômeur, en retraite, sans profession).
Patients En activité Inactifs Total consultationMedecin1 1900 20 1920Medecin2 1910 10 1920Total 3810 30 3840
Montons que la distance euclidienne n’est pas satisfaisante.
27
Profils ligne :
Patients En activité Inactifs Total consultation X1 1900
1920
201920
1
X2 19101920
10
1920
1
Total
On obtient la distance euclidienne entre les deux profils lignes.
d2 ( x i xk )=( 19001920
−19101920 )
2
+( 201920
− 101920 )
2
= 0,00522+0,0052
Remarque3 :
Pour la clientèle active, la différence n’est que de 10 clients pour une clientèle de l’ordre de 1900.
Pour la clientèle inactive, la différence de 10 clients représente la moitié de la clientèle du médecin1.
La distance euclidienne traite la différence de la même façon.
En réalité cette différence de 10 clients est d’autant plus significative que l’effectif de la colonne est faible.
Pour éliminer cet effet, on pondère chaque différence par un coefficient égale à l’inverse de la fréquence de la modalité colonne.
On obtient : d2 ( x1 x2 ) = d2 ( x i xk )=38403810 ( 1900
1920−1910
1920 )2
+ 38403810 ( 20
1920− 10
1920 )2
Cette nouvelle distance d p est appelé distance du khi 2 ( χ2) .
Cette distance renforce le poids des variables de masse faibles c.à.d. compense les différences de poids entre les variables.
Récapitulation des distances entre les services :
28
Distance euclidienne Distance euclidienne relative
Distance du khi2
Fait ressortir l’effet de masse Elimine l’effet de masseCompense la différence de poids entre les variables
Remarque :
Lorsque deux caractères sont indépendants, les profils lignes sont tous identiques aux profils lignes moyens.
χcalculé2 = N ∑∑ ( f ij−f i . f . j )
2
f i . f . j
Le khi2 calculé sera comparé au khi2 lu sur la table de khi2
Règle :
si χcalculé2 ≤ χ lu
2 indépendance
si χcalculé2 >¿ χ lu
2 dépendance
Remarque : Du fait du rôle symétrique entre les lignes tout ce qui a été dit pour les profils lignes peut être transposé aux profils colonnes.
III- Analyse du nuage points – profils.
De la même manière que l’ACP s’intéresse aux points individus et aux points variables, l’AFC s’intéresse aux points profils colonnes pour en proposer des projections orthogonales sur les plans factoriels.
a) Nuage de ponts profils lignes
Chaque ligne est associée aux profils lignes i (f 1/ i …f j /i…f p/ i ) ce point est affecté du poidsf i.
Le centre de gravité du nuage est représenté par le point profils-lignes moyenGL.
Le centre de gravité est représenté par le point moyen Gl (f .1 …f . j ……f . p )
Règle : la distance entre deux points profils-ligne est d’autant plus faible qu’ils correspondent à des profils-lignes voisins.
Définition
1) L’inertie du point profils-ligne i est égale au produit du carré de sa distance au point GL
par son poids( f i). (GL−p )2 f i
2) L’inertie totale du nuage est égale à la somme des inerties de ce point.
b) Nuage des points profils-colonnes
On procède par une démarche analogue a celle utilisé pour les profils-lignes.
Exemple :
29
Les 500 entreprises d’un pays X ont été reparties entre 4 régions R1= Nord, R2= Sud R3= Est R4= Ouest et 3 secteurs d’activités A1= primaire A2= secondaire A3= tertiaire
A1 A1 A3 TotalR1 10 20 40 70R2 60 30 30 120R3 20 60 30 110R4 70 30 100 200
Total 160 140 200 500
Question : Calculer l’inertie totale du nuage des points profils-lignes.
Réponse :
Calculons l’inertie du pont profil-ligne R1
- Le poids de la ligne R1= 70
500
- Profil-ligne R1 : (17 ;
27 ;
47 )
- Profil-ligne Moyen : (1650 ;
1450 ;
2050)
Distance entre R1 et GL : 5016
( 17−16
50 )2
+ 5014 ( 2
7−14
50 )2
+ 5020 ( 4
7−20
50 )2
=0,17165
Inertie entre point profils-ligne R1 et GL = 0 ,17165 x 7
50 = 0,02403
De même on calcule l’inertie des lignes.
Profils-ligne Inertie correspondante R1 0,02403R2 0,03857R3 0,07740R4 0,03527
Total 0,17527
Pour mesurer la dépendance entre deux caractères, chaque profil-ligne conduit à sa dépendance par son inertie
Remarque 1: le nuage de point profil-ligne et celui des points profils- colonne ont exactement la même inertie.
Remarque2 : L’inertie totale est donnée par la formule I=χ 2n
ou n désigne l’effectif total du
tableau de contingence.
30
Cela signifie que l’inertie totale est un indicateur du nuage et permet donc de mesurer la liaison entre les deux variables.
c) Représentation graphique et interprétation
Le logiciel AFC propose :
- Une représentation graphique des points profils-lignes (graph direct)
- Une représentation graphique des points profils-colonnes (plan factoriel dual)
- Une superposition de deux graphs précédents (graph du bi plot)
*Exemple de l’interprétation de l’exemple précédent.
1) Commentaire des profils moyens (lignes et colonnes)
A1 A2 A3R1R2R3R4GL 16/50 14/50 20/50
L’histogramme associé est :
2050
1650
1450
La répartition par activité de l’ensemble des entreprises du pays X est relativement équilibrée avec une légère prédominance du secteur A3.
2) Examen séparé du graph direct et du graph dual
L’interprétation de chaque axe se fait par rapport au point qui l’attire.
L’interprétation des distances entre point se fait en termes de similitude ou en termes de profil.
Remarque : Pour minimiser le risque d’erreur d’interprétation, on peut utiliser les indicateurs fournis par le logiciel d’AFC.
cos2: Pour la qualité de la représentation.
Q¿ : Qualité de la représentation sur le plan factoriel.
31
A1 A2 A3
3) Examen simultané des deux graphs (direct et dual)
La superposition des deux graphs s’interprète en termes d’attirance ou de répulsion entre les modalités des deux variables.
Exemple : du bi-plot
La proximité de A2 et R3 d’une part, A1 et R2 d’autre part confirme :
Le poids important du secteur secondaire (A2) dans la région Est (R3) celui du secteur primaire (A1) dans la région Sud (R2).
Les activités du secteur A3 sont généralement reparties entre les régions du Nord (R1) et la région Ouest (R4).
IV- Interprétation d’un cas concret d’AFC
Enoncé : une enquête a été effectué par des étudiants au près de 1392 personnes âgés de 5 ans et plus. Les 2 questions suivantes ont été posées :
- Quel est votre âge (en années révolues) ?
- A quelle activité de loisir vous adonnez vous le plus volontaire ?
LoisirAge lecture cuisine Télévision Restau Spectacle Sport Autres Total
5-14 10 53 132 1 22 31 7 25615-24 16 81 64 5 35 62 12 27528-39 19 76 37 10 64 41 38 28540-59 17 50 76 35 73 29 42 322
32
Axe2 (36%)
Axe1 (64%). .
A1 R2
. R1
A3 .
R4 .
.R3
.A2
60 ans + 23 25 103 22 57 5 15 254Total 85 285 412 73 251 172 114 1392
Les réponses ont été traité par un logiciel d’AFC et les résultats suivants on été obtenu :
Indicateur d’écart à l’indépendance du khi2 = 274,73
Axe factoriel Taux d’inertie % Taux d’inertie cumulé
1 48,5 48,52 45,1 93,63 3,3 96,94 31 100
Nuage des points profils-lignes et profils-colonnes (bi-plot)
60ans et +
40-59 ans
5-14 ans
48,5
25-39 ans
Axe1 Tableau profils-lignes Axe2Tranche d’âge Contribution Tranche d’âge Contribution 5-14 56,2% 60 ans + 39,7%25-39 20,5% 15- 24 ans 37,8%40-59 20,1%
33
Restaurant
Télévision •
• lecture
• spectacle
• Autres
Cinéma •
15-24 ans
• Sport
Axe1 Tableau profils-colonnes Axe2Loisir Contribution Loisir Contribution Television 49,4% Sport 32,7%Autres 22,4% Cinéma 27,3%Spectacle 15,1% Restau 18,8%Restau 12,4%
Le logiciel fournit un QLT élevé (vision d’1) pour tous les points à l’exception du point « lecture » sur le plan dual (QLT = 0,27)
Commentaire sur les profils-moyens
Profils ligne moyen : la distribution marginale des loisirs tout âge confondu fait apparaitre une nette prédominance de la télévision mais également la place importante du cinéma et du spectacle.
Profils-colonne moyen : Les effectifs par classe d’âge sont assez voisins mais cela tient à l’amplitude variable des classes.
Qualité globale de représentation et qualité de représentions de chaque point.
L’indicateur d’écart à l’indépendance de khi2 est 274,73 traduit s’il existe une dépendance significative entre l’âge et loisir.
Tous les points variables sont bien représentés (QLT proche de 1) à l’exception de lecture (QLT = 0,27). Lecture étant très proche de l’origine il est préférable de ne pas l’interpréter dans ce plan factoriel.
*Graph direct.
L’axe1 oppose les enfants (5-14 ans) aux adultes actifs (25-39 ans) et (40-59 ans).
L’axe2 oppose les adolescents (15-24) aux personnes âgés (60 ans et +).
Les profils de loisir sont tres différent suivant les tranches d’âge (forte dispersion des points). On peut faire apparaitre une évolution tres net en cheminant (chronologiquement) d’un point à un autre.
*Graph dual :
L’importance de la modalité autres peut éventuellement nécessiter de faire une AFC à l’intérieur de cette modalité.
L’axe1 oppose télévision au spectacle et restau c.à.d. une activité peu couteuse à des activités couteuses.
L’axe 2 oppose le sport et le cinéma au restau. Il est cependant un peu plus difficile de donner un sens à cet axe. On peut par contre les relier aux activités de tranche d’âge.
*Graph superposé
34
Cette superposition permet d’éclairer l’évolution de la structure de loisir par tranche d’âge, si la télévision a la faveur des classe de 5 à 14 ans la majeur partie des amateurs de sport et de cinéma se situent parmi les 15-24 ans (attirance) par ailleurs peu friand de restau (répulsion).
Il ne faut pas croire hâtivement que les 14-24 ans sont plus sportifs que cinéphiles. Un bref retour au tableau de contingence montre qu’il n’en ait rien pour les 15-24 ans (81pour cinéma et 62 pour le sport). Cela s’explique par les attractions de tous les points de l’autre nuage. Les 25-39 ans s’emblent être attiré plus particulièrement par le cinéma et le spectacle. Les 45 59 constituent l’essentielle des personne fréquentant les sales de spectacle mais subissent également les attractions combinées d’autres activités comme autres et restaurant. Les 60 ans et plus, tout en fréquentant les restaurants, rejoignent les enfants devant la télévision.
35
CHAP IV : ANALYSE DES CORRESPONDANCES MULTIPLES (ACM)
L’ACM est un cas particulier de l’AFC.
I- Principe de l’analyse des correspondances multiples
On sait que l’ACP permet de traiter l’étude d’une population sur laquelle plusieurs variables quantitatives sont définies.
- L’AFC permet de traiter l’observation simultanée de deux variables qualitatives ou quantitative découpé en classe.
- L’ACM s’intéresse aux cas ou la population considérée est composé de plusieurs variables qualitatives (généralisation de l’AFC).
Soit Ω une population de ɳ individus sur laquelle on définit P variables (X1 ,… X j… X p )
Si X j(pour J=1……p) est une variable qualitative alors on supposera que ses m j modalité
sont notés : x j 1. … x jmj
- Si X j est une variable quantitative on supposera que les valeurs observées sont reparties m j classe ainsi pour tout individu ɷ appartenant à Ω et pour toute variable X j on a :
X(ɷ) Є {x j1 …, x jmj . } avec comme codage x jh={10 avec X j (ω)=x jh{10- 1 si la modalité est observé
- 0 si non
Variable X1 Xj ….. Xp ∑ .Modalité x11
…. x1 h….
n1m1 x j 1… x jh
… x jmj X p 1… X ph X pmp
Indiv 1 nn11 nn11 nn11 n1 j11 n1 jh n1 jnj n1 p 1 n1 php n1 pnpP
Indiv i nn11 nn11 nn11P
Indiv n nn11 nn11 nn11P
∑ .
Exemple : supposons qu’il ait 3 variables dans une étude.
X1 = sexe ; X2 = taille et X3 = âge avec les modalités suivantes :
36
X1=¿ {x11=Hx12=F X2=¿ X3={ x31=[ 0 ;18 ]
x32=¿18 ;30¿
¿¿ x33=¿30 ;50]¿ x34=¿50;+∞ ¿
Et on considère 4 individus de la population ayant les caractéristiques suivantes :
Individu 1 : homme de 1,67m et 27 ans
Individu 2 : femme de 1,59m et 31 ans
Individu 3 : femme de 1,72m et 29 ans
Individu 4 : homme de 1,83m et 45 ans
Var Sexe Taille Age Total Indiv H F x21 x22 x23 x24 x25 x26 x27 x28 x31 x32 x33 x34
Indiv 1 1 1 1 3Indiv 2 1 1 1 3Indiv 3 1 1 1 3Indiv 4 1 1 1 3
Total 4 4 4
Remarque : Toutes les techniques développées pour l’AFC seront donc applicables à l’ACM et l’analyse, celle de l’AFC.
II – Caractéristiques des indicateurs de l’AFCM
Comme dans le cas de l’AFC le graph les individus et des modalités peuvent être superposé et les proximités (non fortuites) peuvent être sujettes à interprétation.
L’analyse peut être rendu délicate par :
a) Les analyses des correspondances multiples qui portent en générale sur des populations par fois impotente.
b) Le nombre de colonnes qui correspond au nombre de modalité toute variables confondu est lui-même assez élevé (on peut avoir plus de modalités que d’individus) ce qui conduit a un nombre important d’axe factorielles porteur de part relativement faible de l’inertie total. En fait l’AFCM présente un intérêt plus dans les révélations de proximité entre modalités entre individus ou encore entre individus et modalités plutôt que sur l’interprétation des axes qui est en général impossible.
1) Distance entre deux individus
Considérons deux individus ωiet ωk
V 1 V j V p ∑ .
37
Modalité 1
ωi nij 1 nijh nijnj
ωk nkj1 nkjh nkjnj
∑ . n. j 1 n. jh n. jmj np
La distance du khi-deux entre les deux individus ωiet ωk est :
d2=∑j=1
f
∑h=1
m j 1n . jh
( nijh
P−
nkjh
P )2
La distance est nulle pour deux individus qui possèdent les mêmes modalités (n ijh=nkjh ) pour
chacune des variables.
Cette distance est max pour deux individus qui ne possèdent jamais la même modalité observée c.à.d. nijh=1 et nkjh=0 ou inversement.
dmax2 = 1
P2∑j=1
f
∑h=1
m j 1n. jh
Conclusion : la distance du khi-deux est donc comprise entre 0 etdmax2 .
Exemple : considérons une étude qui s’intéresse et 3 variables : Sexe, état de santé et âge.
On obtient les informations concernant 4 individus sur 100 personnes enquêtées :
Sexe Etat de Santé Age ∑ . H F Mauvai
s Moyen bon <30 31à 50 51 et +
1 1 0 1 0 0 0 1 0 32 1 0 0 1 0 0 1 0 33 1 0 0 0 1 1 0 0 34 0 1 0 0 1 1 0 0 3
∑ . 48 52 1 1 98 30 45 25 300
Distance entre les individus 1 et 2
d2 (ω1 ω2)¿= 148 ( 1
3−1
3 )2
−11 ( 1
3−0
3 )2
+ 152 ( 0
3−0
3 )2
+ 11 ( 0
3−1
3 )2
+ 198 ( 0
3−0
3 )2
+ 130 ( 0
3−0
3 )2
+ 145 ( 1
3−1
3 )2
+ 125 ( 0
3−0
3 )2
= 19+ 1
9
38
d2 (ω1 ω2)=29
2) Distance entre deux modalitésd ' unemême variableV j
V j
Modalité
x ji … x jk x jh x jmj
1
i. nij 1 nijk nijnj
ωk
∑ . 1 1
d2 ( x jk , x jh )=∑i=1
n1p ( nijh
n. jk
−nijh
n. jh)
2
On a nécessairement :
1= nijh ≠ nijk=0ou 0=nijh ≠ nijk=1ou encore nijh=nijk=0
d2 ( x jk , x jh)= 1p∑i=1
n
( 1n . jh
)2
+ 1p∑i=1
n
( 1n . jk
)2
¿ 1p
∑V ∈Ωjh
.
( 1n . jh )
2
+ 1p
∑ω∈Ωjk
.
( 1n . jk )
2
Avec Ω jh={ωi∈Ω /1=nijh et nijk=0}
Ω jk={ωi∈Ω /1=nijk et nijh=0}
d2 ( x jk , x jh)= 1p ( 1
n . jh )2
∑ωi∈Ωjh
1+ 1p ( 1
n . jk )2
∑ωi∈Ωjk
1
Pd2 ( x jk , x jh)= 1n jh
+ 1n jk
La distance maximale dmax2 est égale au cas où n. jh=n . jk=1 c.à.d. dmax
2 = 2p
3) Distance entre deux modalités de 2 variables différentes.
V j V t ∑ . x jh x tk
39
d2 ( x jh x tk )=∑i=1
n1p ( nijh
n . jh
−nitk
n.tk)
2
4) Liaison entre variables
L’AFCM est une méthode permettant la mise en évidence de liaisons éventuelles entre des variables. Ces liaisons ne sont pas nécessairement linéaire ni fonctionnelle. ( les variables peuvent ne pas être quantitatives).
Exemple : considérons 20 individus et 4 variables.
Sexe Age Dépense de santé Dépense loisir H F < 20 20-50 >50 <2000 2000-
3000>3000 <2000 2000
- 5000
>5000
abcd
11
11
11
11
111
11
11
Le résultat d’un AFCM fournit par un logiciel d’analyse de données propose les résultats suivants :
40
41
H = homme
F = femme
A1 : âge < 20
A2: 20 ≤ age≤ 50
A3: age>50
S1: dépense santé <2000
S2: 2000 ≤ d é pense sant é ≤ 3000
S3 : Dépense santé > 3000
L1 : Dépense loisir < 2000
L2 : 2000≤ dépense loisir ≤5000
L3 : Dépense loisir > 5000
Question ; Analyser ce résultat
Correction :
Ce graph permet de mettre en évidence quelques points important :
- Les dépenses de santé les plus importantes sont le faite des classes d’âge extrêmes (A1 A3) en revanche la classe d’âge intermédiaire (A2) correspond au dépenses de santé les plus faibles.
- Les dépenses de loisir ne semblent pas être influencées par les classes d’âge.
- Les femmes ont des dépenses de loisir élevé alors que celles des hommes est relativement faibles.
42
CHAP : ANALYSE DISCRIMINANTE AD
L’analyse discriminante (AD) cherche à décrire pour une population donnée les liaisons existant entre une variable qualitative et plusieurs variables quantitatives.
Elle permet également pour un individu de prévoir la modalité de la variable qualitative correspondant à des valeurs données des variables quantitatives.
I- Principe de l’analyse discriminante
Une population de grand N individu est observé sous l’angle :
- D’un caractère qualitatif à k modalités permettant de distinguer k groupe d’individus ;
- De p variables quantitatives
On cherche la combinaison linéaire de p variables quantitatives qui discrimine ou sépare au mieux le groupe c a d qui prennent des valeurs :
- Proche pour les individus du même groupe
- Eloigné pour des individus de deux groupes différents
Exemple : considérons une population qui sera observer sous l’angle de deux variables quantitatives x1 et x2 et d’un caractère qualitatif à 3 modalités : 3groupes sont donc définis.
Chaque individu est sur le graphique par le n* du groupe auquel il appartient.
43
Remarque1 : L’axe (ox1) sépare mal les projections : groupe 2 et 3
Remarque 2 : Lorsque le caractère qualitatif retenu ou défini k groupe d’individus, on peut définir (k-1) fonctions discriminantes que le logiciel d’AD détermine dans l’ordre décroissant de leur pouvoir discriminant.
Remarque3 : si l’ACP décrit la population concerné, l’AD se propose de séparer des groupes d’individus définis à priori (classification supervisée)
II- Analyse discriminante à deux groupes : Application aux fonctions scores
Lorsque le caractère qualitatif définit seulement deux groupes d’individus, la fonction discriminante peut être obtenue en faisant une régression multiple :
- Y = variable qualitative sera transformé en une variable quantitative
y i=1 sil' individu i possedela modalité
y i=0 si l' individui ne possede pas la modalité
x1 , x2 …….x p les P variables explicatives mesuré sur chaque individu.L’équation de régression linéaire est obtenue par la méthode des moindres carrés (fonction discriminante recherché). Son pouvoir discriminant est mesuré par le coefficient de corrélation multiple.
R2= variableexplicativevariable totale
=1− variable residuvariable total
Exemple on considère 10 entreprises sur lesquelles on a une étude portant sur :
- 4 variables quantitatives : x1 , x2 , x3 , x4
Elles correspondent aux valeurs prise par 4 ratios calculés à partir des documents de synthèse de l’exercice N.
- Un variable qualitative a été transformé en une variable quantitative Y prenant la valeur 1 pour les entreprises saines et la valeur 0 pour les entreprise défaillantes.
- Les résultats de l’enquête sont les suivantes :
x i1 x i
2 x i3 x i
4 y i.
1 0,34 0,37 0,31 0,50 12 0,21 0,27 0,26 0,68 03 0,08 0,42 0,54 0,41 14 0,18 0,33 0,38 0,52 05 0,12 0,39 0,42 0,53 06 0,44 0,26 0,33 0,25 17 0,32 0,44 0,42 0,31 18 0,07 0,09 0,47 0,82 0
44
9 0,31 0,21 0,59 0,65 110 0,11 0,54 0,35 0,71 0
- La fonction discriminante appelé ici fonction score est construite pas à pas : les variables explicatives sont introduites successivement en commençant par celle qui est la plus fortement corrélé avec la variable expliqué.
- Une entreprise sera présumé défaillante si son score est inferieur à 0,5 (Remarque : y=0,5)
- Si le coefficient de corrélation de seuil de y avec chacune des variables explicative est connues, on commencera la sélection avec celles ayant la plus forte corrélation.
r ( y , x1 )=0,657 ;r ( y , x2 )=0,065 ;r ( y , x3 )=0,316 ;r ( y , x4 )=0,664
Fonction score à une variable ; x4
y=a. x4+b On obtient y=−1,132 x4+1,540 avec r=−0,664
Pour évaluer le nombre d’entreprises mal classées de l’échantillon on compare y i avec les
valeurs réelles y i . On pose :
S : Si l’entreprise est présumée saine
D : si l’entreprise est présumée défaillante
Entreprise 1 2 3 4 5 6 7 8 9 10Situation réelle Yi
1 0 1 0 0 1 1 0 1 0S D S D D S S D S D
Situation présumée y i
0,57 0,23 0,75 0,53 0,52 1,06 0,94 -0,04 0,28 0,17
S D S S S S S D D D
On obtient trois entreprises sur dix mal classées par la fonction score à une variable. On introduit une variable explicative supplémentaire pour améliorer le coefficient de corrélation et diminuer le nombre d’entreprise mal classés.
On obtient :
y=a1 x1+a4 x4+b Ce qui donne y i=−1,299 x4+1,422 x1+0,86 avec|R|=0,762>|r|=0,664
On obtient :
Entreprise 1 2 3 4 5 6 7 8 9 10Situation reelle Yi
1 0 1 0 0 1 1 0 1 0S D S D D S S D S D
Situation présumée y i
0,98 0,28 0,46 044 034 1,16 0,91 -0,11 0,46 ,009
S D D D D S S D D D
On obtient ici deux entreprises sur dix sont mal classé par la fonction score à 2 variables.
45
Fonction score à trois variables : x4 x1 x3
y=a4 x4+a1 x1+a3 x3+b
On obtient : y i=−1,101 x4+2,172 x1+2,909 x3−0,609
On obtient :
Entreprise 1 2 3 4 5 6 7 8 9 10Situation réelle Yi
1 0 1 0 0 1 1 0 1 0S D S D D S S D S D
Situation présumée y i
092 -0,14 0,68 0,32 0,29 1,03 0,97 0,007 1,07 -0,13
S D S D D S S D S D
Ici aucune entreprise n’est mal classé et le pouvoir discriminant de cette fonction score à
trois variables peut être jugé satisfaisant |R3|=0,93 il n’est donc pas nécessaire d’introduire
la variablex2.
Remarque : L’AD n’est pas seulement une méthode descriptive, mais elle est également décisionnelle.
46
Prénoms Sexe Taille âge Poids QuestionMarie Féminin 1,65 28 57 ouiAwa Féminin 1,67 32 62 NSPAbdou Masculin 1,71 33 73 nonMichel Masculin 1,73 40 69 nonJeanne Féminin 1,63 38 65 ouiMoussa Masculin 1,8 27 81 ouiAllou Masculin 1,77 29 76 nonPenda Féminin 1,64 42 56 nonRobert Masculin 1,83 36 75 NSPPaul Masculin 1,79 35 79 NSP
NSP : ne se prononce pas
47
Recommended