20
Yassine EL BOUCHIKHI - 1 – Etudes quantitatives par M. Stephane Magne

1 -  · Analyse de données 5- Rapport EDM et recommandations. Yassine EL BOUCHIKHI - 3 – Etudes quantitatives par M. Stephane Magne ... ACP « Analyse en composantes principales

Embed Size (px)

Citation preview

Yassine EL BOUCHIKHI - 1 – Etudes quantitatives par M. Stephane Magne

Yassine EL BOUCHIKHI - 2 – Etudes quantitatives par M. Stephane Magne

Analyse quantitative Données concérnées : enquetes ou indicateurs économiques Logiciels utilisés : SPSS ou Sphinx Lexica Shéma du cours : 1- Choisir la méthode d’analyse de données 2- Savoir utiliser SPSS 3- Intérpréter les listings des résultats SPSS

Cours 1 : Le choix d’une méthode d’analyse de données Rappels sur la démarche d’une EDM

Q1 : quels sont les objecttifs de l’étude ? Q2 : quel est le type de données à analyser ? Q3 : quelle méthode choisir ?

1- Définir le probléme à résoudre Objectifs de l’étude : Approche Quali / Quanti

2- Analyse documentaire

3- Terrain Quali 4- Terrain Quanti

Entretiens libres, et semi-directifs « guide d’entretien »

Réunions de groupe « Guide d’animation »

Population échantillon (méthodes aléatoires ou

empiriques »

Rédaction du questionnaire Pré-test

Administration du questionnaire

Analyse de contenu VERBATIM

Analyse de données

5- Rapport EDM et recommandations

Yassine EL BOUCHIKHI - 3 – Etudes quantitatives par M. Stephane Magne

Projet à faire Pour les études Quantitatives:

Rapport à remettre pour le 4 mars 2004, Mesurer la perception d’un nouveau service (loisir, ou culture) pour le consommateur.

1. Constituer un groupe de 4 personnes 2. Choisir un nouveau service 3. Recherche documentaire compléte (tendance du marché, produits, services,

concurrents…) 3 à 5 pages avec source et année. 4. Elaborer un guide d’entretien (Réaliser 3 entretiens individuels par personnes

intégralement enregistrés et retranscrits sur Word). 5. Analyse de contenu thématique (Manuelle ou sous sphinx Lexica) 6. Receuillir et analyser les données : - Analyses univariées « Sphinx lexica » - Analyses bivariées « Sphinx Lexica » - Analyses multivariées « SPSS » - Graphiques sous « Microsoft Excel » - 30 Questionnaire par personne 7. Rédiger le rapport et les principales recommandations « 5 Pages minimum »

Notre sujet : La vente de meubles sur Internet

Yassine EL BOUCHIKHI - 4 – Etudes quantitatives par M. Stephane Magne

ITEM : Libéllé

L’échelle

EX : Question 1 : Les jeans CK sont-ils confortables ?

1 2 3 4 Pas du tout

d’accord Plutot pas

Plutot d’accord

T out à fait

d’accord

utilitaire

CK

élégance

Mapping « Cartographie : Dimensions perceptuelles »

Levi’s

Roberto

V Explicative 1V Explicative 2V Explicative 3

Variable à expliquer

1- Les objectifs de l’étude : 1-1 : Les deux grands types d’EDM :

Les études descriptives Les études explicatives « Pourquoi » Il s’agit de réduire, c’est à dire décrire le marché sur 2 dimensions maximum, et Classer.

Var V1 V2 V3 V4 Vn 1 2 6 5 4 6 2 1 6 4 8 1 N

Tableau de données Brutes Profil de réponse Dépouillement : prendre les données du questionnaire pour les mettre dans un tableau de données brutes.

Il s’agit d’expliquer « La baisse du CA » ou e prédire « évaluer le risque d’accorder un crédit »

Question = ITEM + Echelle de mesure Nom de la variable : CONFO Les modalités de réponse Ancrage numérique : 1, 2, 3, 4, etc.. Ancrage verbal : Oui, Non, Pas du tout, etc..

1-2 : Les objectifs et les méthodes : Réduire : ACP « Analyse en composantes principales », AFC « Analyse factorielle des correspondances » Classer : Typologies et classifications (hiérarchiques et non-hiérarchiques)

Expliquer : Régressions simples, multiples, linéaires ou non linéaires, analyse de la variance. Prédire : Analyse discriminante Méthodes Logit, Probit, Etc…

Dimension 1

CL BNP

Dimension 2

Réduire

Yassine EL BOUCHIKHI - 5 – Etudes quantitatives par M. Stephane Magne

47.5 +3-3

R =0-1 +1

Fort Fort

0.5 -0.5

Age Age Age

Revenu Revenu Revenu

1 2 3

2- Quel est le type de données à analyser ? : 2-1 : Le nombre de variables présentes dans l’étude :

Nombre de variables

Type d’analyse

1 Variable • Analyse univariée • Tris à plat • Etude de la distribution • Tendance centrale et

dispersion

Ex illustratifs :

⌧ = 47.5 Moyenne // Dispersion Ecrat type = + 3 ou – 3 (Comment ça varie autour de la moyenne) Tendance centrale = âge moyen

2 variables Analyse bivariée Tris croisés Mesures d’association entre 2 Var Tests statistiques pour vérifier si l’association n’est pas due au hasard.

Ex : âge et revenu Coefficent de corrélation r

Si r (age/revenu) évoluent dans le même sens avec r ≥ 0.5 On dit alors que les deux variables sont fortement liées Alors on obtient soit :

1 : Liées évoluent dans le même sens 2 : Liées évoluent dans un sens différent 3 : r = 0 il n’existe pas de lien (pas de corrélation) Tableau de contingence : l’intersection d’une ligne et d’une colonne contient un nombre de personnes, et la somme des lignes et des colonnes a un sens, on applique la méthode AFC.

+ de 2 variables • Analyse multivariée : traiter simultanément un ensemble de variables Echelle au choix forcé : Elle vous oblige à faire un choix on ne peut être neutre (+ ou -)

2-2 : La nature des variables à analyser : Nature de la Var Définition Exemple Nominale « catégorielle »

Elle sert d’étiquette, aucune hiérarchie n’existe entre les modalités. Elle peut être dichotomique « Oui – Non » /// mutli-chotomique « QCM »

Situation de famille Oui – NON – NSP Mars – Twix – Lion

Ordinale Lorsqu’il existe un ordre entre les modalités mais les intervalles ne sont pas égaux.

Classez ces critéres par ordre d’importance : 1 le plus important jusqu’à 3 le moins important

Yassine EL BOUCHIKHI - 6 – Etudes quantitatives par M. Stephane Magne

Pas du tout d’accord

Pas D’accord

Sans opinion Plutot d’accord

Tout à fait d’accord

1 2 3 4 5 6

1 2 3 4 5 6

Ecoeurante Bonne

107-3

216-2

325-1

4340

5 4 3 1

6 5 2 1

1 2 3 4 5 6

Je n’achéterai certainement pas Mars

7J’achéterai certainement Mars

Echelle Echelle de likert (Aptitude) :

Sémantiques différentielles (images de marque) :

Echelle d’intervalle « Intervalles égaux avec origine arbitraire » Pseudo-Intervalle :

Echelle de STAPEL : +2 +1 Solidité de la marque A -1 -2 Icones ou « Smiling Faces » : Bon pour les enfants et les personnes ayant du mal à s’exprimer

☺ Les echelles à support sémantique :

Ex : Comment évaluez-vous la solidité de la marque A ? (Voir au-dessus) Les echelles d’intention d’achat : Ex : Envisagez-vous d’acheter la marque Mars lors de vos prochains Achats ? (Voir en dessous)

Les probabilités subjectives : Ex : Combien y’a t’il de chances que vous achetiez la marque Mars lors de vos prochains Achats ? « De 0 à 100 % de chances » Echelle a Ratio : Intervalles égaux et présence d’un zéro naturel à l’origine, Lorsque le 0 a un sens. Ex : Température °C, Vitesse en KM/H, Poids, Taille, Volume, etc.. Les sommes constantes Ex : Vous avez 10 points à répartir entre les marques Mars et Twix en fonction de vos préférences, Combien donneriez vous à : Mars ….. Twix ……

1 2 3 4 5 6

Excellent Très bonne Bonne Moyenne Faible Mauvaise

7

Très Mauvaise

Yassine EL BOUCHIKHI - 7 – Etudes quantitatives par M. Stephane Magne

2-3 : Niveau de mesure des variables :

Qualitatives // Non - métriques Quantitatives /// Métriques Echelle nominale « catégorielle » Echelle d’intervalle

EX : N° INSEE, CSP, Type de Magasin, Statut matrimonial, QCM, Oui-Non, etc… Stat : Tendance centrale, Mode, Tendance de dispersion, Fréquence.

EX : Température en °C, Echelle de Likert, etc… Stat : Moyenne, Ecrat-type

Echelle ordinale Echelle de Ratio – Rapport – Proportion EX : Nombre d’étoiles d’un hotel, Classement préférentiel entre marques, etc… Stat : Médianes, Fractiles.

EX : Age, Revenu, CA, Part de marché, probabilités subjectives, etc… Stat : Moyenne, Ecrat-type

Pour ne jamais se tromper sur les modalités

Ex : Analyse sur revenu Q1 : quel est votre revenu ? Possibilité 1 : 4500 euros On peut calculer la moyenne « Salaire moyen »

Possibilité 2 : Votre tranche de revenus 0 – 1500 euros 1500 - 3000 euros on peut calculer le mode « salaire moyen »

Intervalles égaux entre catégories ?

Sont-elles ordonnées ?

Y’a t’il un zéro naturel ?

Nominales

Ordinales

Intervalle

Ratio ou proportion

Départ NON

NON

NON

OU

I O

UI

OUI

Yassine EL BOUCHIKHI - 8 – Etudes quantitatives par M. Stephane Magne

AFC : Analyse factorielle des correspondances

ACP : Analyse en composantes principales

Mode hébérgement

CSP

Budget Pub

CA

COEF CorrélationTEST de KHI-2

Seront résumés sur un même axe factoriel « facteur ou composante » = axe esthétique. Appréciation esthétique de l’agence bancaire CL Axe 1 = α1 Locaux + α2 Décor + α3 Mobilier + ε « erreur » α1 + α2 + α3 = Le poids ou contribution

3- Quels sont les méthodes à utiliser ? : 3-1 : Les méthodes factorielles : Méthodes factorielles MMMéééttthhhooodddeeesss dddeeessscccrrr iiipppttt iiivvveeesss

Carte factorielle, Mapping Var Quali – Quali Var Quanti « Métriques »

Plan ACP – Décrire et réduire :

a. A quelles données appliquer l’analyse ? b. Les données sont-elles factoriasables ? c. Combien de facteurs retenir ? d. Comment intérpréter les résultats ? e. Conclusion : les risques de l’ACP

Déf. Il s’agit de décrire et de réduire, Ex : Livre de 500 pages à résumer en 2 pages. Pour simplifier Pour le logiciel

1- Retenir les idées importantes 2- Regrouper les idées semblables « Synthése » 3- Proportion 4- Eliminer ce qui n’a pas d’importance

1- Recherche des tendances 2- Regroupe les Variables qui se ressemblent 3- Pourcentage de l’information % 4- Eliminer les variables qui n’apportent pas

l’information Exemple illustratif : Enquete sur une banque CL Q1 ou Var 1: ‘’J’aime beacoup les locaux de cette banque’’ Q2 ou Var 2 : ‘’J’adore le décor de cette agence’’ Q3 ou Var 3 : ‘’Je déteste le mobilier de cette banque’’

Individus / VAR Var 1 Var 2 Var 3 Var 4 Var 5 1 1 6 4 8 1 2 2 4 5 9 0 3 5 4 3 2 1 .. … … … .. …

1000 … … … .. …

Tableau de données brutes

Yassine EL BOUCHIKHI - 9 – Etudes quantitatives par M. Stephane Magne

Droite de régression

Budget Pub

CA

Y = a X + b CA = a Pub + b

X

Budget / An

CA

r = 0

OUI

Espace

NON

Absence de direction d’allongement principale, équivaut absence d’une

corrélation globale r = 0.

Sphére, Aucune direction ou axe n’est privilégié.

Corrélation = OUI

Objectifs de la méthode :

- Résumer l’information et se demander quelles sont les variables les plus importantes. - Mesurer le consensus « Ecart-type » entre les variables - Quelles sont les variables qui différencient le mieux les individus ? - Créer de nouvelles variables synthétiques indépendantes - Fournir 2 représentations graphiques.

a. A quelles données appliquer l’analyse ? *** SEULEMENT les données QUANTITATIVES dites METRIQUES :

- Variables d’intervalle - Variables de Ratio

*** ELIMINER les données ABERRANTES : - Les variables à valeurs extremes (Très fortes ou très faibles) - Les individus pour lesquels les non-réponses sont nombreuses

ATTENTION : Les données abérrantes risquent de fausser l’analyse !!!

b. Les données sont-elles factorisables ? Premiére régle : Le BON SENS Données liées à un même phénoméne pour pouvoir y chercher les dimensions communes. Ex : Satisfaction et qualité de service // Attitude envers une marque et indicateurs économiques.

Yassine EL BOUCHIKHI - 10 – Etudes quantitatives par M. Stephane Magne

KMO

1 « OK Factorisable » NON ! pas factorisable 0 0 5

AXE : F1

AXE : F2

2 AXES : F1 et F2 Plan factoriel (1,2)

AXE : F1

AXE : F2 3 AXES : F1 et F2 et F3 On aura 3 Plans factoriels : (1,2) et (1,3) et (2,3)

AXE : F3

Deuxiéme régle : Les TESTS

1- Le MSA « Mesure of sampling adequacy » appelé KMO de KAISER (MEYER et OLKIN sous SPSS) Qui doit tendre vers 1.

2- Le test de sphérécité de BARTLETT. Très significatif : Signification = 0.0000 Significatif : Signification < 0.05 Acceptable : 0.10 > Signification > 0.05 Rejet : Signification > 0.10

Troisiéme régle : Les CORRELATIONS entre variables Calculer une matrice de corrélations entre variables.

- 1er CAS : Les coefficients de corrélations sont FORTS > │0.5│ OK

- 2ème CAS : Les coefficients de corrélations sont FAIBLES < │0.5│ Les Variables ne mesurent pas un phénoméne commun et ne sont pas factorisables

c. Combien de facteurs retenir ?

Avec 4 Axes : ça nous fera 6 plans factoriels.

Yassine EL BOUCHIKHI - 11 – Etudes quantitatives par M. Stephane Magne

Premiére régle : La RESTITUTION MINIMALE souhaitée par le chargé d’études (se fixer un seuil minimal de restitution d’information ou POURCENTAGE de VARIANCE). Ex : On veut que les 2 axes retenus fournissent au moins 80% de l’information initiale, si tel n’est pas le cas, il faut conserver l’axe suivant jusqu'à obtention du pourcentage fixé. Deuxiéme régle : Régle de KAISER sur l’information restituée pour chaque facteur, il faut retenir les facteurs aux valeurs propres supérieures à 1 (λ > 1). Troisiéme régle : Examen de la courbe des valeurs propres (SCREE-TEST ou TEST DE COUDE) Le shéma doit ressembler à une falaise pour la régle graphique. On retient les facteurs avant le changement de concavite : Point 3. d. Comment intérpréter les résultats ? Il s’agit de la phase la plus DELICATE de l’analyse de données = Donner des noms aux AXES. Il faut procéder en 3 temps :

1. Examen des corrélations et de la qualité de représentation des variables. 2. Projections des variables. 3. Projection des individus.

1- Examen des corrélations « Variables / Facteurs » F = α1V1 + α2V2 + α3 V3 +……+ ε α1 + α2 + α3 = contribution de la variable dans la formation de l’AXE.

Variables // Facteurs F1 F2 V1 0.95 0.20 V2 0.85 -0.15 V3 0.10 0.75 V4 0.05 0.70

Tableau : MATRICE DES COMPOSANTES

Graphique des valeurs propres

12

34 5 60

0.5

1

1.5

2

1 2 3 4 5 6

Component number

Vale

ur p

ropr

e

Yassine EL BOUCHIKHI - 12 – Etudes quantitatives par M. Stephane Magne

Objectif: Répérer quelles variables sont les plus liées à l’axe à intérpréter pour comprendre la logique des combinaisons entre les variables. Ex : L’AXE F2 : F2 = 0.75 V3 + 0.70 V4 + ε F1 = 0.95 V1 + 0.85 V2 + (0.10 V3 + 0.05 V4). La régression multiple : Y = a1X1 + a2X2+… + ε Méthode d’extraction : ACP = Analyse en composantes principales. 2- Projections des variables : (Tableau de la MATRICE DES COMPOSANTES)

Un mauvais critére est proche du cercle de corrélation Il existe 2 types de Mappings : Projection de variables et projection des individus, Il est dangereux de projeter les variables et les individus sur une même carte factorielle.

Les Var les plus intéréssantes Les Var les moins intéréssantes Proches d’un axe et proches du bord du cercle de corrélations (De centre O et de

rayon 1).

- Variable proche du centre du cercle (contribue peu à forger l’axe)

- Variable au milieu d’un quart de cercle (contribue à la formation de plusieurs axes)

Carte Factorielle F1 & F2

-1.3

-1.05

-0.8

-0.55

-0.3

-0.05

0.2

0.45

0.7

0.95

1.2

-1.2 -0.95 -0.7 -0.45 -0.2 0.05 0.3 0.55 0.8 1.05

F1

F2

+1-1

Cr 4

Cr 3

Cr 2

Cr P

&

AXE critére P

I

OP2 = PI2 + IO2

On se trouve dans le cercle de corrélations

Yassine EL BOUCHIKHI - 13 – Etudes quantitatives par M. Stephane Magne

Méthodes DESCRIPTIVES Méthodes EXPLICATIVES

Variables métriques Combien de variables à expliquer ? Plus

Une V

oir C

hapi

tre s

uiva

nt s

ur le

s cl

assi

ficat

ions

Métrique ?

OUI NON

Variables explicatives métriques

Variables explicatives

non-métriques

OUI NON OUI NON

OUI NON

Ordinales ?

OUI NON

Typo

logi

e

AC

P

Ana

lyse

des

sim

ilarit

és e

t de

s pr

éfér

ence

s

AFC

Rég

ress

ion

linéa

ire

Anal

yse

de la

va

rianc

e

Anal

yse

disc

rimin

ante

Anal

yse

conj

oint

e

Les variables qui sont à éliminer :

Var // Facteurs F1 F2 F3 V1 0.95 0.1 0.05 V2 0.85 0.15 0.1 V3 0.25 0.75 0.15 V4 0.27 0.70 0.2 V5 0.1 0.15 0.20 V6 0.45 0.55 0.10 V7 0.01 0.05 0.95

MATRICE DES COMPOSANTES 1er CAS : V5 Corrélations faibles. 2ème CAS : V6 Corrélations partagées. 3ème CAS : V7 F3 = 0.95V7 λ < 1 ( une Variable sur un seul Axe) e. Conclusion :

- En général, on fait plusieurs ACP consécutives avant de trouver une solution convenable.

- La représentation regroupant variables et individus et un ABUS. - On ne peut pas intérpréter la proximité entre une variable et un individu.

Schéma à suivre pour ne pas se tromper :

Décrire ou expliquer un phénoméne ?

Yassine EL BOUCHIKHI - 14 – Etudes quantitatives par M. Stephane Magne

Yassine EL BOUCHIKHI - 15 – Etudes quantitatives par M. Stephane Magne

Yassine EL BOUCHIKHI - 16 – Etudes quantitatives par M. Stephane Magne

Methodes descriptives

1- Réduire Tableau de données brutes.

Sphinx : AFC QUALI SPSS : ACP QUANTI

2- Classer

EX: Segments Marché de l'automobile

S1 ConfortS2 ConsoS3 SécuritéS4 puissanceS5 PrixS6 EspaceF(Dde) = α1confo + α2Conso + ….

3-2 : Les Typologies (classifications) :

Objectif : Classer des individus et des objets ou des marques. Introduction sur les méthodes Typologiques : Ex 1: Rapport Taille / Poids Individu // Var Taille Poids

1 155 55 2 160 60 3 158 58 4 189 90 5 182 95

Ex 2: Tableau de données brutes Si on projete l’individu 1 et 3 dans l’espace ils seront proches car ils ont 2 différences seulement. Indiv // Var V1 V2 V3 V4 V.. V30

I1 1 1 3 2 9 I2 10 7 5 4 6 I3 1 1 2 2 1 …

I1000 3 2 2 3 9 Après une ACP, On projete les individus dans l’espace, on recherche les groupes à vue d’œil, et puis on compte le nombre de types repérés. ATTENTION : Ne jamais projeter les individus et les variables sur le même repére, les coordonnées sont différentes. Les problémes majeurs des typologies :

- Palette de méthodes différentes - Probléme de choix des méthodes (hiérarchiques, non-hiérarchiques) - Risque d’artefact de mesure très fort (la méthode crée le résultat sans tenir compte des

données).

Typologie des 2 groupes constituant le tableau

020406080

100

0 50 100 150 200

Taille

Poid

s

Grands costauds

Petits légers

Projection des individus dans l'espace

012345678

0 2 4 6 8

Groupe 1 Groupe 2

Electron

Yassine EL BOUCHIKHI - 17 – Etudes quantitatives par M. Stephane Magne

Variables ACTIVES : Qualité de service Varibales PASSIVES : Fiche signalétique

1- Qu’est-ce que la typologie ? : 1-1 : Intérêt Marketing des classifications :

- Rechercher des segments de clientèle (Segmentation marketing) - Classer différentes marques d’un produit pour établir leurs positionnements

respectifs (Quelles marques se ressemblent, marques différentes). - Etudes de styles de vie : attitudes, activités, centres d’intérêt, opinions, etc…

1-2 : Objet de la méthode : Déf. La description d’un ensemble d’individus ou objets caractérisés par un ensemble d’attributs, à l’aide de leur regroupement en classes. Dans le même classe : Objets ou individus les plus semblables possibles. Dans 2 classes différentes : Objets ou individus les plus dissemblables possibles. 1-3: Des individus ou des Objets « Proches » ? : Réfléchir au calcul des proximités :

1- Entre les individus « si l’on souhaite classer les répondants »

2- Entre les objets « si l’on souhaite classer des produits ou des modéles ». Ex3 : Proximité entre 2 individus ‘’Voir tableau de données brutes Ex2 page précédente’’ Proximité (P1 : N° de points communs /// P2 : N° de points différents) Entre I1 et I3 ( P1=3 // P2 = 2) ------------ Entre I2 et I3 (P’1 =0 // P’2 = 5). 1-4: Les problémes à résoudre ? : 1- Distance 2 - Affectation « G1, G2,.. » 3- Description « Qui sont-ils ? »

2- Comment faire une classification ? : 2-1: Quel type de données ? : 2-1-1 : Variables ACTIVES et variables PASSIVES :

Indiv // Var V1 V2 V3 V4 V.. V30

I1 1 1 3 2 9

I2 10 7 5 4 6

I3 1 1 2 2 1

I1000 3 2 2 3 9

Les variables ACTIVES : participent à la constitution des groupes.

Les variables PASSIVES ou « ILLUSTRATIVES »: servent à décrire les groupes.

Ex 1 : Satisfaction vis-à-vis d’une banque Typologie en 4 Groupes : Satisfaits, Indifférents, Mécontents justifiés, Eternels insatisfaits.

Ex 1 : Satisfaction vis-à-vis d’une banque Les Eternels insatisfaits : 60% femmes (Var Sexe), entre 45 et 50 ans (Var Age), niveau educ Sup (Var niveau etudes).

Yassine EL BOUCHIKHI - 18 – Etudes quantitatives par M. Stephane Magne

OA2 = AB2 + OB2 (Distance euclidienne)

O B

A

O

Pour les Données QUANTI : utiliser les variables STANDARDISEES NON-CORRELEES entre elles.

Si les Var sont trop corrélées faire une ACP avant, pour avoir les facteurs orthogonaux (non-corrélés, et non liées) r F1F2= 0 /// Faire le typologie sur les scores factoriels.

GR 1 GR2 A B

GR 1 GR2 C D

GR 1 GR2

G

G’

2-1-2 : Variables QUALI et variables QUANTI Les donnés quanti sont les plus simples à traiter à condition de les STANDARDISER si unités de mesure hétérogénes. Il s’agit de centrer – réduire (Tendance centrale, Dispersion) = Obtenir des unités homogénes. Ex : Tableau comparatif de voitures

Voiture / Option ABS N° ESP N° AIRBAGS (Max 5) TWINGO Oui 2 4 FORD KA Non 1 3

Transformer les données QUALI en données binaires 0 et 1, Présence ou absence d’une caractéristique pour chaque objet à classer. Alors pour les AIRBAGS cela devient :

Individu /// Var N° AIRBAGS Sexe CSP 1 4 « QUANTI » 1 « QUALI » 2 « QUALI »

Individu // Var AIRB1 AIRB2 AIRB3 AIRB4 AIRB5

1 0 0 0 1 0 Régle d’or

QUANTI vers QUALI = OUI !! QUALI vers QUANTI = NON !!!!!! « Ex : Transformer tranches d’age en age réel »

2-2: Distance entre les individus ? :

2-3: Affectation (Indicateur de proximité entre les groupes)? : 2-3-1 : La méthode du plus

proche voisin (SAUT-MINIMUM)

2-3-2 : La méthode du voisin le plus éloigné

(DIAMETRE DE LA REUNION)

2-3-3 : La méthode du Chainage moyen

(AGREGATION PAR LA MOYENNE)

Le centre Point G du nuage c’est le profil type (Individu-moyen )

ATTENTION : Utiliser plusieurs méthodes typologiques pour voir si les résultats convergent.

2-4: Comment constituer les groupes ? :

Yassine EL BOUCHIKHI - 19 – Etudes quantitatives par M. Stephane Magne

Ex : Procédure de constitution de groupe

I9

I2 I25G2

G’2CF

I5

I70 I150G1

G’1CF

2-4-1 : Les méthodes Hiérarchiques 2-4-2 : Les méthodes non-hiérarchiques

On les utilise lorsque : - Le nombre de groupes n’est pas fixé au départ - Un arbre de classification (DENDOGRAMME) en PIED

de GIRAFFE. - Méthodes très LOURDES si le nombre d’individus ou

objets > 100.

Indiv / Var

Var 1 Var 2

A 8 10

B 2 8 C 6 3

D 5 2

E 6 9

A B C D E

A 0 6.3 7.3 8.5 2.2 B - 0 6.4 6.7 4.1 C - - 0 1.4 6 D - - - 0 7.5 E - - - - 0

DENDOGRAMME

00.5

11.5

22.5

33.5

44.5

55.5

66.5

77.5

8

C D A E B

Nom de l'individu

Indi

ce d

e di

stan

ce

6

1.42.2

4.1

2 groupes

3 groupes

On coupe le DEDNDOGRAMME au GRAND SAUT de l’indice de distance (Coupure en 3 classes). ATTENTION : Si on arrive pas à voir le SAUT de l’indice c’est le principe de la réalité qui prévaut, voir si on arrive à donner une définition claire au groupe sinon on l’élimine.

- La méthode la plus connue en marketing est la méthode des NUEES DYNAMIQUES « QUICK CLUSTER ».

- Traiter un grand nombre d’individus plus de 100. - Fixer à priori K, le nombre de groupes souhaités

(Encore faut-il avoir une idée). Comment avoir une idée sur le nombre de segments ?

1- Faire une ACP et projeter les individus. 2- Etudes préalables 3- Experience professionnelle.

Ex : Processus de l’opération si K=3 I / Var V1 V2 V3 V4 Vn V30

1 X1 Y1 Z1 2 3 X2 Y2 Z2 4 5 X3 Y3 Z3

1-SPSS choisit 3 profils aussi différents que possible (1;2,3) qu’on appelle les CENTRES INITIAUX !

V1 V2 V3 Cr1 X1 Y1 Z1 Cr2 X2 Y2 Z2 Cr3 X3 Y3 Z3

2-SPSS fait les ITERATIONS (Calculs), si < 10 BON, ASSEZ STABLE.

3-SPSS détérmine les CENTRES FINAUX pour chaque groupe et nous offre un TABLEAU D’EFFECTIFS

Groupe N° individus 1 60 2 70 3 50

Total 180 CONSEILS :

- Faire plusieurs simulation pour aboutir à des groupes suffisament HOMOGENES et DIFFERENTS.

- Les groupes doivent être à peu prés HOMOGENES en taille.

- Ne pas conserver un groupe < 10 % de l’échantillon.

2-5: Comment DECRIRE les groupes et valider la typologie ? :

Matrice des distances

Yassine EL BOUCHIKHI - 20 – Etudes quantitatives par M. Stephane Magne

1- A partir des variables ACTIVES (Celles qui ont participé à la formation du groupe) : Calcul de

moyennes. 2- A partir des variables PASSIVES (Ces variables n’ont pas étés utilisées pour former les

groupes) : En général celles-ci figurent dans la partie signalétique du questionnaire (Age, Sexe, CSP, Revenu,..)

Ex : Etude qualitative sur ce que le voyage inspirait aux étudiants (Nouveauté, Souvenirs, …)

3- Conclusion: Les risques des classifications :

- Il n’existe pas une mais des typologies - Le choix des indices de distance et des critéres d’affectation affectent la solution trouvée. - La typologie obtenue peut être différente selon les méthodes utilisées (Hiérarchique ou Non). - Il faut croiser les méthodes pour voir si elles convergent vers la même solution typologique.

INFOS PRATIQUES : Qualité de représentation : indice entre 0 et 1 --- plus il est proche de 1 meilleure est la qualité. Rotation VARIMAX : Pour rapprocher les individus en les voyant d’un angle différent. Apres une ACP : On obtient les scores factoriels ou facteurs orthogonaux non-corrélés. Projection pour les individus : L’individu peut se retrouver projeté plusieurs fois (Non-pertinent), à manier avec précaution.