88
M2 Marketing Université Paris 1 Panthéon-Sorbonne Cours de M. Eric Lombardot Chapitre 5 : Chapitre 5 : Corrélation, régression et causalité La régression simple indique la nature de la liaison linéaire entre deux variables (quantitatives ). La corrélation indique le degré de linéarité entre ces variables. Ainsi l’analyse de régression fournit une fonction entière (une droite par exemple) alors que l’analyse de corrélation fournit un simple nombre un indice qui renseigne sur l’intensité avec laquelle 2 variables évoluent ensemble. Ces 2 techniques sont donc complémentaires. L’analyse causale enfin va plus loin en précisant le sens de la Introduction : précisions sémantiques

chapitre régression_corrélation_causalité

Embed Size (px)

Citation preview

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit

    La rgression simple indique la nature de la liaison linaire entre deux variables (quantitatives). La corrlation indique le degr de linarit entre ces variables. Ainsi lanalyse de rgression fournit une fonction entire (une droite par exemple) alors que lanalyse de corrlation fournit un simple nombre un indice qui renseigne sur lintensit avec laquelle 2 variables voluent ensemble. Ces 2 techniques sont donc complmentaires. Lanalyse causale enfin va plus loin en prcisant le sens de la relation, le chemin de la cause leffet.Introduction : prcisions smantiques

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit

    ExempleSi je mintresse au lien entre le temps hebdomadaire moyen pass travailler (X) et la note obtenue au partiel (Y) : Lanalyse de rgression pemet de dterminer une fonction qui lie les deux variables : ex : Y = aX + b Lanalyse de corrlation renseigne sur lintensit du lien entre les deux variables : ex : le lien est fort et trs significatif. Lanalyse causale dtermine le sens de la relation : ex :temps de travail note au partiel

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit

    5.1. Analyse bivarie5.2. Analyse multivarie5.3. Introduction lanalyse causale

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieCorrlation entre deux variables quantitatives Le coefficient de corrlation de Pearson r est une mesure dassociation (dinterdpendance) entre deux variables mtriques Il mesure lintensit de la co-variation entre les deux variables : les deux variables, mesures sur le mme ensemble dobservations, varient-elles de faon analogue (si pour une observation, lune prend une valeur leve, lautre a galement une valeur leve) ?

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieCalcul du coefficient de corrlation de Pearson :avec

    r est toujours compris entre 1 et 1 si r est proche de 1 alors le lien est fort et ngatif (quand 1 des 2 variables augmente lautre diminue), alors que si r est proche de 1 le lien est fort et positif (quand 1 des deux variable augmente, lautre augmente aussi) si r est proche de 0 alors il ny a pas de lien entre x et y

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarier et r2 : Comme r indique le degr de la relation entre la variation dune variable et celle dune autre variable, il peut galement reprsenter la dcomposition de la variation totale (en tant au carr). On retiendra que r2 = variation explique variation totale r2 mesure la proportion de la variation dune variable qui est explique par lautre. r et r2 sont des mesures symtriques dassociation : la corrlation entre X et Y est la mme que la corrlation entre Y et X. Il nest pas important de savoir quelle est la variable indpendante et quelle est la variable dpendante.

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieInterprtation du R2 :Variance explique : R, coefficient de dtermination (proportion de variance totale de Y qui nest pas due lerreur, ou encore proportion de la variance de Y explique par la variance de X)R = 0 : la variable indpendante nexplique rienR = 1 : la variable explique compltement YR = 0,11 : 11% des variations de Y sont expliques par le modle

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivariePrcisons tout de suite que r indique la force dune relation linaire. Si on a r = 0, cela signifie quil ny a pas de relation linaire entre X et Y, mais cela ne signifie pas que les 2 variables ne sont pas lies !!! Il peut trs bien y avoir une relation non linaire entre elles non traduite par r. Faites un graph !YXIllustration : Il existe bien une relation entre X et Y, mais non linaire. Ici r = 0

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieLe coefficient de corrlation linaire r renseigne sur lintensit du lien entre 2 variables quantitatives. Il doit tre complt afin de dterminer si lventuel lien mis jour est significatif ou non. On utilise pour cela un test t (en fonction du nombre de ddl = n 2) :

    Remarque : sous SPPS, la probabilit critique du test est fournie par la rubrique sig. (bilatrale)

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieExemple SPSS : y a-t-il un lien entre la taille de lunit sociale de visite (le nombre de personnes qui forment le groupe) et le temps pass dans le muse dart ? H0 : il ny a aucun lien entre ces deux variables (r=0) H1 : il existe un lien entre ces deux variables (r0)

    Analyse Corrlation Bivarie

    Rsultat : coefficient de corrlation linaire de Pearson : r (entre -1 et 1)

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarie Conclusion : on ne peut pas rejeter H0 avec moins de 5% de chance de se tromper. Le coefficient de Pearson est faible et non significatif. On conclut quil nexiste pas de lien entre la dure de la visite et la taille de lunit sociale de visite

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieExerciceBDD Employes de SPSS : ya-t-il une corrlation positive significative entre salaire actuel et salaire lembauche ? Entre salaire actuel et nombre de mois danciennet ?

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieCorrlation positive forte et significativeCorrlation positive faible et non significative

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieCorrlation partielle :Le coefficient que nous avons vu correspond une corrlation linaire simple entre 2 variables. On peut avoir besoin dutiliser un coefficient de corrlation partielle, qui mesure lassociation entre 2 variables aprs contrle ou ajustement des effets dune ou de plusieurs autres variables.Exemples : Si lon veut mesurer linfluence des dpenses publicitaires sur les ventes, il faut contrler leffet des autres variables du mix Est-ce que la perception de la qualit par les consommateurs est lie leur perception des prix quand leffet dimage de marque est neutralis ?

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieCorrlation partielle, mthodologie :

    Il faut tout dabord calculer les corrlations simples entre chacune des variables.Ensuite, pour calculer la corrlation partielle entre X et Y en contrlant leffet de Z sur chacune de ces 2 variables, on applique la formule :

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieExercice

    Calculez la corrlation entre Y (attitude envers la ville) et X (dure de rsidence dans la ville), aprs contrle de la variable Z (limportance du climat), daprs la BDD suivante :

  • N de lindividuAttitude envers la villeDure de rsidenceImportance attache au climat1,002,003,004,005,006,007,008,009,0010,0011,0012,006,009,008,003,0010,004,005,002,0011,009,0010,002,0010,0012,0012,004,0012,006,008,002,0018,009,0017,002,003,0011,004,001,0011,001,007,004,008,0010,008,005,00

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieRponse :On veut calculer la corrlation entre Y (attitude envers la ville) et X (dure de rsidence dans la ville), aprs contrle dune troisime variable Z (limportance du climat).On commence par calculer les corrlations simples entre chaque variables :rYX = 0,9361rYZ = 0,7334rXZ = 0,5495

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieAnalyse Corrlation Bivarie

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieOn calcule ensuite la corrlation partielle :

    Comme on peut le voir dans cet exemple, leffet de limportance du climat a peu dinfluence sur la relation entre attitude envers la ville et dure de rsidence. Le coefficient r est gal 0,9361 et reste 0,9386 aprs contrle de Z. Le nouveau coefficient est appel coefficient de corrlation partielle de premier ordre car il ny a qu1 seule variable contrle.+ rapide sous SPSS : Analyse Corrlation Partielle

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieLes corrlations partielles peuvent tre trs utiles pour dtecter les fausses corrlations. Ainsi, 2 variables peuvent tre considres comme corrles alors quelles sont en fait toutes les 2 corrles une 3me variable.

    Exemple : dans une entreprise, on value sil existe un lien entre ge et salaire, a priori on devrait trouver une corrlation positive. En fait, on ne gagne pas plus parce que lon est plus g, mais parce quon a davantage dexprience ou danciennet (variables elles-mmes corrles lge et au salaire).

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieLa rgression simple :Elle consiste dterminer une quation qui relie 2 variables quantitatives. Contrairement la corrlation simple, elle ncessite didentifier lune des 2 variables comme tant dpendante ( expliquer) et lautre comme tant indpendante (explicative). Remarquons tout de mme que cette mthode nimplique pas de causalit.Le modle type est de la forme :Yi = 0 + 1Xi + eiavec Y = variable dpendante ( expliquer)X = variable indpendante (ou explicative)0 = ordonne lorigine de la droite1 = pente de la droiteei = terme derreur associ la ime observation

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieLa rgression simple, vocabulaire :

    Coefficient de dtermination r2 : proportion de la variation totale de Y explique par la variation de X Valeur estime (ou prdite) de Yi : i = a + bx avec i la valeur estime de Yi et a et b les estimateurs respectifs de 0 et 1. Coefficient de rgression : le paramtre b est appel coefficient de rgression non standardis. Lcart-type rsiduel (SEE) : cest lcart-type des erreurs (valeurs relles Y moins valeurs estimes ). Erreur type (SEb): estimation de lcart-type de b

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieLa rgression simple, vocabulaire (suite) :

    Coefficient de rgression standardis (coefficient bta) : il correspond la pente obtenue par la rgression de Y sur X lorsque les donnes sont standardises. Somme des erreurs au carr : les distances de tous les points la droite de rgression sont leves au carr et additionnes pour obtenir la somme des erreurs au carr, qui est une mesure de lerreur totale Statistique t : valeur du t de Student n-2 degrs de libert, afin de rejeter ou non H0. Cette statistique est associe sa probabilit critique (significative lorsquelle est < 0,05)

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieLes tapes dune analyse de rgression simple :1. La premire tape consiste reprsenter le nuage de points, variable dpendante sur laxe vertical et variable indpendante sur laxe horizontal.Cela permet de se faire une ide sur le type de lien (est-ce linaire ?) et de dtecter les ventuelles valeurs extrmes qui risquent de perturber lanalyse.

    Sous SPSS : Graph Diagramme de dispersion Simple

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarie

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarie2. Il sagit ensuite de trouver les caractristiques de la droite qui dcrit le mieux les donnes. On utilise gnralement la mthode des moindres carrs. Elle consiste dterminer la droite de rgression qui minimise le carr des distances verticales entre les points et la droite.Avec une quation du type Yi = 0 + 1Xi + ei la distance verticale du point la droite est reprsent par ei.Les distances de tous les points la droite levs au carrs et additionns forment la somme des carrs des erreurs, ou erreur totale, note Le but est que cette valeur soit minimale (que les distances verticales soient minimises)

  • y = 0 + 1xeiYii

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarie3. Estimation des paramtres de la droite :Dans la plupart des cas, 0 et 1 sont inconnues et estimes partir des observations de lchantillon en utilisant lquation : i = a + bxiO i est la valeur estime ou prdite de Yi et a et b sont les estimateurs respectifs de 0 et 1. La constante b, qui est la pente de la droite de rgression est gnralement appele coefficient de rgression non standardis. Cest la variation attendue de Y quand X varie dune unit.

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarie4. Estimation du coefficient de rgression standardis :La standardisation est le procd par lequel les donnes brutes sont transformes en nouvelles variables, ayant une moyenne de 0 et une variance de 1. Lordonne lorigine prend alors une valeur de 0. La pente obtenue par la rgression de Y par rapport X (BYX) est alors la mme que celle obtenue par la rgression de X par rapport Y (BXY).En outre, chacun de ces coefficients de rgression standardiss (bta) est gal au coefficient de rgression simple entre X et Y : BYX = BXY = rXYIl existe une relation simple entre les coefficients de rgression standardiss et non standardiss : BYX = bXY(SX/SY)

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarie5. Test dhypothse :En toute rigueur, la signification statistique de la relation linaire entre X et Y doit faire lobjet dun test dhypothse. On pose :H0 : 1 = 0et H1 : 1 0H0 implique quil ny a pas de relation linaire entre X et Y, tandis que lhypothse alternative H1 en suppose une, positive ou ngative. On utilise un test bilatral t n-2 degrs de libert associ une probabilit critique pour dterminer la significativit de 1.

    Avec b coefficient de rgression et SEb lestimation de lcart-type de b.

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarie6. Dterminer limportance et la signification de la relation :La dcomposition de la variation totale de Y est similaire celle ralise lors de lanalyse de la variance. La variation totale SSY peut tre dcompose entre la variation explique par la droite de rgression SSreg et la variation rsiduelle ou erreur Ssres :SSY = SSreg + SSres avec :

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieLimportance de la relation est calcule laide du R2. Cest la proportion de variation totale de Y explique par la variation de X :

    La signification du coefficient de dtermination est value laide dun test de Fisher 1 et n-2 degrs de libert :

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarie7. Vrifier la prcision des estimations :Pour valuer la prcision des estimations il est utile de calculer lestimation de lcart-type rsiduel (SEE) qui correspond lcart-type de la diffrence entre valeurs relles Y et valeurs estimes . Lestimation de lcart-type rsiduel peut tre interprte comme une sorte de rsidu moyen, ou une erreur moyenne dans lestimation de Y, partir de lquation de rgression.

    Cas gnral avec k variables indpendantes :

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieExerciceEn utilisant la BDD SPSS attitude envers la ville, ralisez une tude de corrlation et de rgression entre la variable dpendante attitude envers la ville et la variable indpendante durre de rsidence.

    Analyse Rgression Linaire

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieAnalyse de corrlation :

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieAnalyse de corrlation :La dure de rsidence dans la ville explique 87,6 % lattitudeLe R2 ajuste permet de corriger le R2 en fonction du nombre de variable. Ici, pas dincidence.Coefficient de PearsonSEE

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieSignificativit du modle de corrlation :

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieSignificativit du modle de corrlation :Somme des carrs ddlSSY = SSreg + SSresLa statistique F calcule pour 1 et 10 ddl correspond une proba critique < 0,05. La relation entre X et Y est positive et significative.

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieParamtres du modle de corrlation :

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieParamtres du modle de corrlation :BYX = BXY = rXYAttitude () = 1,079 + 0,590 (dure de rsidence)T = 0,5900,070=8,414 avec 12-2 ddl. Proba critique associe < 0,05 ce qui confirme le test F : relation positive significative entre X et Y

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieHypothses implicites poses lors de lestimation des paramtres :H1 : Le terme derreur est normalement distribu (pour chaque valeur fixe de X la distribution de Y est normale).H2 : Les moyennes de toutes ces distributions normales de Y, pour X donn, forment une droite dont la pente est b.H3 : La moyenne du terme derreur est 0.H4 : La variance du terme derreur est constante, et ne dpend pas des valeurs prises par X.H5 : Les termes derreur ne sont pas corrls (les observations ont t ralises indpendamment les unes des autres).

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieExercice1) Ralisez une analyse de corrlation et de rgression dans BDD employs entre salaire et salaire embauche.2) BDD enqute du comportement des amricains en 1993 : peut-on expliquer la tendance tre libral ou conservateur (variable mtrique 7 modalits affilpol) en fonction du revenu du rpondant ?3) Reprenez la BDD enqute du comportement des amricains en 1993 et ralisez une nouvelle analyse de corrlation et de rgression susceptibles de prsenter un intrt, entre les variables de votre choix.

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.1. Analyse bivarieCorrlation ou rgression simple ?Les deux mthodes donnent des rsultats totalement quivalents, et les conclusions qui peuvent en tre tires sont identiques (R est, dans le cas de la rgression simple, le carr de r) On choisira la rgression lorsque lobjectif est destimer un modle de prdiction (ex : prdire les ventes par les dpenses publicitaires)

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.2. Analyse multivariePrincipe : tudier les relations entre n variables prises simultanment (n>2)Mthodes :Explicative : rgression multiple, analyse discriminanteDescriptive : analyse factorielle des correspondances (AFC), analyse en composantes principales (ACP)Nature des variables :Mtrique : rgression multiple (explicative) et ACP (descriptive)Nominale : analyse discriminante (explicative), analyse factorielle (descriptive)

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.2. Analyse multivariePourquoi raliser des rgressions multivaries ?Limite de la rgression simple : un phnomne a rarement une seule cause. Par exemple, quest-ce qui explique les ventes dun produit ?Le budget pub, le budget force de vente, le prix, le nombre de points de vente, etc.La rgression multiple permet, elle, de confirmer une relation de cause effet entre variables, cest--dire expliquer les variations dune variable par plusieurs autres variables. Si cette relation est confirme, il faut alors valuer son intensit.

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.2. Analyse multivarieMthode :Y est la variable quantitative expliquer (dpendante), et X1, X2, , Xi, les i variables explicatives (indpendantes) quantitatives ( la rigueur binaires). La forme gnrale du modle est :Y = 0 + 1 X1 + 2 X2 + . + i Xi + avec minimum.On recherche une fonction f qui lie les valeurs de Y celle des X et telle que f(Xi) soit le plus proche possible de Y.Dans la pratique, on calcule lquation : = b0 + b1 X1 + b2 X2 + . + bi Xi

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.2. Analyse multivariePrsentation des rsultats sous SPSS (1/4):Analyse Rgression Linaire La significativit globale du modle est fournie laide dun test F et une probabilit associe Le R ajust indique le % de variance de Y explique par lquation (ajuste au nombre de variables indpendantes et la taille de lchantillon)

    Le coefficient de corrlation multiple R tend vers 1 lorsque la relation est forte, vers 0 lorsquelle est nulle

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.2. Analyse multivariePrsentation des rsultats sous SPSS (2/4) : Les coefficients , dits coefficients de rgression partiels reprsentent la variation attendue de Y quand Xi varie dune unit mais que les autres variables indpendantes sont maintenues constantes. A chacun dentre eux est associ un tests t pour en estimer la significativit. Pour comparer la contribution relative des Xi Y, il suffit de comparer les valeurs absolues des t associs ou de lire les coefficients de rgression partiels standardiss Bta (moyenne=0 et cart-type=1) qui permettent la comparaison entre Xi alors mme que celles-ci ont des units de mesure diffrentes (exemple, pour estimer les ventes dun magasin : surface en m, nombre de produits en promo, proximit du centre ville en km etc.)

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.2. Analyse multivariePrsentation des rsultats sous SPSS (3/4) : Il est ncessaire de tester la colinarit, car la multicolinarit entre variables explicatives biaisent les estimations de R : Il faut tudier la tolrance : pourcentage de la variable explicative non explique par les autres variables explicatives (elle doit tre proche de 1, et en tout cas > 0,3) Il faut aussi tudier le VIF (variance inflation factor) : degr daugmentation de lerreur li la multicolinarit (le VIF doit tre infrieur 4)

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.2. Analyse multivariePrsentation des rsultats sous SPSS (4/4) : Enfin, il est ncessaire dexaminer les rsidus. Le rsidu ei est la diffrence entre la valeur observe yi et la valeur calcule par le modle i. Ces erreurs ei sexpliquent dune part par leffet des variables non prises en compte dans le modle, et dautre part par des variations alatoires. Pour que linterprtation du modle soit valide, il faut que les rsidus se rpartissent de manire alatoire autour de la valeur calcule. Pour vrifier ce dernier point, il suffit dexaminer le diagramme PP-Gaussien : il ne doit y avoir aucune forme apparente dans la distribution des rsidus

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.2. Analyse multivarieExercicePeut-on expliquer lattitude envers la ville en fonction de la dure de rsidence et de limportance accorde au climat ?

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.2. Analyse multivarieRponse :Sous SPSS : Analyse Rgression Linaire

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.2. Analyse multivarieRponse :

    Le modle explique 93,3 % de la variance de YLa relation est forteSEE

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.2. Analyse multivarieRponse :Sous SPSS : Analyse Rgression LinaireStatistiques : test de colinaritDiagrammes : diagramme P-P gaussien

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.2. Analyse multivarieRponse :

    Le test F est associ une probabilit derreur < 5 %. Le modle est donc globalement significatif

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.2. Analyse multivarieRponse :

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.2. Analyse multivarieRponse :

    1 et 2 sont significatifs. Ces 2 facteurs sont donc importants pour expliquer YLquation de la droite de rgression est : = 0,337 + 0,481X1 + 0,289X2Pas de problme de multicolinarit

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.2. Analyse multivarieRponse :

    on de rsidui (Yi calcul)Yi observsPour lobservation i, on estime ei par la distance entre le point et la droite Y=y

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.2. Analyse multivarieLa rgression pas pas :Le but de la rgression pas pas est de slectionner, partir dun grand nombre de variables explicatives, un petit sous-ensemble de variables qui expliquent la plus grande partie de la variation de la variable dpendante ( expliquer).Les variables explicatives sont introduites ou retires une une de lquation que lon cherche optimiser.2 mthodes sont possibles :

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.2. Analyse multivarie Rgression pas pas ascendante : les variables sont entres dans le modle les unes aprs les autres, en recherchant dabord la variable Xi la plus explicative, puis celle qui explique le plus la part de variance restant expliquer etc.

    Rgression pas pas descendante : les variables sont limines du modle global les unes aprs les autres, en liminant dabord la variable Xi la moins explicative de Y, puis celle qui explique le moins la variance restant expliquer etc.

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.2. Analyse multivarieConclusion sur la rgression multiple : Choisir la rgression si lobjectif est un modle de prdictionBien rflchir au statut des variables dpendante et indpendantesDisposer de variances suffisantes sur les variables introduites dans le modle.Ne retenir que les significatifs.viter les donnes avec des valeurs extrmes ou aberrantes

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.3. Introduction lanalyse causalePrincipe :Faire une analyse causale, cest tester, par exemple, sur un chantillon reprsentatif de consommateurs, des liens de causalit supposs entre variables.Linfluence dune variable sur une autre peut tre un effet direct ou indirect, par le biais dune troisime variable. On reprsentera ces effets directs et indirects sous la forme de chemins (des flches).Leffet total dune variable sur une autre peut tre alors obtenu en sommant les effets de tous les chemins possibles qui relient les deux variables.

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.3. Introduction lanalyse causaleExemple :Quel est linfluence de lge sur la consommation du produit X ?On cherche si le lien suivant existe :AgeConsommation de X

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.3. Introduction lanalyse causaleMais lge nest pas la seule variable explicative de la consommation de ce produit. Par exemple, le revenu intervient aussi. Or, le revenu est lui-mme expliqu en partie par lge. On a donc le modle causal suivant :AgeConsommation de XRevenu

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.3. Introduction lanalyse causaleUne enqute ralise a permis, aprs mesure de lge, du revenu et de la consommation dun produit X sur 1000 individus, dobtenir les corrlations r suivantes, donnes sous la forme dune matrice (rsultat fourni par SPSS) :

    AgeRevenuConsommationAge1,000Revenu0,8001,000Consommation0,4100,5081,000

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.3. Introduction lanalyse causaleOn lit par exemple sur cette matrice que, daprs lenqte, la corrlation entre lge et consommation est de 0,410. Cest une valeur assez importante, qui laisse supposer que la consommation est assez bien explique par lge.Il est pratique de donner un nom aux intensits des liens de causalit selon le schma suivant :AgeConsommation de XRevenuacb

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.3. Introduction lanalyse causaleLa corrlation totale est la somme des termes qui correspondent aux chemins possibles entre les variables X et Y. 2 types de chemins possibles : les chemins simples qui vont de X Y les chemins doubles qui partent dune troisime variable Z pour aller dune part vers X et dautre part vers YDans ces 2 cas, la contribution dun chemin est le produit de toutes les intensits des liens qui le composent.

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.3. Introduction lanalyse causaleRQ : Dans cet exemple, comme dans tous les exercices sur lintroduction lanalyse causale nous carterons les schmas de causalit dans lesquels il y a des boucles (possibilit de tourner en rond dans le schma). Lorsquil ny a pas de boucle, on dit que les modles sont rcursifs.Corrlation entre ge et consommation de X : chemin simple : ge / consommation a chemin simple : ge / revenu / consommation bcTotal : a + bc

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.3. Introduction lanalyse causaleCorrlation entre ge et revenu : chemin simple : ge / revenu bTotal : bCorrlation entre revenu et consommation : chemin simple : revenu / consommation c chemin double : revenu/ ge / consommation abTotal : c + ab

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.3. Introduction lanalyse causaleIl reste identifier ces corrlations thoriques avec les corrlations observes lors de lenqute pour obtenir les intensits causales. Cela donne les 3 quations suivantes :a + bc = 0,410b = 0,800c + ab = 0,508La rsolution de ce systme dquation donne :a = 0,01b = 0,80c = 0,50

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.3. Introduction lanalyse causaleLa situation est simple ici puisquil y a 3 quations pour 3 inconnues dterminer. Il est frquent quil y ait plus dquations que dinconnues. Dans ce cas, les quations supplmentaires servent de tests pour valider le modle causal. On ralisera, par exemple, un test de Fisher pour dterminer si les coefficients de corrlation mesurs lors de lenqute sont bien non significativement diffrents des coefficients de corrlation prvus par le modle causal.Cette validation nest pas possible ici car toutes les quations sont utilises pour trouver les intensits a, b et c.

  • M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric LombardotChapitre 5 : Corrlation, rgression et causalit5.3. Introduction lanalyse causaleLe modle causal de lexemple est donc :

    Alors que lenqute brute laissait penser quge et consommation taient trs lis, le schma causal obtenu montre que cest le contraire. Le lien est trs faible. Au contraire, le revenu explique bien la consommation, et cest lui seul que le marketeur doit conserver pour raliser son plan marketing.Logiciels : EQS, AMOS, LisrelAgeConsommation de XRevenu0,010,5000,800

  • ExerciceEolia est 1 comptition de sport de glisse qui possde 1 forte notorit auprs des jeunes. La marque de vtements vieillissante Alios pour laquelle vous travaillez a par contre besoin dun srieux lifting. Vous voudriez transfrer limage dEolia sur celle dAlios en utilisant le sponsoring. Ds la 1re comptition, vous attaquez : logos, affiches, banderoles, annonces sonores, etc. Aprs lopration, vous testez lefficacit de cette action sur 600 consommateurs, en mesurant :

    Une fois mesures, ces variables sont saisies sous SPSS (ou Excel) afin de calculer les coefficients de corrlation entre variables 2 2.

    VariablesExemples ditemsCe Croyance envers EoliaEolia est 1 comptition jeune et dynamiqueCa Croyance envers AliosAlios est 1 marque jeune et brancheAe Attitude envers EoliaJapprcie dassister aux comptitions EoliaAa Attitude envers AliosJaime la marque Alios

  • Les coefficients de corrlation r sont fournis par la matrice suivante :

    4 hypothses sont possibles : H1 : il ny a aucun effet du sponsoring. Eolia et Alios respectent la hirarchie des effets indpendamment lune de lautre (a et b) H2 : il y a un transfert direct des croyances dEolia sur Alios (c) H3 : Il y a un transfert des croyances dEolia sur Alios par lintermdiaire de lattitude envers Eolia (d) H4 : Il y a un transfert purement affectif entre Eolia et Alios (e)

    Ce Croyance EoliaAe Attitude EoliaCa Croyance AliosAa Attitude AliosCroyance Eolia1,000Attitude Eolia0,8001,000Croyance Alios0,2600,2801,000Attitude Alios0,6300,6960,8401,000

  • Questions :Quelles sont les consquences managriales de chaque hypothse ?Reprsentez sur un schma causal global lensemble de ces hypothses.Calculez la matrice de corrlation quimplique ce schma en fonction des intensits des liens de causalit.Par identification avec les corrlations relles, trouvez les 5 partamtres dintensit des liens (calcul de a, b, d, e).Testez le modle (adquation entre la thorie et les valeurs observes).Le transfert dEolia vers Alios est-il plutt affectif ou cognitif ? Que devez-vous faire ?

  • Rponses :Quelles sont les consquences managriales de chaque hypothse ? H1 : il ny a aucun effet du sponsoring. Eolia et Alios respectent la hirarchie des effets indpendamment lune de lautre Il faut cesser immdiatement de sponsoriser Eolia ! H2 : il y a un transfert direct des croyances dEolia sur Alios Tout va bien lobjectif est atteint. H3 : Il y a un transfert des croyances dEolia sur Alios par lintermdiaire de lattitude envers EoliaLobjectif est atteint, mais seulement pour les spectateurs qui apprcient Eolia. H4 : Il y a un transfert purement affectif entre Eolia et Alios Le sposoring est efficace en terme dattitude envers la marque, mais il ne change rien son positionnement vieillot (car le transfert est purement affectif), ce qui est un problme.

  • 2) Reprsentez sur un schma causal global lensemble de ces hypothses.Croyance envers Eolia (Ce)Attitude envers Eolia (Ae)adcCroyance envers Alios (Ca)Attitude envers Alios (Aa)beRemarque : le modle est bien rcursif car il ny a pas de boucles

  • 3) Calculez la matrice de corrlation quimplique ce schma en fonction des intensits des liens de causalit.Pour calculer les corrlations entre les variables en fonction des intensits des liens de causalit indiqus sur chaque flche, il faut sommer les contributions : des chemins daccs dune variable une autre, des chemins indirects (on multiplie alors entre elles les intensits de chaque flche du chemin), des sources communes de corrlations (on multiplie les contributions des chemins de la source vers les 2 variables).Afin de construire la matrice de corrlation, commenons par prciser lensemble des chemins qui existent entre les variables 2 2.

  • Corrlations entre :CheminsContributionTotalCe et AeCe a AeaaCe et CaCe c CaCe a Ae d Cacadc+adCe et AaCe a Ae d AaCe c Ca b AaCe a Ae d Ca b Aaaecbadbadb+bc+aeAe et CaAe d CaAe a Ce c Cadacd+acAe et AaAe e AaAe d Ca b AaAe a Ce c Ca b Aaedbacbe+db+acbCa et AaCa b AaCa d Ae e AaCa c Ce a Ae e Aabdecaeb+de+cae

  • La matrice de corrlation thorique obtenue est donc :Rappelons que la matrice des corrlations observes tait :

    Ce Croyance EoliaAe Attitude EoliaCa Croyance AliosAa Attitude AliosCroyance Eolia1Attitude Eoliaa1Croyance Aliosc+add+ac1Attitude Aliosabd+bc+aee+db+acbb+de+cae1

    Ce Croyance EoliaAe Attitude EoliaCa Croyance AliosAa Attitude AliosCroyance Eolia1,000Attitude Eolia0,8001,000Croyance Alios0,2600,2801,000Attitude Alios0,6300,6960,8401,000

  • 4) Par identification avec les corrlations relles, trouvez les 5 partamtres dintensit des liens (calcul de a, b, d, e).En utilisant les 2 matrices prcdentes, nous pouvons poser le systme dquations suivant :(1) a = 0,8(2) c+ad=0,26(3) d+ac=0,28(4) b+de+cae=0,84(5) abc+bd+e=0,696(6) abd+bc+ae=0,630Il y a 6 quations et 5 inconnus. La dernire quation (6) est choisie pour tester le modle, car elle comporte lensemble des 5 paramtres. On rsoud donc le systme sans sen servir.

  • La rsolution du systme dquation nous donne :a=0,8 ; b=0,7 ; c=0,1 ; d=0,2 ; e=0,5Le modle de causalit obtenu est donc :Croyance envers Eolia (Ce)Attitude envers Eolia (Ae)0,80,20,1Croyance envers Alios (Ca)Attitude envers Alios (Aa)0,70,5

  • 5) Testez le modle (adquation entre la thorie et les valeurs observes).Pour tester le modle, nous utiliserons le coefficient de corrlation entre Ce et Aa, dont la velru est, daprs lenqute, de 0,63. Daprs le modle de causalit, ce coefficient de corrlation entre Ce et Aa devrait tre gal (6) :abd+bc+ae=0,80,7 0,2+0,7 0,1+0,80,5=0,582Il semble donc y avoir une diffrence entre la thorie (0,582) et la ralit (0,63). Afin de savoir si cette diffrence est significative, nous transformons les coefficients de corrlation en z de Fisher.z calcul partir de la valeur thorique :

  • z calcul partir de la valeur mesure dans lenqute :

    Les coefficients tant mesurs sur un chantillon de 600 individus (n), la diffrence est significative si :

    Or, ici, nous avons :

    Cette quantit est infrieure 1,96. Les 2 coefficients ne sont donc pas significativement diffrents. Le modle de causalit est donc compatible avec la ralit de lenqute. Il est valid.

  • 6) Le transfert dEolia vers Alios est-il plutt affectif ou cognitif ? Que devez-vous faire ?Le chemin affectif resprsente le transfert de la croyance envers Eolia (Ce) sur lattitude envers Alios (Aa) par lintermdiaire de lattitude envers Eolia :Croyance envers Eolia (Ce)Attitude envers Eolia (Ae)0,8Attitude envers Alios (Aa)0,5Leffet total de ce chemin est 0,80,5=0,4

  • Le chemin cognitif passe par limage de la marque Alios (Ca). Les croyances associes Alios interviennent dans le processus et sont modifies, do le nom de chemin cognitif. Il ya 2 trajets possibles :Leffet total de ce chemin est 0,80,20,7+0,10,7=0,182Croyance envers Eolia (Ce)Attitude envers Eolia (Ae)0,80,20,1Croyance envers Alios (Ca)Attitude envers Alios (Aa)0,7

  • Conclusion de lexercice :Le chemin cognitif (0,182) est beaucoup moins influent que le chemin affectif (0,4) en matire de persuasion. Nous pouvons craindre que les modifications de croyances ne soient pas efficaces. Si notre objectif est de faire aimer la marque Alios, alors ce sponsoring semble tre satisfaisant. Si lon cherche avant tout modifier les croyances (Alios est une marque jeune) alors il faut trouver une autre stratgie de communication.