23
2/2/11 1 Corrélation et Régression Cours#3 Frederick Philippe 1 Corrélation Relation bivariée R elation entre deux variables Idéalement continues (variables indépendantes peuvent être dichotomiques: 0 et 1) La variable x est-elle reliée/associée/corrélée à la variable y? Pas de causation. Juste une association. Ex. La satisfaction des employés est-elle associée à la performance? 2

Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

Corrélation et Régression Cours#3 Frederick Philippe

1

Corrélation

  Relation bivariée   Relation entre deux variables

  Idéalement continues (variables indépendantes peuvent être dichotomiques: 0 et 1)

  La variable x est-elle reliée/associée/corrélée à la variable y?

  Pas de causation. Juste une association.

  Ex. La satisfaction des employés est-elle associée à la performance?

2

Page 2: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

Covariation

  Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient en premier.

 Donc la direction de l’interprétation n’est pas claire   Effet d’une 3e variable

 Ex. La mesure de satisfaction au travail reflète plutôt un trait de personnalité où une variable environnementale qui elle est la vraie cause de la performance.   Les gens plus extravertis sont plus satisfaits au travail

3

Calculs du r

  rxy = COVxy / (SDx * SDy)

  COVXY = (Σ(Xi – Mx)(Yi – My)) /(n – 1)

X: Satisfaction

Y: Performance

1 2 3 4 5 6 7 8 9 10

1 2 3 4 5 6 7 8 9 10

4

Page 3: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

Calculs du r

  rxy = COVxy / (SDx * SDy)

  COVXY = (Σ(Xi – Mx)(Yi – My)) /(n – 1)

  La corrélation est donc une covariation entre deux variables dont les écart-types ont été retirés. C’est donc une variable standardisée.

  Va de +1 à -1

5

Exemple Participants Xi Yi Xi – Mx Yi – My (Xi – Mx)(Yi – My)

1 1 1 -3 -4.5 13.5 2 2 2 -2 -3.5 7.0 3 3 3 -1 -2.5 2.5 4 5 5 1 -0.5 -0.5 5 6 6 2 0.5 1.0 6 7 7 3 1.5 4.5 7 1 4 -3 -1.5 4.5 8 2 5 -2 -0.5 1.0 9 3 6 -1 0.5 -0.5 10 5 8 1 2.5 2.5 11 6 9 2 3.5 7.0 12 7 10 3 4.5 13.5

Somme 48.00 66.00 0.00 0.00 56.00

Moyenne 4.00 5.50 0.00 0.00

SD 2.26 2.75 COVXY = (Σ(Xi – Mx)(Yi – My)) /(n – 1) COVXY = (56) /(12 – 1) = 5.09

rxy = COVxy / (SDx * SDy) rxy = 5.09 / (2.26 * 2.75) = .82

6

Page 4: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

Relation nulle rxy = .00, ns

Y

X 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1

7

Relation nulle rxy = .04, ns

Y

X 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1

8

Page 5: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

Relation de –1 à +1

Y

X

Y

X

rxy = .92 rxy = –.95

9

Nuage de points dans SPSS

10

Page 6: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

Nuage de points dans SPSS

11

Corrélation et échantillon

  La significativité d’une corrélation va dépendre de la grandeur de l’échantillon   Plus l’échantillon sera grand, plus la r sera significative

Taille d’échantillon nécessaire:

  N = 40, minimum souvent

  N = 80-100, plus stable

  N = 200, plus de chances d’avoir les vraies corrélations

12

Page 7: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

La significativité d’une corrélation

  La corrélation est-elle significative?   Si j’obtiens rxy = .30 et n = 30, cette corrélation est-

elle significative?

 Est-elle statistiquement différente d’une population ayant rxy = .00

 Comme pour le test z et t, je vais calculer mon erreur standard à partir du n.   Donc plus j’ai un grand n, plus mon erreur sera petite

13

Grandeur d’une corrélation

r = .50 Large

r = .30 Moyenne

r = .10 Petite

  r2 = variance expliquée par la variable x de la variable y (en moyenne dans mon échantillon)   Coefficient de détermination

  .82 * .82 = La satisfaction au travail explique en moyenne 67% de la performance. En d’autres mots, 67% de la satisfaction au travail est associée à la performance.

14

Page 8: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

P P S Performance Satisfaction S

La corrélation en termes de variance

rxy = 0 rxy = .35 ou -.35 rxy = .92 ou -.92

15

La corrélation et l’étendue d’une mesure

  Une mesure tronquée donnera une corrélation biaisée

Y

X

Y

X 16

Page 9: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

Corrélation et choix d’échantillon

Dépression

personnalité 17

Corrélation avec une variable continue et dichotomique (0 et 1 ou 1 et 2)

18

Page 10: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

10 

Deux variables dichotomiques

  Si deux variables dichotomiques: Coefficient Phi

  Sa significativité sera égale à celle d’un khi-carré

19

Corrélations

20

Page 11: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

11 

Entrer les variables à corréler

Cliquer sur paste Fort pratique pour ajouter des variables à la main

21

Le Tableau de corrélations

22

Page 12: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

12 

Différence entre deux corrélations (échantillons indépendants)

  Transformer les deux rs en score z

  On peut ensuite facilement les comparer

  Similaire à comparer deux moyennes de deux échantillons

  http://faculty.vassar.edu/lowry/rdiff.html

  Si le résultat est significatif (p < .05), les deux corrélations sont différentes l’une de l’autre

23

Différence entre deux corrélations (même échantillon)

  Le test t est approprié à cette analyse (Cohen & Cohen, 1983)

  Voir syntaxe spss sur site web

* Dependent Correlation Comparison Program. * Compares correlation coefficients from the same sample. * See Cohen & Cohen (1983), p. 57.

DATA LIST free /rxy rvy rxv. BEGIN DATA. .22 .07 .236 END DATA.

* Define the sample size. COMPUTE n =335

rxy = corrélation entre 1ère var ind. et var. dép.

rvy = corrélation entre 2e var ind. et var. dép.

rxv = corrélation entre 1ère et 2e var. ind.

Entrer dans l’ordre ces corrélations

Indiquer la grandeur de l’échantillon ici 24

Page 13: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

13 

La corrélation partielle: L’effet indépendant de X sur Y

  Je veux retirer la variance associée à une autre variable avant de regarder ma corrélation entre X et Y

Age

Y S

rxy entre S et P (Y) sera significatif, mais plus petit que si la variance de la variable age n’était pas enlevée

P

Age

S

rxy entre S et P (Y) sera significatif et le même avant et après le retrait de la variance de la variable age

rxy entre S et P (Y) sera Probablement non significatif, une fois la variance age retirée

Age Y

S

25

Corrélation partielle

26

Page 14: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

14 

Entrer les variables

Variables à corréler entre elles

Variables dont on veut contrôler l’effet

27

Output

28

Page 15: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

15 

Régression simple

  Idem à la corrélation

  B = beta non-standardisé

  β= beta standardisé = rxy

  β= matrice des betas non-standardisés

  Constante = a

  Erreur = e

29

5

4

3

2

1

Valeurs de Y

Valeurs de X 1 2 3 4 5 6 7 8 9

A

F

E

D

C

B Y = bx + a

A et B

C

D

E

F

+

+

-

-

-

-

b = rxy(SDy/SDx)

a = My – b(Mx)

e = Y - Y

a

Equation générale: y = a + bx + e

30

Page 16: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

16 

Output de SPSS

Satisfaction au travail

Performance

Performance

31

Les Matrices

y x1

3 2

2 3

4 5

5 7

8 8

y1 = 3 = 1 * B0 + 2 * B1 + e1

y2 = 2 = 1 * B0 + 3 * B1 + e2

y3 = 4 = 1 * B0 + 5 * B1 + e3

y4 = 5 = 1 * B0 + 7 * B1 + e4

y5 = 8 = 1 * B0 + 8 * B1 + e2

y = Χβ + e

Χ β e

32

Page 17: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

17 

Les Matrices Χ β e

Yprédit pour sujet 1 = .50 + .64*2 = 1.78

Y pour sujet 1 = 3 = .50 + .64*2 + 1.22

Notes: Ces betas sont non-standardisés (ils reflètent l’échelle de mesure utilisée). La même équation peut être utilisé pour calculer les betas standardisés si les données (x) sont standardisés préalablement (score z) 33

Régression simple

34

Page 18: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

18 

Entrer les variables du Block 1

Variable dépendante

Variables indépendantes

35

Statistics

36

Page 19: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

19 

Graphique des résiduels (permet aussi de détecter les outliers multivariés…)

Cliquer sur continue, puis sur paste 37

Le modèle général de régression

Variance expliquée par le modèle

% de variance supplémentaire expliquée par les variables incluses dans un 2e Bloc

Test F de la significativité du % de variance supplémentaire expliquée par les variables incluses dans le 2e Bloc

Significativité du test F

38

Page 20: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

20 

Résultats des betas

Beta non-standardisé de la variable

Beta standardisé pour la variable

Test-t du beta: est-il différent de zéro?

Significativité du test-t

Pearson Partiel Semi-partiel

Illustration avec scores standardisés

Illustration des valeurs prédites + valeurs résiduelles 39

Postulats de la régression   Normalité de la variable dépendante

  Homoscédasticité: L’erreur (ou les résiduels) sont répartis également à chacune des différentes valeurs des prédicteurs: Si non, 1) la variable dépendante a besoin d’être normalisée, 2) il manque des prédicteurs dans le modèle

40

Page 21: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

21 

Normalité des résiduels

41

Homoscédasticité et outliers multivariés

42

Page 22: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

22 

Dans SPSS

Double-cliquez dans le graphique des résiduels

Choisir la cible et cliquer sur le point à vérifier/problématique. Le # du participant apparaîtra. Filtrer ce participant et refaire l’analyse sans celui-ci

43

Outliers multivariés

  Toujours procéder à l’analyse des outliers un à la fois

  Un outlier est un participant qui modifie significativement les betas de la régression

  Ne jamais exclure un participant qui semble outlier si son inclusion/exclusion ne modifie pas significativement les résultats

  Toujours prendre une décision en regard de la puissance du test statistique (la taille de l’échantillon)

44

Page 23: Corrélation et Régression - ELABORER2/2/11 2 Covariation Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient

2/2/11 

23 

Distance de Mahalanobis COMPUTE id = $CASENUM. exe. REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA COLLIN TOL CHANGE ZPP /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT performance /METHOD=ENTER satisfaction /SCATTERPLOT=(*ZRESID ,*ZPRED) /RESIDUALS HIST(ZRESID) NORM(ZRESID) outliers (mahal) id(id).

La valeur mahalanobis s’interprète comme un chi-carré avec pour degré de liberté le nombre de variables indépendantes dans le modèle

Voir http://www.swogstat.org/stat/public/chisq_calculator.htm pour calcul de la valeur critique

Calcule une variable « id » pour identifier la ligne dans le fichier de données correspondant au participant outlier

45

Exercice   À partir de la base de données cours3.sav:

1.  Calculer la corrélation entre les variables age et performance. 2.  Quelle est la plus grande corrélation entre les variables heures

de travail/sem, les mesures de climat de travail, la satisfaction au travail et la performance?

3.  La corrélation entre age et performance est-elle significativement différente de celle entre satisfaction au travail et performance? Rapporter les statistiques.

4.  Quelle est la corrélation entre satisfaction au travail et performance après avoir contrôlé pour l’effet de l’âge?

5.  Quels sont les betas non-standardisés et standardisés du modèle de régression où leadership prédit performance?

6.  Vérifier les postulats d’un tel modèle et corriger les s’il y a lieu.

7.  Y a-t-il des outliers multivariés dans ce modèle de régression?

Interprétez les résultats de chacune des questions en fonction du contexte de l’étude 46