Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
2/2/11
1
Corrélation et Régression Cours#3 Frederick Philippe
1
Corrélation
Relation bivariée Relation entre deux variables
Idéalement continues (variables indépendantes peuvent être dichotomiques: 0 et 1)
La variable x est-elle reliée/associée/corrélée à la variable y?
Pas de causation. Juste une association.
Ex. La satisfaction des employés est-elle associée à la performance?
2
2/2/11
2
Covariation
Il n’y a pas de causalité, une simple association entre deux variables. Il est impossible de déterminer laquelle vient en premier.
Donc la direction de l’interprétation n’est pas claire Effet d’une 3e variable
Ex. La mesure de satisfaction au travail reflète plutôt un trait de personnalité où une variable environnementale qui elle est la vraie cause de la performance. Les gens plus extravertis sont plus satisfaits au travail
3
Calculs du r
rxy = COVxy / (SDx * SDy)
COVXY = (Σ(Xi – Mx)(Yi – My)) /(n – 1)
X: Satisfaction
Y: Performance
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
4
2/2/11
3
Calculs du r
rxy = COVxy / (SDx * SDy)
COVXY = (Σ(Xi – Mx)(Yi – My)) /(n – 1)
La corrélation est donc une covariation entre deux variables dont les écart-types ont été retirés. C’est donc une variable standardisée.
Va de +1 à -1
5
Exemple Participants Xi Yi Xi – Mx Yi – My (Xi – Mx)(Yi – My)
1 1 1 -3 -4.5 13.5 2 2 2 -2 -3.5 7.0 3 3 3 -1 -2.5 2.5 4 5 5 1 -0.5 -0.5 5 6 6 2 0.5 1.0 6 7 7 3 1.5 4.5 7 1 4 -3 -1.5 4.5 8 2 5 -2 -0.5 1.0 9 3 6 -1 0.5 -0.5 10 5 8 1 2.5 2.5 11 6 9 2 3.5 7.0 12 7 10 3 4.5 13.5
Somme 48.00 66.00 0.00 0.00 56.00
Moyenne 4.00 5.50 0.00 0.00
SD 2.26 2.75 COVXY = (Σ(Xi – Mx)(Yi – My)) /(n – 1) COVXY = (56) /(12 – 1) = 5.09
rxy = COVxy / (SDx * SDy) rxy = 5.09 / (2.26 * 2.75) = .82
6
2/2/11
4
Relation nulle rxy = .00, ns
Y
X 1 2 3 4 5 6 7 8 9 10
10 9 8 7 6 5 4 3 2 1
7
Relation nulle rxy = .04, ns
Y
X 1 2 3 4 5 6 7 8 9 10
10 9 8 7 6 5 4 3 2 1
8
2/2/11
5
Relation de –1 à +1
Y
X
Y
X
rxy = .92 rxy = –.95
9
Nuage de points dans SPSS
10
2/2/11
6
Nuage de points dans SPSS
11
Corrélation et échantillon
La significativité d’une corrélation va dépendre de la grandeur de l’échantillon Plus l’échantillon sera grand, plus la r sera significative
Taille d’échantillon nécessaire:
N = 40, minimum souvent
N = 80-100, plus stable
N = 200, plus de chances d’avoir les vraies corrélations
12
2/2/11
7
La significativité d’une corrélation
La corrélation est-elle significative? Si j’obtiens rxy = .30 et n = 30, cette corrélation est-
elle significative?
Est-elle statistiquement différente d’une population ayant rxy = .00
Comme pour le test z et t, je vais calculer mon erreur standard à partir du n. Donc plus j’ai un grand n, plus mon erreur sera petite
13
Grandeur d’une corrélation
r = .50 Large
r = .30 Moyenne
r = .10 Petite
r2 = variance expliquée par la variable x de la variable y (en moyenne dans mon échantillon) Coefficient de détermination
.82 * .82 = La satisfaction au travail explique en moyenne 67% de la performance. En d’autres mots, 67% de la satisfaction au travail est associée à la performance.
14
2/2/11
8
P P S Performance Satisfaction S
La corrélation en termes de variance
rxy = 0 rxy = .35 ou -.35 rxy = .92 ou -.92
15
La corrélation et l’étendue d’une mesure
Une mesure tronquée donnera une corrélation biaisée
Y
X
Y
X 16
2/2/11
9
Corrélation et choix d’échantillon
Dépression
personnalité 17
Corrélation avec une variable continue et dichotomique (0 et 1 ou 1 et 2)
18
2/2/11
10
Deux variables dichotomiques
Si deux variables dichotomiques: Coefficient Phi
Sa significativité sera égale à celle d’un khi-carré
19
Corrélations
20
2/2/11
11
Entrer les variables à corréler
Cliquer sur paste Fort pratique pour ajouter des variables à la main
21
Le Tableau de corrélations
22
2/2/11
12
Différence entre deux corrélations (échantillons indépendants)
Transformer les deux rs en score z
On peut ensuite facilement les comparer
Similaire à comparer deux moyennes de deux échantillons
http://faculty.vassar.edu/lowry/rdiff.html
Si le résultat est significatif (p < .05), les deux corrélations sont différentes l’une de l’autre
23
Différence entre deux corrélations (même échantillon)
Le test t est approprié à cette analyse (Cohen & Cohen, 1983)
Voir syntaxe spss sur site web
* Dependent Correlation Comparison Program. * Compares correlation coefficients from the same sample. * See Cohen & Cohen (1983), p. 57.
DATA LIST free /rxy rvy rxv. BEGIN DATA. .22 .07 .236 END DATA.
* Define the sample size. COMPUTE n =335
rxy = corrélation entre 1ère var ind. et var. dép.
rvy = corrélation entre 2e var ind. et var. dép.
rxv = corrélation entre 1ère et 2e var. ind.
Entrer dans l’ordre ces corrélations
Indiquer la grandeur de l’échantillon ici 24
2/2/11
13
La corrélation partielle: L’effet indépendant de X sur Y
Je veux retirer la variance associée à une autre variable avant de regarder ma corrélation entre X et Y
Age
Y S
rxy entre S et P (Y) sera significatif, mais plus petit que si la variance de la variable age n’était pas enlevée
P
Age
S
rxy entre S et P (Y) sera significatif et le même avant et après le retrait de la variance de la variable age
rxy entre S et P (Y) sera Probablement non significatif, une fois la variance age retirée
Age Y
S
25
Corrélation partielle
26
2/2/11
14
Entrer les variables
Variables à corréler entre elles
Variables dont on veut contrôler l’effet
27
Output
28
2/2/11
15
Régression simple
Idem à la corrélation
B = beta non-standardisé
β= beta standardisé = rxy
β= matrice des betas non-standardisés
Constante = a
Erreur = e
29
5
4
3
2
1
Valeurs de Y
Valeurs de X 1 2 3 4 5 6 7 8 9
A
F
E
D
C
B Y = bx + a
A et B
C
D
E
F
+
+
-
-
-
-
b = rxy(SDy/SDx)
a = My – b(Mx)
e = Y - Y
a
Equation générale: y = a + bx + e
30
2/2/11
16
Output de SPSS
Satisfaction au travail
Performance
Performance
31
Les Matrices
y x1
3 2
2 3
4 5
5 7
8 8
y1 = 3 = 1 * B0 + 2 * B1 + e1
y2 = 2 = 1 * B0 + 3 * B1 + e2
y3 = 4 = 1 * B0 + 5 * B1 + e3
y4 = 5 = 1 * B0 + 7 * B1 + e4
y5 = 8 = 1 * B0 + 8 * B1 + e2
y = Χβ + e
Χ β e
32
2/2/11
17
Les Matrices Χ β e
Yprédit pour sujet 1 = .50 + .64*2 = 1.78
Y pour sujet 1 = 3 = .50 + .64*2 + 1.22
Notes: Ces betas sont non-standardisés (ils reflètent l’échelle de mesure utilisée). La même équation peut être utilisé pour calculer les betas standardisés si les données (x) sont standardisés préalablement (score z) 33
Régression simple
34
2/2/11
18
Entrer les variables du Block 1
Variable dépendante
Variables indépendantes
35
Statistics
36
2/2/11
19
Graphique des résiduels (permet aussi de détecter les outliers multivariés…)
Cliquer sur continue, puis sur paste 37
Le modèle général de régression
Variance expliquée par le modèle
% de variance supplémentaire expliquée par les variables incluses dans un 2e Bloc
Test F de la significativité du % de variance supplémentaire expliquée par les variables incluses dans le 2e Bloc
Significativité du test F
38
2/2/11
20
Résultats des betas
Beta non-standardisé de la variable
Beta standardisé pour la variable
Test-t du beta: est-il différent de zéro?
Significativité du test-t
Pearson Partiel Semi-partiel
Illustration avec scores standardisés
Illustration des valeurs prédites + valeurs résiduelles 39
Postulats de la régression Normalité de la variable dépendante
Homoscédasticité: L’erreur (ou les résiduels) sont répartis également à chacune des différentes valeurs des prédicteurs: Si non, 1) la variable dépendante a besoin d’être normalisée, 2) il manque des prédicteurs dans le modèle
40
2/2/11
21
Normalité des résiduels
41
Homoscédasticité et outliers multivariés
42
2/2/11
22
Dans SPSS
Double-cliquez dans le graphique des résiduels
Choisir la cible et cliquer sur le point à vérifier/problématique. Le # du participant apparaîtra. Filtrer ce participant et refaire l’analyse sans celui-ci
43
Outliers multivariés
Toujours procéder à l’analyse des outliers un à la fois
Un outlier est un participant qui modifie significativement les betas de la régression
Ne jamais exclure un participant qui semble outlier si son inclusion/exclusion ne modifie pas significativement les résultats
Toujours prendre une décision en regard de la puissance du test statistique (la taille de l’échantillon)
44
2/2/11
23
Distance de Mahalanobis COMPUTE id = $CASENUM. exe. REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA COLLIN TOL CHANGE ZPP /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT performance /METHOD=ENTER satisfaction /SCATTERPLOT=(*ZRESID ,*ZPRED) /RESIDUALS HIST(ZRESID) NORM(ZRESID) outliers (mahal) id(id).
La valeur mahalanobis s’interprète comme un chi-carré avec pour degré de liberté le nombre de variables indépendantes dans le modèle
Voir http://www.swogstat.org/stat/public/chisq_calculator.htm pour calcul de la valeur critique
Calcule une variable « id » pour identifier la ligne dans le fichier de données correspondant au participant outlier
45
Exercice À partir de la base de données cours3.sav:
1. Calculer la corrélation entre les variables age et performance. 2. Quelle est la plus grande corrélation entre les variables heures
de travail/sem, les mesures de climat de travail, la satisfaction au travail et la performance?
3. La corrélation entre age et performance est-elle significativement différente de celle entre satisfaction au travail et performance? Rapporter les statistiques.
4. Quelle est la corrélation entre satisfaction au travail et performance après avoir contrôlé pour l’effet de l’âge?
5. Quels sont les betas non-standardisés et standardisés du modèle de régression où leadership prédit performance?
6. Vérifier les postulats d’un tel modèle et corriger les s’il y a lieu.
7. Y a-t-il des outliers multivariés dans ce modèle de régression?
Interprétez les résultats de chacune des questions en fonction du contexte de l’étude 46