STAT-I301Chapitre V: Correlation et regression lineaire
Caroline Verhoeven
Table des matieres
1 Association de 2 variables quantitatives
2 Correlation lineaireCoefficient de correlationInference pour la correlation
3 Regression lineaireFormule pour la droite de regressionInference pour la regression
4 Lien entre la correlation et la regression
5 Les problemesNe pas extrapolerUn graphique dit beaucoup
Caroline Verhoeven STAT-I301 2 / 43
1. Association de 2 variables quantitatives
Le nuage de points I
Exemple 1
L’association de la taille et du poids d’un individu a beaucoup ete etudie.Ici on considere la taille et le poids des medailles d’or masculins francaisaux JO de Sidney (2000)
Nom taille poidsAndrieux 192 97Asloum 165 63Bette 186 70Douillet 196 125Dumoulin 171 64Estanguet 182 75Ferrari 187 83Gane 176 79Martinez 164 50Rousseau 182 85
Caroline Verhoeven STAT-I301 3 / 43
1. Association de 2 variables quantitatives
Le nuage de points II
Comment voir le lien entre 2 variables quantitatives visuellement ?
16517017518018519019540
60
80
100
120
taille
poid
s
La taille : coordonnees x , le poids : coordonnees y
Caroline Verhoeven STAT-I301 4 / 43
1. Association de 2 variables quantitatives
Relation lineaire
Si on regarde le graphique, il paraıt etire le long d’une droite
16517017518018519019540
60
80
100
120
taille
poid
s
On dit qu’il y a une relation lineaire entre les 2 variables
Caroline Verhoeven STAT-I301 5 / 43
1. Association de 2 variables quantitatives
Relation lineaire positive et negative
Relation lineaire positive :y grandit avec x
0.0 0.5 1.0 1.5 2.0 2.5 3.01234567
x
y
Relation lineaire negative :y diminue quand x augmente
0.0 0.5 1.0 1.5 2.0 2.5 3.00123456
x
y
Caroline Verhoeven STAT-I301 6 / 43
2. Correlation lineaire 1. Coefficient de correlation
Coefficient de correlation : definition
Le coefficient de correlation r :donne l’intensite d’une relation lineaire
dit si cette relation est positive ou negative
−1 ≤ r ≤ 1
Caroline Verhoeven STAT-I301 7 / 43
2. Correlation lineaire 1. Coefficient de correlation
Coefficient de correlation et non linearite
Coefficient de correlation : donne l’intensite de la relation lineaire
−1 −0.5 0 0.5 1−1
−0.9
−0.8
−0.7
−0.6
−0.5
−0.4
−0.3
−0.2
−0.1
0
r = 0
Caroline Verhoeven STAT-I301 8 / 43
2. Correlation lineaire 1. Coefficient de correlation
Coefficient de correlation : calcul I
Formule pour le coefficient de correlation de Pearson :
r =1
N − 1
N∑
i=1
(
xi − xsx
)(
yi − ysy
)
=1
(N − 1)sxsy
N∑
i=1
(xi − x)(yi − y)
Caroline Verhoeven STAT-I301 9 / 43
2. Correlation lineaire 1. Coefficient de correlation
Coefficient de correlation : calcul II
Exemple 1
Nom xi yi xi − x yi − y (xi − x)(yi − y)Andrieux 192 97 11,9 17,9 213,01Asloum 165 63 -15,1 -16,1 243,11Bette 186 70 5,9 -9,1 -53,69Douillet 196 125 15,9 45,9 729,81Dumoulin 171 64 -9,1 -15,1 137,41Estanguet 182 75 1,9 -4,1 -7,79Ferrari 187 83 6,9 3,9 26,91Gane 176 79 -4,1 -0,1 0,41Martinez 164 50 -16,1 -29,1 468,51Rousseau 182 85 1,9 5,9 11,21Total 1768,9
x = 180,1y = 79,1
sx = 10,91sy = 20,85
r = 0,864
Caroline Verhoeven STAT-I301 10 / 43
2. Correlation lineaire 1. Coefficient de correlation
Coefficient de correlation : Interpretation graphique
+
+
-
-
16517017518018519019540
60
80
100
120
taille
poid
sx
yContribution du sujet i :(
xi − xsx
)(
yi − ysy
)
Haut-droite : contribution positive
Bas-gauche : contribution positive
Haut-gauche : contribution negative
Bas-droite : contribution negative
xi − x yi − y (xi − x)(yi − y)+ + +
- - +
- + -
+ - -
Caroline Verhoeven STAT-I301 11 / 43
2. Correlation lineaire 1. Coefficient de correlation
Correlation 6= causalite
Exemple 2
Des chercheurs allemands (Sies, 1998 ;Hoffer, 2004) ont trouve une fortecorrelation entre le nombre de nids decigognes et le taux de natalite aBrandbourg.
Le nombre de nids et le taux denaissance ont baisse simultanemententre 1965 et 1980
Cela demontre-t-il la theorie descigognes ?
NON !
Une explication alternative pour ces 2phenomenes : l’urbanisation
Caroline Verhoeven STAT-I301 12 / 43
2. Correlation lineaire 2. Inference pour la correlation
Quand il y a-t-il correlation ?
ρ : coefficient de correlation de Pearson entre 2 variables au seind’une population
Les 2 variables sont elles correlees ?
Probleme : en general on ne connaıt pas ρ
On connaıt r : coefficient de correlation pour 1 echantillon
Comment utiliser r pour repondre a notre question ?
Caroline Verhoeven STAT-I301 13 / 43
2. Correlation lineaire 2. Inference pour la correlation
Test de conformite pour r : exemple
Exemple 1
Retour a nos medailles d’orLe poids et la taille de medailles d’or masculins sont ils correles a untaux α = 0,05 ?
On a un echantillon de N = 10 medailles d’or masculins
On a calcule r = 0,864
Caroline Verhoeven STAT-I301 14 / 43
2. Correlation lineaire 2. Inference pour la correlation
Test de conformite pour r : Principe
Formulation d’hypothesesH0 : ρ = 0Ha : ρ 6= 0
Calcul de la statistique
t =rsr, sr =
√
1 − r2
N − 2
T ∼ t(df = N − 2)
Caroline Verhoeven STAT-I301 15 / 43
2. Correlation lineaire 2. Inference pour la correlation
Test de conformite pour r : Resolution de l’exemple
Exemple 1
Le poids et la taille de medailles d’or masculins sont ils correles a untaux α = 0,05 ?
N = 10, r = 0,864
Calcul de la statistique :
sr =
√
1 − r2
N − 2= 0,178 ⇒ t =
rsr
= 4,86
Calcul de la valeur p :
p = 2P(T ≥ 4,86) = 0,0013 < α = 0.05
On rejette H0
p
2-6 -4 -2 2,31 t
0,1
0,2
0,3
Caroline Verhoeven STAT-I301 16 / 43
2. Correlation lineaire 2. Inference pour la correlation
Conditions
Les echantillons doivent etre aleatoires simple
Les 2 variables doivent avoir une distribution normale
Caroline Verhoeven STAT-I301 17 / 43
3. Regression lineaire
Regression
Regression : Methode pour predire la valeur d’une variablequantitative a partir de la valeur d’une autre.
On determiner une fonction y = f (x) modelisant la relation entre Yet X .
La fonction la plus simple : une droite ⇒ regression lineaire.
Caroline Verhoeven STAT-I301 18 / 43
3. Regression lineaire 1. Formule pour la droite de regression
Droite de regression : Exemple I
Exemple 2
Quelle est la relation entre la frequence cardiaque maximum (FCM) etl’age chez des coureurs ?Les valeurs de ces 2 variables ont ete mesurees chez 13 hommess’entraınant regulierement et participant a des petites competitions
age FCM age FCM40 187 55 18536 195 55 18951 180 23 20149 190 49 18947 185 52 18551 183 35 19532 195
Caroline Verhoeven STAT-I301 19 / 43
3. Regression lineaire 1. Formule pour la droite de regression
Droite de regression : Exemple II
Exemple 2
L’exemple des coureurs nous donne ce nuage de points :
25 30 35 40 45 50 55180
185
190
195
200
Age
FC
M
Quelle est la “meilleure” droite passant a travers ces points ?
Caroline Verhoeven STAT-I301 20 / 43
3. Regression lineaire 1. Formule pour la droite de regression
Droite de regression : Calcul I
Equation d’une droitey = b0 + b1x
b0 : l’ordonnee a l’origine
b1 : pente
b0 ? b1 ?
Caroline Verhoeven STAT-I301 21 / 43
3. Regression lineaire 1. Formule pour la droite de regression
Droite de regression : Calcul II
d1 d2
d3
d4
40 45 50 55
180
184
188
192
Age
FC
M yi : valeur d’Y pour le sujet i
yi= b0 + b1xi
di = yi − yi : “residu”
La “meilleure” droite : celle qui minimise
Q =N∑
i=1
d2i
Caroline Verhoeven STAT-I301 22 / 43
3. Regression lineaire 1. Formule pour la droite de regression
Droite de regression : Calcul III
y = b0 + b1x b0,b1?
b0 b1 tel qu’on minimise
Q =N∑
i=1
d2i =
N∑
i=1
(yi − yi)2 = (yi − b0 − b1xi)
2
Solution :
b1 =
∑Ni=1(xi − x)(yi − y)∑N
i=1(xi − x)2
b0 = y − b1x
Remarque 3
y = b0 + b1x : La droite de regression passe toujours par le point (x ,y)
Caroline Verhoeven STAT-I301 23 / 43
3. Regression lineaire 1. Formule pour la droite de regression
Droite de regression : Resolution de l’exemple I
Exemple 2
xi yi (xi − x) (yi − y) (xi − x)(yi − y) (xi − x)2
40 187 -4,23 -2,15 9,11 17,9036 195 -8,23 5,85 -48,11 67,7551 180 6,77 -9,15 -61,96 45,8249 190 4,77 0,85 4,04 22,7547 185 2,77 -4,15 -11,50 7,6751 183 6,77 -6,15 -41,66 45,8232 195 -12,23 5,85 -71,50 149,5955 185 10,77 -4,15 -44,73 115,9855 189 10,77 -0,15 -1,66 115,9823 201 -21,23 11,85 -251,50 450,7549 189 4,77 -0,15 -0,73 22,7552 185 7,77 -4,15 -32,27 60,3635 195 -9,23 5,85 -53,96 85,21
-606,41 1208,31
x = 44,23
y = 189,15
Caroline Verhoeven STAT-I301 24 / 43
3. Regression lineaire 1. Formule pour la droite de regression
Droite de regression : Resolution de l’exemple II
Exemple 2
b1 =
∑Ni=1(xi − x)(yi − y)∑N
i=1(xi − x)2=
−606,411208,31
= −0,50
b0 = y − b1x = 189,15 + 0,50 · 44,23 = 211,35
Equation de la droite de regression :
y = 211,35 − 0,50x
25 30 35 40 45 50 55
185
190
195
200
Age
FC
M
x
y
Caroline Verhoeven STAT-I301 25 / 43
3. Regression lineaire 2. Inference pour la regression
Inference statistique
2 variables ont une relation lineaire dans 1 population avec unedroite de regression
y = β0 + β1x
β0, β1 ?
On connaıt b0 et b1
Trouver de l’info sur β0,β1 a partir de b0,b1
Caroline Verhoeven STAT-I301 26 / 43
3. Regression lineaire 2. Inference pour la regression
Conditions
di = yi − yi ∼ N (0,σ2)
σ : independant de xHomocedasticite
0 1 2 3 4 50
5
10
15
20
Age
FC
M
Heterocedasticite
0 1 2 3 4 50
5
10
15
20
25
Age
FC
MLes mesures doivent etre independantes
Caroline Verhoeven STAT-I301 27 / 43
3. Regression lineaire 2. Inference pour la regression
Intervalle de confiance : Exemple
Exemple 2
Considerons a nouveau l’exemple avec les coureurs ?
Quelle est la droite de regression reliant l’age et la frequencecardiaque maximum pour des coureurs s’entrainant regulierement etparticipant a des petites competitions ?
On ne connaıt pas cette droite
On connaıt la droite de regression pour un echantillon
Quel est l’intervalle de confiance pour la pente β1 et l’ordonnee al’origine β0 ?
Caroline Verhoeven STAT-I301 28 / 43
3. Regression lineaire 2. Inference pour la regression
Intervalle de confiance : La variance residuelle
Pour chaque point (xi ,yi) la deviation totale par rapport a y est :
yi − ydeviation
totale
= (yi − yi)
deviationexpliquee
+(yi − y)deviationresiduelle
di = yi − yi : le residu
La variance residu σ2res de la population n’est pas connue
Cette variance est estimee par :
s2res=
1N − 2
N∑
i=1
d2i
Caroline Verhoeven STAT-I301 29 / 43
3. Regression lineaire 2. Inference pour la regression
Intervalle de confiance pour la pente
Estimation de la variance de la pente b1 :
s2b1
=s2
res∑N
i=1(xi − x)2
L’intervalle de confiance de 95% pour β1
[
b1 − tN−2;0,975sb1; b1 + tN−2;0,975sb1
]
tN−2;97,5 : 97,5emecentile pour la distribution t (df = N − 2)
L’intervalle de confiance de niveau 1 − α
[
b1 − tN−2;1−α/2sb1; b1 + tN−2;1−α/2sb1
]
tN−2;1−α/2 : 100(1 − α/2) centile pour la distribution t (df = N − 2)
Caroline Verhoeven STAT-I301 30 / 43
3. Regression lineaire 2. Inference pour la regression
Intervalle de confiance pour l’ordonnee a l’origine
Estimation de la variance de l’ordonnee a l’origine b0 :
s2b0
= s2res
(
1N
+x2
∑Ni=1(xi − x)2
)
L’intervalle de confiance de 95% pour β0
[
b0 − tN−2;0,975sb0; b0 + tN−2;0,975sb0
]
tN−2;97,5 : 97,5eme centile pour la distribution t (df = N − 2)
L’intervalle de confiance de niveau 1 − α
[
b0 − tN−2;1−α/2sb0; b0 + tN−2;1−α/2sb0
]
tN−2;1−α/2 : 100(1 − α/2) centile pour la distribution t (df = N − 2)
Caroline Verhoeven STAT-I301 31 / 43
3. Regression lineaire 2. Inference pour la regression
Intervalle de confiance : Resolution de l’exemple I
Exemple 2
xi yi yi (yi − yi) (yi − yi)2
40 187 191,28 -4,28 18,3036 195 193,28 -1,72 2,9451 180 185,76 -5,76 33,1449 190 186,76 3,24 10,5047 185 187,76 -2,76 7,6451 183 185,76 -2,76 7,6032 195 195,29 -0,29 0,0955 185 183,75 1,25 1,5755 189 183,75 5,25 27,5823 201 199,81 1,19 1,4249 189 186,76 2,24 5,0252 185 185,25 -0,25 0,0735 195 193,79 1,21 1,47
117,30
x = 44,23
y = 189,15N∑
i=1
(xi − x)2 = 1208,31
s2res=
117,3011 = 10,66
s2b1
=10,66
1208,31= 0,0088
s2b0
=
10,66(
113
+(44,23)2
1208,31
)
=
18,09
Caroline Verhoeven STAT-I301 32 / 43
3. Regression lineaire 2. Inference pour la regression
Intervalle de confiance : Resolution de l’exemple II
Exemple 2
Intervalle de confiance de 95% pour β1 :b1 = −0,50, sb1 =
√0,0088 = 0,09, t11;0,975 = 2,20
Et donc
[b1 − tN−2;0,975sb1 ;b1 + tN−2;0,975sb1 ] = [−0,71;−0,30]
Intervalle de confiance de 95% pour β0 :b0 = 211,35, sb0 =
√18,09 = 4,25, t11;0,975 = 2,20
Et donc
[b0 − tN−2;0,975sb0 ;b0 + tN−2;0,975sb0 ] = [201,99;220,71]
Caroline Verhoeven STAT-I301 33 / 43
3. Regression lineaire 2. Inference pour la regression
Test de conformite pour β1
Test de conformite pour β1... mais on ne connaıt pas β1 ? ? ?
On suppose une certaine valeur β1c pour β1 et on regarde si c’estconforme avec le b1 qu’on a.Formulation des hypotheses
H0 : β1 = β1c
Ha : β1 6= β1c
Calcul de la statistique
t =b1 − β1c
sb1
, T ∼ t(df = N − 2)
Caroline Verhoeven STAT-I301 34 / 43
3. Regression lineaire 2. Inference pour la regression
Test de conformite pour β1 : Exemple
Exemple 2
Peut on dire que la frequence cardiaque maximale change avec l’ageavec un taux α = 0,05 ?
Formulations des hypothesesH0 : β1 = 0Ha : β1 6= 0
Calcul de la statistique
t =b1
sb1
= −5,34, T ∼ t(df = 11)
Calcule de la valeur p :
p = 2P(T ≤ −5,34) = 0,0002 < α = 0,05
On rejette H0
Caroline Verhoeven STAT-I301 35 / 43
4. Lien entre la correlation et la regression
Lien entre le coefficient de correlation et la pente
b1 =
∑Ni=1(xi − x)(yi − y)∑N
i=1(xi − x)2=
1N−1
∑Ni=1(xi − x)(yi − y)
1N−1
∑Ni=1(xi − x)2
=1
N−1
∑Ni=1(xi − x)(yi − y)
s2x
=1
(N − 1)s2x
N∑
i=1
(xi − x)(yi − y)
=sy
sx
1(N − 1)sxsy
N∑
i=1
(xi − x)(yi − y) =sy
sxr .
our =
sx
syb1
Caroline Verhoeven STAT-I301 36 / 43
4. Lien entre la correlation et la regression
Coefficient de determination
Le coefficient de determination
r2 =variance expliquee
variance totale=
1N−1
∑Ni=1(yi − y)2
1N−1
∑Ni=1(yi − y)2
=
∑Ni=1(yi − y)2
∑Ni=1(yi − y)2
0 ≤ r2 ≤ 1
Pourquoi note-t-on r2 ?
Parce que c’est le carre du coefficient de correlation
Caroline Verhoeven STAT-I301 37 / 43
4. Lien entre la correlation et la regression
Coefficient de determination et de correlation
On a que
(yi − y)2 = (b0 + b1xi − y)2
= (y − b1x + b1xi − y)2
= b21(xi − x)2
Et donc
r2 =
∑Ni=1(yi − y)2
∑Ni=1(yi − y)2
=b2
1
∑Ni=1(xi − x)2
∑Ni=1(yi − y)2
= b21
∑Ni=1(xi − x)2
∑Ni=1(yi − y)2
= b21
1N−1
∑Ni=1(xi − x)2
1N−1
∑Ni=1(yi − y)2
= b21
s2x
s2y
Caroline Verhoeven STAT-I301 38 / 43
5. Les problemes 1. Ne pas extrapoler
Extrapolation : Exemple I
Exemple 3
En 1995, Heathcote a mesure la longueur des oreilles d’un echantillond’adultes d’au moins 30 ans. Une regression lineaire entre l’age (enannees) et la longueurs des oreilles (en mm) nous donne :
y = 55,9 + 0,22x
0 20 40 60 80 10050556065707580
Age
Long
ueur
orei
lle
Caroline Verhoeven STAT-I301 39 / 43
5. Les problemes 1. Ne pas extrapoler
Extrapolation : Exemple II
y = 55,9 + 0,22x
De la regression : un nouveaux-ne aurait des oreilles longues de55.9mm.Il aurait l’air de Dumbo
Conclusion :On ne peut pas extrapoler le resultat pour des adultes vers des enfants
Caroline Verhoeven STAT-I301 40 / 43
5. Les problemes 1. Ne pas extrapoler
Ne jamais extrapoler !
Il ne faut pas utiliser les resultats de la regression si :
Si le x est plus petit que le plus petit des xi utilises pour la regression
Si le x est plus grand que le plus grand des xi utilises pour laregression
Caroline Verhoeven STAT-I301 41 / 43
5. Les problemes 2. Un graphique dit beaucoup
Les chiffres ne disent pas tout
Toujours faire un graphique avant de commencer
Pour tous le 4 :
x = 9
y = 7,50
r = 0,816
b0 = 0,500
b1 = 3,00
Caroline Verhoeven STAT-I301 42 / 43
5. Les problemes 2. Un graphique dit beaucoup
Plot residuel
On fait un graphique de yi − yi en fonction des xi
Haut-gauche : ok
Les autres : pas ok
Caroline Verhoeven STAT-I301 43 / 43