View
44
Download
0
Category
Preview:
DESCRIPTION
hguif
Citation preview
1
CORELAŢII ŞI REGRESII
Tudor Călinici
2015
OBIECTIVE
Determinarea existenței relației dintre două variabile cantitative continue interpretând valoarea coeficientului de corelație / determinare
Estimarea unuia dintre parametrii cu ajutorul regresiei lineare
Verificarea semnificației statistice a unei corelații
2
3
Statistici descriptive în două dimensiuni
Colesterol X: X1, X2,..., Xn
T.A.S. Y: Y1, Y2,..., Yn.
1. Să se stabilească dacă există o legătură între variabilele X şi Y (cantitative continue) şi să se determine o modalitate de a măsura intensitatea acestei legături.
Coeficientul de corelaţie Pearson /coeficientul de determinare
2. Să se stabilească dacă Y depinde de X şi dacă da în ce formă se realizează această dependenţă.
Funcţia de regresie
Legătura, dacă există, are semnificaţie statistică?
Variabile cantitative continue
Serie statistică bivariată şi bidimensională
Legătura între variabile are sens
4
Raţionament
Pentru un grup de n persoane observăm două caracteristici continue, între care avem motive să credem că există o legătură
Fiecarei persoane îi este asociată o pereche de valori (xi , yi)
Această pereche poate fi reprezentată pe un grafic ca un punct cu coordonatele (xi , yi)
5
Exemplu I
6
Exmplu II
7
Exemplu III
8
9
Statistici descriptive în două dimensiuni.
Diagrama de dispersie
X
Y
*
*
* *
*
*
*
*
*
*
*
*
III IV
*
*
*
*
II I
* *
*
*
* *
*
*
*
10
Statistici descriptive în două dimensiuni.
Diagrama de dispersie
X
Y
*
*
*
III IV
*
II I
**
* *
*
**
*
*
*
**
*
*
*
*
*
*
*
**
*
11
Statistici descriptive în două dimensiuni.
Diagrama de dispersie
X
Y
*
**
*
*
*
*
*
*
*
III IV
*
II I
**
*
**
*
*
*
*
*
*
**
*
*
*
*
**
*
*
12
Indici de corelaţie
Suma produselor ecart
(SPE)
))(( YiYX
n
iiXSPE
1
Covarianţa COV(X,Y)
))((),( YiYX
n
ii
Xn
YXCOV
1
1
Coeficientul de corelaţie
al lui Pearson r
CO V X Y
S SX Y
( , )
Coeficientul de
determinare
d = r2.
13
Interpretări ale coeficientului de
corelaţie a) Coeficientul de corelaţie măsoară intensitatea relaţiei
dintre variabilele X şi Y şi valoarea sa r este cuprinsă între -1
şi 1.
b) Dacă r=1 punctele sunt situate pe o dreaptă de pantă
pozitivă (crescătoare).
c) Dacă 0 < r < 1, norul de puncte poate fi înlocuit (ajustat)
printr-o dreaptă de pantă pozitivă .
Dispersia punctelor în jurul dreptei de regresie va fi cu atât
mai mare cu cât r se apropie de 0 şi cu atât mai mică cu cât r se
apropie de 1.
d) Dacă -1 < r < 0 atunci norul de puncte poate fi aproximat
cu o dreaptă de pantă negativă. Dispersia punctelor faţă de
dreaptă va fi cu atât mai mică cu cât r este mai apropiat de -1.
e) dacă r=-1 atunci toate punctele sunt situate pe o dreaptă de
pantă negativă.
14
Corelaţii
Regula empirică a lui Colton (1974) i) r între -0.25 şi 0,25 = nu există corelaţie
ii) r între 0.25 şi 0.50 (sau -0.50 si -0.25 -0.50) = un nivel de asociere slab, spre acceptabil
iii) r între 0.5 şi 0.75 (sau -0.75 si -0.5) = un nivel de asociere moderat (accepabil) către bun
iv) r între 0.75 şi 1 (sau –1 si -0.75) = un nivel de asociere bun spre foarte bun
15
Coeficientul de corelaţie al lui
Spearman
Descrie relaţia între două variabile ordinale sau una
ordinală si una cantitativă
17
Drepte de regresie pentru variabile
cantitative continue
Dreapta de regresie Y(X):
y = a + b x
Seria statistică
18
Inaltime Greutate Inaltime Greutate Inaltime Greutate Inaltime Greutate
150 46 167 97 185 111 181 68
150 51 168 100 185 119 158 87
150 50 173 96 166 76 158 85
165 82.5 175 58 188 82 167 107
165 81 175 75 157 82.5 167 102
175 86 175 79 160 75 158 60
158 76 174 73 162 62 158 68
160 61 174 69 153 89 152 92.5
157 69 185 79 153 86 152 92
160 98 163 59 153 86 164 40
160 104 163 60 175 83 164 58
162 54 151 77 161 69 172 63
180 106 176 68 161 69 179 82.5
178 105 176 76 161 53 160 82
178 101 159 63 170 72 172 95
156 63 159 62 165 100 154 75.5
165 121.5 159 58 160 65.5 162 65
154 84 165 78 160 66 160 68
175 68 172 86 168 59 160 66
160 115 158 91 167 54.2 172 125
158 78 156 48 167 60 156 84
165 74.5 156 40 167 59 184 110
182 79 160 51.5 167 59 175 86
182 83 160 45.5 170 81 175 74.5
182 83 160 46.5 170 86 173 90
172 72 160 47 177 84.5 173 98
155 73 160 51 177 84.5 173 90
173 71 160 46 157 72.5 173 92
170 90 160 46.5 160 60 160 72
167 98 185 97 181 53 160 73
19
Reprezentare grafică
0
20
40
60
80
100
120
140
0 50 100 150 200
Gre
uta
te
Înalţime
Corelaţie între greutate şi înălţime
Dreapta de regresie
20
0
20
40
60
80
100
120
140
0 20 40 60 80 100 120 140 160 180 200
Gre
uta
te
Înalţime
Corelaţie între greutate şi înălţime
21
Coeficienţii dreptei de regresie
Dreapta de regresie Y(X)
min ( ),a b R
i
i
n
ia bX Y
1
2
Valorile lui a şi b pentru care este atins minimul
sumei precedente sunt date prin formulele:
bCOV X Y
SX
( , )
.
a Y b X
Graficul de corelaţie
22
y = 0.7387x - 46.334
R² = 0.1369
0
20
40
60
80
100
120
140
0 50 100 150 200
Gre
uta
te
Înalţime
Corelaţie între greutate şi înălţime
Graficul de corelaţie în
Excel
Este de tip scatter (nor de puncte)
Tot timpul, prima variabilă (cea din stânga) va fi reprezentată pe axa OX
Nu are NICIODATĂ legendă!
Nu este complet până când nu este trasată dreapta de regresie
Conţine ecuaţia dreptei de regresie precum şi coeficientul de determinare
23
24
Variaţia reziduală
Variaţia reziduală asociată dreptei de regresie Y(X)
este egală cu media aritmetică a pătratelor abaterilor
reziduale punctuale (abaterilor punctelor diagramei de
dispersie de la dreapta de regresie), adică
Sn
Y YR ii
n
i
2
1
21
( )^
,
unde Y a bXi i
^
, i=1,2,…,n.
Variaţia reziduală SR2 reprezintă o măsură a
dispersiei norului de puncte în jurul dreptei de regresie.
Semnificaţia statistică
Se utilizează un test de semnificaţie
Rezultatul este o valoare p între 0 şi 1
Dacă p < 0,05 atunci spunem că corelaţia are semnificaţie statistică
25
Corelație nu înseamnă
cauză!!!
26
Corelaţie
În primul rând se verifică tipul variabilelor
Dacă variabilele sunt cantitative se verifică daca corelaţia este posibilă la nivel logic
Se calculează puterea relaţiei
Dacă corelaţia există, se interpretează sensul şi semnificaţia statistică 27
Sensul
Semnul coeficientului de corelaţie
sau
Semnul lui x din ecuaţia dreptei de regresie
Aceste două semne trebuie să coincidă! 28
Întrebări
Cum apreciaţi corelaţia dacă coeficientul de corelaţie între TAS şi TAD este de 0,73 şi p=0,02
29
Întrebări
30
Cum apreciaţi corelaţia dacă coeficientul de determinare între TAS şi CNP este de 0,84 iar p = 0,12
Întrebări
31
Cum apreciaţi corelaţia dacă coeficientul de corelaţie între vârstă şi înălţime este de 0,98 iar dreapta de regresie are ecuaţia y=-3x+110, p<0,05
Întrebări
Cum apreciaţi corelaţia dacă coeficientul de determinare între vârstă şi densitatea osoasă este de 0,58 iar dreapta de regresie are ecuaţia y=-3x+110, la un p=0,01
32
TEMĂ
TEMĂ
Durata de spitalizare este legată de faptul că au primit antibiotice? Argumentați
Durata de spitalizare este legată de faptul că au suferit o manoperă chirurgicală?
Argumentați
Durata de spitalizare este legată numărul de leucocite (WBC)?
Argumentați
Durata de spitalizare este legată vârsta pacienților? Argumentați
TEMĂ
Scrieţi răspunsurile într-un fişier Word folosind elementele de formatare învăţate
expediaţi fișierul Word ataşat la un email pe adresa tcalinici@umfcluj.ro până cel târziu în dimineața examenului practic
emailurile ulterioare nu vor fi luate în considerare
În corpul email-ului vă rog să vă scrieți numele și grupa
Vă mulţumesc pentru
atenţie
36
Recommended