Upload
emiko
View
94
Download
0
Embed Size (px)
DESCRIPTION
Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12 3. predavanje: ponovitev bivariatne regresije Parcialna/semiparcialna korelacija Regresijska diagnostika. Ponovitev nekaterih osnovnih pojmov. Varianca v vzorcu ( s = standardni odklon) - PowerPoint PPT Presentation
Citation preview
Korelacijske metode
psihologija (1.st.) – 2. letnik
2011/12
3. predavanje:ponovitev bivariatne regresije
Parcialna/semiparcialna korelacija
Regresijska diagnostika
Ponovitev nekaterih osnovnih pojmov
N
XXs
N
ii
X
1
2
2
1
1
2
2
N
XXN
ii
X
Varianca v vzorcu (s = standardni odklon)
Varianca v (neskončni) populaciji:
Ocena populacijske variance iz vzorčnih podatkov(“vzorčna varianca”)
Vrednost napovedovane spremenljivke za i-to osebo: Yi
Napovedana vrednost za i-to osebo:
Napaka napovedi (ostanek) za i-to osebo:
torej:
Standardna napaka napovedi: SEY = e ; če je e=0:
'.ˆii YozY
iii YYe ˆ
iii eYY ˆ
22 XXE iX
N
eozeESE
N
iY
1
2
2 .)(
Dva vidika regresijske analize:
1. napovedovanje (npr.: “Kolikšno delovno uspešnost lahko napovemo kandidatu za delovno mesto? Kolikšno napako lahko ob tem pričakujemo?”)
2. pojasnjevanje (npr.: “S katerimi sposobnostmi in veščinami lahko pojasnimo razlike v uspešnosti? Kolikšen delež variance uspešnosti lahko pojasnimo?”)
Kaj je merilo uspešnosti napovedovanja (…ciljna funkcija)?
Najpogosteje: kriterij najmanjših kvadratov: min f (Y’ ) = e2
Nekaj implikacij k.n.k.: minimizira SEY
“penalizira” velike napake napovedi e = M(e) = 0
“Prazni model”: 0 napovednikov
Če uporabimo kriterij najmanjših kvadratov, napovedujemo le na osnovi porazdelitve Y in dobimo
SEY = Y
spomnimo se tudi, da (X-M) = 0 e = 0
Prazni model pomemben kot osnova za primerjavo.
YY ˆ
1 napovednik: bivariatna regresija
(pogojna aritmetična sredina)iXYY ˆ
iYXYXi XbaY ˆ
Xi Xj Xk
(Y|Xi)(Y|Xj)
(Y|Xk) e~N(0,SE )
Enačba premice:
a = presečišče z ordinato (intercept) oz. regresijska konstanta = napovedana vrednost Y pri X=0
b = regresijski nagib (slope) = napovedano povečanje Y pri povečanju X za 1
Če pogojne aritmetične sredine ležijo na premici: linearna regresija.
Mere povezanosti / natančnosti napovedovanja (1)
Kovarianca (Cov):
informacija o povezanosti in variabilnosti
Pearsonov r- standardizirana kovarianca
- standardizirani regresijski nagib
- povprečni produkt z vrednosti (“produkt-moment”)
N
yx
N
YYXXs
N
iii
N
iii
XY
11
YX
XYXY ss
sr
N
zzr
N
iYX ii
1
X
YXY
Y
XYXXY s
sb
s
sbr
Mere povezanosti / natančnosti napovedovanja (2)
Koeficient determinacije r2
delež pojasnjene variance
Standardna napaka SE:
Indeks učinkovitosti napovedi EXY relativno zmanjšanje SE glede na prazni model
Interpretacija r2, SE in EXY je enaka tudi pri multipli regresiji.
2
2
2
2ˆ2 1
Y
YX
Y
YYX s
SE
s
sr
21
2
1
ˆ
YXY
N
iii
YX rsN
YYSE
21110011001100 XYY
YX
X
XYXY r
sSE
sSE
E
a 3908,7
b 37,5
r 0,993
r**2 0,986
E 0,88
4000
4200
4400
4600
4800
5000
5200
7,0 12,0 17,0 22,0 27,0 32,0
Starost v dnevih
Mas
a(g
)
Parcialna korelacija
= korelacija med dvema spremenljivkama, pri čemer kontroliramo enega ali več kovariatov.
= korelacija med deli X in Y, ki so nekorelirani s kovariatom Z
Uporaba: statistična kontrola motečih spremenljivk.
1
64
2 3
7
5
X Y
Z (kovariat)
32
2
21
26532
52
5421
52
2
2
ZXY
XY
r
r
.
Izračun parcialne korelacije
1. Določimo regresijski enačbi X’ = aXZ+bXZZ in Y’ = aYZ + bYZZ
2. Izračunamo napake napovedi eX = X-X’ in eY = Y-Y’
3. rXY.Z = r (eX , eY)
))((. 22 11 YZXZ
YZXZXYZXY
rr
rrrr
Pri enem kovariatu:
Semiparcialna korelacija: kovariat kontroliramo le pri eni spremenljivki (X ali Y ).
Statistična značilnost: enako kot r, df = N-2-(št. kovariatov)
Primer parcialne korelacije:
korelacija med ekstravertnostjo in nevroticizmom glede na starost
rEN = 0,4
rES = -0,6
rNS = -0,5
140501601
506040
11 2222,
),(),(
),(),(,.
NSES
NSESENSEN
rr
rrrr
Primer semiparcialne korelacije:
Koliko variance učne uspešnosti pojasni od inteligentnosti neodvisen del SES?
rUS = 0,3
rUI = 0,4
rIS = 0,5 120
501
504030
1 22,
),(
,,,).(
SI
SIUIUSISU
r
rrrr
Težave pri interpretaciji:
•statistični učinek (effect) vs. vzročni vpliv
•statistična značilnost vs. praktična pomembnost
•koliko variance pojasni posamezen napovednik?
•statistično značilni/neznačilni b v različnih modelih
•predznak b ni enak predznaku r ( sestavljene spremenljivke ali preveč visoko koreliranih napovednikov)
•supresorski odnosi (npr. mehanska in verbalna sposobnost ter uspešnost pilotov)
Regresijske parametre interpretiramo v kontekstu modela!
Regresijske predpostavke in diagnostika:
• intervalen kriterij, intervalni ali dihotomni napovedniki
• naključno vzorčenje / neodvisnost opazovanj
• normalnost ostankov (npr. P-P graf)
• linearnost odnosov (rezidualni graf)
• homoscedastičnost (rezidualni graf)
Zlasti če MR pojasnjevalna metoda:
• popolna zanesljivost napovednikov
• specifikacija modela
Rezidualni graf:napovedane vrednosti vs. ostanki
Vrste ostankov:•surovi (M = 0)•standardizirani (M = 0, Var = 1)•studentizirani (e/SEe manjši vpliv ekstremov)
•izbrisani (ei določen brez osebe i )
Iskanje vplivnih točk
• Cookova razdalja (oddaljenost od povprečja prediktorjev × napaka napovedi)
• DFBETA: sprememba regr. koeficienta, če izločimo osebo
• DFBETAS: standardizirana sprememba, (deljena s SE ) ; približna krit. vrednost: 2/(N 1/2) - 3/(N 1/2) jemati le orientacijsko, pazimo na relativno visoke vrednosti
• DFFIT: sprememba napovedane vrednosti
Sestavljanje regresijskega modela
a)Hkrati vključimo vse relevantne napovednike (Enter)
b)“Hierarhično” vključevanje po vnaprej postavljenem vrstnem redu.
c) Postopno vključevanje po statističnih kriterijih: Forward, Backward, Stepwise.
Strategiji b in zlasti c lahko nevarni, če razmerje N/P ni veliko! Testi značilnosti predpostavljajo a.
Namen MR:napovedovanje kriterijske spremenljivke Y na osnovi p (= 2 ali več) napovednikov (X1- Xp)
oz. y = Xb+ (b+ = vektor parametrov a in b)
X1
X3
X2 Y
b1
b2
b3
Diagram poti:Cilj MR:
določiti uteži b tako, da bo:
•korelacija med Y in Y = max.
e2 = (Y –Y )2 = min.
Y = obtežena vsota napovednikov, ki najbolje napoveduje Y v smislu najmanjših kvadratov
C
a
ij
P
jji XbaY
1
ˆ
Izračun in interpretacija parametrov
b+ = (X+X+)-1X+y oz. b = C-1c
X+ = podatkovna matrika z dodanim vektorjem enicb+ = [a b1 … bp] b = [b1 … bp]C = kovariančna matrika napovednikovc = [Cov(Y,X1) … Cov(Y,Xp)]
b1 = povečanje Y pri povečanju X1 za 1 enoto innespremenjenih X2-Xp
a = napovedana vrednost Y, ko velja X1=X2=… Xp = 0
a Y b Xj j
potreben poln rang X!
Kako priti do optimalnih uteži?
Nekaj možnih načinov obteževanja:
1. bj = 1 … variabilnost napovednikov
2. bj = 1/sj … rYj (…lahko v redu, če so rYj podobne)
3. bj = rYj/sj … r med napovedniki
4. na bj mora torej vplivati:•variabilnost napovednikov (),•korelacija med napovednikom in kriterijem (),•korelacije z drugimi napovedniki ().
212
22
21
212122
1 sss
ssssb yy
Izračun pri p = 2:
x1
x2
y
X - ravnina
e
y
Izpeljava regresijskih parametrov
y = y + eXb + e = yXXb + Xe = Xy //Xe = 0(XX)–1(XX)b = (XX)–1Xy b = (XX)–1Xy
Standardizirani model
ij
P
jji XzYz )()(ˆ
1
(konstanta odpade – vse M = 0)
z vrednosti obtežimo s “koeficienti beta”
Interpretacija :•regresijski nagib za standardizirane spremenljivke;•relativna pomembnost gl. na ostale prediktorje.•pri nekoreliranih napovednikih: Yj = rYj
Pozor:•|| lahko > 1 ni populacijska vrednost b•bolj odvisen od vzorčne variabilnosti kot b•ni isto kot delno standardizirani nagib (gl. AMSSD, str. 159)
Izračun beta koeficientov:
= R–1r …nagib za standardizirane napovednike
…standardizirani nagib
Pri dveh napovednikih:(prim. obrazec za surovi nagib)
Y
jjj s
sb
21 XZ
XZYZYXX
r
rrr
Primer:napovedovanje uspešnosti (U) na podlagi dveh testov (T1 in T2).
Korelacije: Opisne statistike:
T1 T2U 0,3 0,4T1 0,6
094,06,01
6,04,03,01 22
12
12211
r
rrr UU
344,06,01
6,03,04,01 22
12
12122
r
rrr UU
stand.regresijska enačba: z’U = 0,094zT1 + 0,344zT2
U T1 T2M 20 50 100SD 5 10 15
047,0105
094,01
11 Ub
115,0155
344,02
22 Ub
198,6100115,050047,020 jj XbYa
Nestandardizirana enačba:
U’ = 6,198 + 0,047 T1 + 0,115 T2
Višina povezanosti: multipla korelacija
Definicija:
Računanje:
)ˆ( YYrR
rRr 1' R βr'R
P
jjYjrR
1
2
22
1
2
XZ
XZYZYXYZYX
r
rrrrrR
oz. oz.
Za dva prediktorja:
R in semiparcialne korelacije:2
11232
1232
1221
212 )...().().(.... ... ppYYYYpY rrrrR
Na višino R vpliva:
•korelacije prediktorjev s kriterijem ()
•korelacije med prediktorji (),
•vplivne točke (/),
•napaka merjenja (),
•variabilnost v vzorcu gl. na populacijo ().
Velja tudi:
•0 ≤ R ≤ 1
•R ≥ max. rYj
•R ni izračunljiv, če |R|=0 (linearno odvisni prediktorji)
1
64
23
7
5 Y
X1
X2
3652
652212
.YR
Korelacija med prediktorji in R 2:
1
6
4
3
7
5YX1
X2
1
6
2 3
7
YX1
X2
22
21
212 YYY rrR .
22
212 YY rR .
7654
54
5421
54212
r
6532
6
6532
2 2)1.2(
2)2.1(
YY rr
Preberite tudi:
Sočan (2004). Postopki klasične testne teorije (PKTT),• dodatek A• Poglavje 4• (po potrebi poglavje o linearni regresiji v katerem od splošnih
učbenikov statistike)
Bartholomew et al. (2008). Analysis of multivariate social science data (AMSSD)
Poglavje 6
poglavje o multipli regresiji najdete v skoraj vseh učbenikih multivariatnih metod in mnogih statističnih učbenikih