Upload
others
View
9
Download
0
Embed Size (px)
Citation preview
Korreláció- és regresszió-analízis
Az X és Y véletlen változók között az alábbi ábrákon
pozitív összefüggés nem lineáris összefüggés negatív összefüggés van
Előfordulhat, hogy X és Y között van kapcsolat, de nem korrelációs jellegű, ha például X növekedése kis x-ekre Y növekedésével, nagyobb x-ekre pedig Y csökkenésével jár együtt, mint a második ábrán.
Az is előfordulhat, hogy két változó között nincs semmilyen kapcsolat:
Több változó esetén a statisztikai programok egy része képes az ábrákat az alábbi táblázatos módon megjeleníteni:
Az állat becsült kor
teljes súly
teljes hossz orrtól
törzs hossza
pocak körkörös méret
hátsó láb hossza kör
Pearson-féle korrelációs együttható
A korrelációs kapcsolat erősségét – intervallum skála esetén – számszerűen a Pearson-féle korrelációs együtthatóval szokták mérni, amit R(X,Y)-nal jelölünk. ( ) 1,1 ≤≤− YXR
0 körüli érték gyenge, -1-hez vagy 1-hez közeli érték erős negatív, illetve pozitív korrelációs kapcsolatot jelez.
A korrelációs együttható néhány tulajdonsága:
Ha a változók függetlenek, akkor R(X,Y)=0, de abból, hogy R(X,Y)=0, nem következik a változók függetlensége.
|R(X,Y)|=1 pontosan akkor áll fenn, amikor a változók között lineáris a kapcsolat, azaz Y=aX+b, ekkor R(X,Y) előjele megegyezik a előjelével.
A korrelációs együttható szimmetrikus, a két változó felcserélhető.
Nem szabad részátlagokra használni, mert a kiejtett bizonytalanságok miatt a
valóságosnál erősebb összefüggést mutathat.
Hogyan lehet a korreláltságot a minták alapján vizsgálni?
),(),...,,(),,( 2211 nn yxyxyx . mintaelemek esetén
( ) ( )
( ),
11
yx
n
iii
xyssn
yyxx
r⋅−
−⋅−
=∑=
ahol yx, a változók mintaátlaga, yx ss , pedig a becsült szórások.
Mivel a korrelációs együttható a mintából számított becslés, ezért hibával terhelt. Akkor sem kapunk pontosan nullát, ha a két változó között nincs korreláció, ezért el kell végeznünk az alábbi hipotézisvizsgálatot:
Nullhipotézis: ( ) 0,:0 =YXRH , azaz 0:0 =rH µ
Próbastatisztika:
2
1 2
−
−=
−=
n
r
r
s
rt
r
rµ
Szabadsági fok: n-2
A rangkorrelációs együttható:
Ha adatainkat nem intervallum skálán mérjük, hanem ordinálison, akkor a Spearman féle rangkorrelációs együtthatót használhatjuk:
nn
drs
−−=∑3
261 ,
ahol n a mintaelemek száma, d a rangok közti különbségek.
Ha az intervallum, vagy arányskálán mért értékeket a rangszámaikkal helyettesítjük – vagy ha az ordinális skálájú változónkat az 1, 2, 3, … n kódokkal kódoljuk – akkor az ebből számolt Pearson-féle és a Spearman féle együtthatók megegyeznek.
Így lehet kiszámítani a Spearman féle együtthatót, ha a program csak Pearson-féle korrelációs együtthatót tud számolni.
Regresszió-analízis
A regressziószámítás célja
A regressziószámítást akkor használjuk, amikor függvényszerű kapcsolatot keresünk egy vagy több magyarázó változó (vagy független változó) és egy függő változó között. Szokásosan a magyarázó változókat X-ekkel, a függő változót pedig Y-nal jelöljük. Feltételezzük, hogy az X-ek és az Y közötti összefüggés kifejezhető függvény formájában, azaz
Y =f(X) vagy Y=f(X1,X2,…,Xr)
Ahhoz, hogy regresszió számítást végezhessünk, mind a magyarázó, mind a függő változót ismernünk kell ugyanazokon a megfigyelési egységeken, azaz a kiinduló adatok egy magyarázó változó esetén (x1,y1), (x2,y2), (x3,y3) ... (xn,yn) értékpárok, több magyarázó változó esetén pedig (x11, x12, x13,…, y1), (x21, x22, x23,…, y2), (x31, x32, x33,…, y3) ... (xn1, xn2, xn3,…, yn) vektorok. Ez az úgynevezett “adatmátrix”.
A regressziószámítás szokásos kérdésfeltevései
Van-e bizonyos változók között összefüggés?
� Függ-e a borjak 30 napos testtömege a születési súlyuktól?
Milyen függvénnyel (lineáris, exponenciális, stb.) írható le az összefüggés?
� Alkalmas-e ennek az összefüggésnek a leírására a lineáris függvény?
Mi a függő változó várható értéke a magyarázó változó egy bizonyos értékéhez?
� Mekkora 30 napos testtömeget várhatunk, ha a születési súly 45 kg?
Mi a magyarázó változó feltételezhető értéke a függő változó egy bizonyos értékéhez?
� Mekkora születési súly küszöb feletti állatokat szelektáljunk, ha az a cél, hogy 30 napos korban az állatok (legalábbis átlagban) elérjék az 55 kg-ot?
A cél lehet oksági kapcsolat megállapítása X és Y között, gyakran azonban csak következtetni szeretnénk az egyik változó értékéből a másikra, a közöttük tapasztalt összefüggés alapján.
Feltétel: a magyarázó és a függő változó egyaránt intervallum skálán mérhető.
Példa:
A születési súly és a 30 napos testtömeg összefüggése 30 borjú adatai alapján (Bajcsy Á. Csaba és munkatársai, Szülészeti Tanszék).
35
40
45
50
55
60
65
70
30 35 40 45 50 55
Születési súly (kg)
30 napos
testtömeg
(kg)
Bár egyértelmű a pozitív összefüggés a két adat között, a szóródás túlságosan nagy ahhoz, hogy a születési súly alapján jó előrejelzést adhatnánk a 30 napos testtömegre.
Melyik legyen a magyarázó és melyik a függő változó?
Ez mindig attól függjön, hogy milyen irányú oksági kapcsolatot, illetve milyen véletlen hatásokat tételezünk fel a változók között, és NE attól, hogy melyik változót szeretnénk a másik alapján előrejelezni. Előfordulhat, hogy az ismeretlen X-et szeretnénk meghatározni a megfigyelt Y-ból, bár a regressziós modell Y=f(X)+ε . Ez az úgynevezett inverz regresszió.
Véletlenség a magyarázó és a függő változóban
A függő változó mindig valószínűségi változó, a magyarázó változók azonban nem biztos.
Általában úgy gondoljuk, hogy Y két független, additív komponensre bontható: az egyik az X-ektől függ, a másik pedig egy, az X-ektől független véletlen faktor, azaz Y=f(X)+ε.
magyarázó változó(k) hatása
függő változó
véletlen komponens (=minden egyéb hatás)
Fel szokás tenni, hogy a véletlen komponens várható értéke 0, azaz E(ε)=0 és hogy eloszlása szimmetrikus, a statisztikai tesztek kedvéért pedig még azt is, hogy normális eloszlású.
A magyarázó változóban háromféle véletlenséget szoktak megkülönböztetni:
� X nem véletlen változó, a kísérlet vezetője állítja be
� X értékét a “természet” állítja be, de az pontosan ismert
� A mért X nem azonos az Y-t befolyásoló változóval (mérési pontatlanság miatt, vagy mert X elvont, nem mérhető, pl. ha X = intelligencia ≠ IQ). Ezt az esetet itt nem tárgyaljuk.
Korreláció- vagy regressziószámítás?
A legfontosabb különbségek a két módszer között:
� A korrelációszámítás szimmetrikus kapcsolatot tételez fel az X és Y között, míg a regresszió számítás egy bizonyos irányú (X →→→→ Y) kapcsolatot,
� Míg a korrelációszámításban mindkét változó valószínűségi változó, a regresszió számításban X nem feltétlenül az (nem feltétlenül függ a véletlentől). A korrelációszámításnak nincs értelme akkor, ha az X értékeit a kísérletező állítja be (pl. egy gyógyszer dózisát).
Gyakran mindkét módszer alkalmazható, ha megfelelően átfogalmazzuk a kérdéseket. Mindig gondoljuk meg azonban, melyik fogalmazás tükrözi jobban, hogy valójában
mi is érdekel!
NE használjunk regressziószámítást
� ha két mérési módszer közötti egyezést vizsgálunk, és nem pedig azt, hogy hogyan fejezhető ki egyik mérési eredmény a másikkal. Ilyenkor a korrelációelemzésnek sincs értelme, hiszen az erős korreláció sem feltétlenül jelent jó egyezést – erős korrelációt kaphatunk nagy szisztematikus hiba (torzítás) esetén is (ha X2 = X1 + 1000, a korrelációs együttható = 1). Ha a mérési eredmények egyezése érdekel, legjobb, ha a különbséggel (abszolút vagy relatív) számolunk. Végezhetünk azonban regresszió- (nem korreláció!) számítást, ha az egyik mérési módszert pontosnak tekintjük, és arra vagyunk kíváncsiak, hogyan lehet a másikat korrigálni.
� ha nem tudjuk eldönteni, melyik változót tekintsük magyarázó és melyiket függő változónak (ez nem csupán technikai kérdés, hanem a véleményünket tükrözi arról, hogy mi mitől függ, illetve, hogy mit tételezünk fel a véletlen faktorokról).
� ha tudjuk, hogy a magyarázó változó a függő változóval azonos nagyságrendű véletlen hibával terhelt.
X
Y
true line
Y=β0+ β1 X
estimated line
Y=b 0+b 1 X
observed
data
Lineáris regresszió egy magyarázó változóval (simple linear regression)
A lineáris modell egy magyarázó változóval:
( ) εββ ++== XXfY 10
Az együtthatókat az adatokból a legkisebb négyzetek módszerével becsüljük (least
squares), azaz úgy választjuk a paramétereket, hogy a ( )( )∑=
−n
iii xfy
1
2 négyzetösszeg
minimális legyen. Ezt az alábbi becsléssel érjük el:
( )( )
( )∑
∑
=
=
−
−−
=n
ii
n
iii
xx
yyxx
b
1
2
11 , xbyb 10 −=
Vigyázat! Ez a képlet akkor is ad eredményt, ha valójában nincs kapcsolat!
Az előző miatt hipotézisvizsgálatra van szükség, hogy valóban függ-e az Y az X-től. Ennek menete kétféle lehet:
t-próba:
Nullhipotézis: 0: 10 =βH , azaz Y nem függ X-től a modellben
Próba-statisztika: ( )11
bSE
bt = (lásd később a képletet)
Szabadsági fokok száma: n-2
F-próba:
Csak több magyarázó változó esetén különbözik
Teljes eltérés négyzetösszeg: ( )∑=
−=n
iit yySSQ
1
2 , szabadsági fok n-1
Reziduumok négyzetösszege: ( )( )∑=
−=n
iiir xfySSQ
1
2 , szabadsági fok n-2 (bi becsült)
� A számított és a valódi értékek különbségének négyzetösszege, ezt nem magyarázza a modell
Magyarázott négyzetösszeg: rt SSQSSQ −
� Az Y ingadozásának az a része, amelyet X változása magyaráz
Próbastatisztika:
2−
−=
n
SSQ
SSQSSQF
r
rt , szabadsági fokok 1, n-2
Feltételek:
Ahhoz, hogy a modellt alkalmazni lehessen, a következőknek teljesülni kell:
� ( ) 0=εE
� ε szórása minden megfigyelt értékre ugyanakkora
� ε értékei függetlenek egymástól és X-től
� ε normális eloszlású
Az illeszkedés jóságának mérése:
Determinációs együttható, t
rt
SSQ
SSQSSQR
−=2 (a korrelációs együttható négyzete)
Azt mutatja meg, hogy X változása mennyire magyarázza Y változását
Értéke 0 és 1 kötött lehet.
A paraméterek szórásának becslése
21
2
−=
∑=
n
e
s
n
ii
ε , ahol ( )iii xfye −=
x
bsn
ss ε=
1,
x
bsn
s?
0=
Ezeket felhasználva az n-2 szabadsági fokú t-eloszlásból a két paraméterre lehet konfidenciaintervallumot adni. Ennek megfelelően fel lehet rajzolni két konfidenciatartományt, az elsőt a regressziós egyenesre, a bővebbet pedig X adott értéke esetén Y-ra.
Az ábrán (a borjak adatai), a lila vonalak jelölik a regressziós egyenesre vonatkozó, a zöld vonalak pedig az egyes pontokra vonatkozó 95%-os konfidencia-sávot.
Az X tartomány szélei felé haladva a becslések egyre bizonytalanabbak. (A legkisebb a bizonytalanság az X értékek átlagánál.)
35
40
45
50
55
60
65
70
30 35 40 45 50
Birth weight (kg)
30-day body
weight (kg)
A változók transzformálása
A transzformációk olyankor segíthetnek, amikor a megfigyelt adatokra a lineáris regresszió közvetlenül nem alkalmazható.
Néha elméleti megfontolásokból következik, hogy a változók közötti kapcsolat nem lineáris:
� Testhossz → testtömeg ( gömb / ellipszoid térfogata – hatványfüggvény)
� Gyógyszer dózis → hatás görbéje (logisztikus görbe vagy hasonló “S-alakú” görbe)
Máskor a megfigyelt adatok ugyan egyértelműen arra utalnak, hogy az X és az Y között van összefüggés, de ha a pontokra egyenest illesztünk, az illeszkedés nagyon rossz.
Az első esetben az elméleti megfontolások arra vonatkozóan is útmutatást adnak, hogy milyen függvénytípust válasszunk, a másodikban pedig az adatok grafikus ábrázolása segíthet:
� A kétváltozós szórásdiagramok a modell-választáshoz nyújtanak segítséget,
� A hisztogram, boxplot, stb. az adatok eloszlásának vizsgálatában (reziduálisok normalitása, függetlenségük X-től!).
Azokban az esetekben, amikor az X és Y közötti összefüggés nem lineáris, lineáris összefüggés állhat fenn valamely X’ és Y’ transzformált változók között. Ha elméleti megfontolásokból nem következik, hogy milyen transzformációval érdemes próbálkozni, akkor szórásdiagramok segítségével választhatjuk ki a legmegfelelőbbet.
Mivel a legtöbb számítógépes programban egy gombnyomással kérhető, a logaritmus-transzformációt próbáljuk ki rutinszerűen!
Mindig gondoljuk végig, hogy egy ilyen transzformáció interpretálható-e, meg tudjuk-e magyarázni, mi az értelme.
exponenciális görbe → log. skála az y tengelyen → egyenes
0
20
40
60
80
100
0 5 10
1
100
0 5 10
logaritmus-görbe → log. skála az x tengelyen → egyenes
1
2
3
0 5 10 1
2
3
1 10
hatványfüggvény→ log. skála mindkét tengelyen → egyenes
0
100
200
300
0 5 10 1
10
100
1000
1 10
A transzformációk érinthetik mind a regressziós függvényt, mind a véletlenséget a modellben (utóbbit akkor, ha a függő változót transzformáljuk).
Példák:
Ha a regresszió lineárissá válik az Y log-transzformálásával: log Y = ββββ 0 + ββββ 1 X + εεεε, akkor a függvény exponenciális, multiplikatív hibával: Y = e ββββ 0 e
ββββ 1X e εεεε
Multiplikatív hiba: a véletlen faktor nem hozzáadódik a függvényértékhez, hanem összeszorzódik vele. Ekkor nagyobb függvényértékhez nagyobb Y szórás tartozik.
Ha a regresszió lineárissá válik X és Y log-transzformálásával: logY=ββββ0 +ββββ1 log X +εεεε, akkor a függvény hatványfüggvény, multiplikatív hibával: Y = e ββββ 0 x
ββββ 1 e εεεε
Ha a regresszió lineárissá válik az X log-transzformálásával: Y =ββββ0 +ββββ1 log X +εεεε, akkor a függvény logaritmus-függvény, multiplikatív hibával.
Ugyanilyen elterjedt a hatvány- és a gyök-transzformáció. A gyökök (relatíve) összehúzzák a nagy értékek tartományát, az (egynél nagyobb) hatványok pedig a kis értékekét.
Ha a mért értékek helyett rangokkal dolgozunk, a változót teljesen skála-függetlenné tehetjük.
Megjegyzések:
� A fent említettek mind monoton transzformációk.
� Ha a változó értéktartománya szűk, a rangok kivételével az összes többi kb. egyenértékű.
� Gyakorisági adatokra az arcsin transzformációt szokták alkalmazni.
A transzformációk statisztikai modell hiányában is hasznosak lehetnek. Segíthetnek az adatok jobb megismerésében és ábrázolásában, szebb grafikonok készítésében, stb.
Példa a transzformációs lehetőségekre az összefüggés linearizálásában:
0
5
10
0 1 2
0
2
4
0 1 2
eredeti összefüggés négyzetgyök Y
0
1
2
0 1 2
-4
-2
0
2
0 1 2
negyedik gyök Y logaritmus Y
Megjegyzések:
� A transzformációkat nemcsak az összefüggés linearizálására, hanem szórás-kiegyenlítésre és az eloszlások szimmetrizálására is szokták használni. (Persze előfordulhat, hogy az a transzformáció, amely linearizálja az összefüggést, elrontja a szórások egyenlőségét, stb.)
� A transzformáció megválasztásánál fontos szempont az interpretálhatóság.
� A transzformáció útján történő linearizálás nem az egyetlen lehetőség a nemlineáris össze-függések kezelésére. Léteznek eljárások lineárissá nem transzformálható (“intrinsically nonlinear”) modellek illesztésére is.
Ami idén kimaradt:
Lineárisra visszavezethető regressziók
Többszörös (multiple) regresszió
Többszörös és parciális korreláció
Polinomiális regresszió