Korreláció- és regresszió-analízis · Korreláció- és regresszió-analízis Az X és Y véletlen változók között az alábbi ábrákon pozitív összefüggés nem lineáris

Korreláció- és regresszió-analízis

Az X és Y véletlen változók között az alábbi ábrákon

pozitív összefüggés nem lineáris összefüggés negatív összefüggés van

Előfordulhat, hogy X és Y között van kapcsolat, de nem korrelációs jellegű, ha például X növekedése kis x-ekre Y növekedésével, nagyobb x-ekre pedig Y csökkenésével jár együtt, mint a második ábrán.

Az is előfordulhat, hogy két változó között nincs semmilyen kapcsolat:

Több változó esetén a statisztikai programok egy része képes az ábrákat az alábbi táblázatos módon megjeleníteni:

Az állat becsült kor

teljes súly

teljes hossz orrtól

törzs hossza

pocak körkörös méret

hátsó láb hossza kör

Pearson-féle korrelációs együttható

A korrelációs kapcsolat erősségét – intervallum skála esetén – számszerűen a Pearson-féle korrelációs együtthatóval szokták mérni, amit R(X,Y)-nal jelölünk. ( ) 1,1 ≤≤− YXR

0 körüli érték gyenge, -1-hez vagy 1-hez közeli érték erős negatív, illetve pozitív korrelációs kapcsolatot jelez.

A korrelációs együttható néhány tulajdonsága:

Ha a változók függetlenek, akkor R(X,Y)=0, de abból, hogy R(X,Y)=0, nem következik a változók függetlensége.

|R(X,Y)|=1 pontosan akkor áll fenn, amikor a változók között lineáris a kapcsolat, azaz Y=aX+b, ekkor R(X,Y) előjele megegyezik a előjelével.

A korrelációs együttható szimmetrikus, a két változó felcserélhető.

Nem szabad részátlagokra használni, mert a kiejtett bizonytalanságok miatt a

valóságosnál erősebb összefüggést mutathat.

Hogyan lehet a korreláltságot a minták alapján vizsgálni?

),(),...,,(),,( 2211 nn yxyxyx . mintaelemek esetén

( ) ( )

( ),

11

yx

n

iii

xyssn

yyxx

r⋅−

−⋅−

=∑=

ahol yx, a változók mintaátlaga, yx ss , pedig a becsült szórások.

Mivel a korrelációs együttható a mintából számított becslés, ezért hibával terhelt. Akkor sem kapunk pontosan nullát, ha a két változó között nincs korreláció, ezért el kell végeznünk az alábbi hipotézisvizsgálatot:

Nullhipotézis: ( ) 0,:0 =YXRH , azaz 0:0 =rH µ

Próbastatisztika:

2

1 2

−

−=

−=

n

r

r

s

rt

r

rµ

Szabadsági fok: n-2

A rangkorrelációs együttható:

Ha adatainkat nem intervallum skálán mérjük, hanem ordinálison, akkor a Spearman féle rangkorrelációs együtthatót használhatjuk:

nn

drs

−−=∑3

261 ,

ahol n a mintaelemek száma, d a rangok közti különbségek.

Ha az intervallum, vagy arányskálán mért értékeket a rangszámaikkal helyettesítjük – vagy ha az ordinális skálájú változónkat az 1, 2, 3, … n kódokkal kódoljuk – akkor az ebből számolt Pearson-féle és a Spearman féle együtthatók megegyeznek.

Így lehet kiszámítani a Spearman féle együtthatót, ha a program csak Pearson-féle korrelációs együtthatót tud számolni.

Regresszió-analízis

A regressziószámítás célja

A regressziószámítást akkor használjuk, amikor függvényszerű kapcsolatot keresünk egy vagy több magyarázó változó (vagy független változó) és egy függő változó között. Szokásosan a magyarázó változókat X-ekkel, a függő változót pedig Y-nal jelöljük. Feltételezzük, hogy az X-ek és az Y közötti összefüggés kifejezhető függvény formájában, azaz

Y =f(X) vagy Y=f(X1,X2,…,Xr)

Ahhoz, hogy regresszió számítást végezhessünk, mind a magyarázó, mind a függő változót ismernünk kell ugyanazokon a megfigyelési egységeken, azaz a kiinduló adatok egy magyarázó változó esetén (x1,y1), (x2,y2), (x3,y3) ... (xn,yn) értékpárok, több magyarázó változó esetén pedig (x11, x12, x13,…, y1), (x21, x22, x23,…, y2), (x31, x32, x33,…, y3) ... (xn1, xn2, xn3,…, yn) vektorok. Ez az úgynevezett “adatmátrix”.

A regressziószámítás szokásos kérdésfeltevései

Van-e bizonyos változók között összefüggés?

� Függ-e a borjak 30 napos testtömege a születési súlyuktól?

Milyen függvénnyel (lineáris, exponenciális, stb.) írható le az összefüggés?

� Alkalmas-e ennek az összefüggésnek a leírására a lineáris függvény?

Mi a függő változó várható értéke a magyarázó változó egy bizonyos értékéhez?

� Mekkora 30 napos testtömeget várhatunk, ha a születési súly 45 kg?

Mi a magyarázó változó feltételezhető értéke a függő változó egy bizonyos értékéhez?

� Mekkora születési súly küszöb feletti állatokat szelektáljunk, ha az a cél, hogy 30 napos korban az állatok (legalábbis átlagban) elérjék az 55 kg-ot?

A cél lehet oksági kapcsolat megállapítása X és Y között, gyakran azonban csak következtetni szeretnénk az egyik változó értékéből a másikra, a közöttük tapasztalt összefüggés alapján.

Feltétel: a magyarázó és a függő változó egyaránt intervallum skálán mérhető.

Példa:

A születési súly és a 30 napos testtömeg összefüggése 30 borjú adatai alapján (Bajcsy Á. Csaba és munkatársai, Szülészeti Tanszék).

35

40

45

50

55

60

65

70

30 35 40 45 50 55

Születési súly (kg)

30 napos

testtömeg

(kg)

Bár egyértelmű a pozitív összefüggés a két adat között, a szóródás túlságosan nagy ahhoz, hogy a születési súly alapján jó előrejelzést adhatnánk a 30 napos testtömegre.

Melyik legyen a magyarázó és melyik a függő változó?

Ez mindig attól függjön, hogy milyen irányú oksági kapcsolatot, illetve milyen véletlen hatásokat tételezünk fel a változók között, és NE attól, hogy melyik változót szeretnénk a másik alapján előrejelezni. Előfordulhat, hogy az ismeretlen X-et szeretnénk meghatározni a megfigyelt Y-ból, bár a regressziós modell Y=f(X)+ε . Ez az úgynevezett inverz regresszió.

Véletlenség a magyarázó és a függő változóban

A függő változó mindig valószínűségi változó, a magyarázó változók azonban nem biztos.

Általában úgy gondoljuk, hogy Y két független, additív komponensre bontható: az egyik az X-ektől függ, a másik pedig egy, az X-ektől független véletlen faktor, azaz Y=f(X)+ε.

magyarázó változó(k) hatása

függő változó

véletlen komponens (=minden egyéb hatás)

Fel szokás tenni, hogy a véletlen komponens várható értéke 0, azaz E(ε)=0 és hogy eloszlása szimmetrikus, a statisztikai tesztek kedvéért pedig még azt is, hogy normális eloszlású.

A magyarázó változóban háromféle véletlenséget szoktak megkülönböztetni:

� X nem véletlen változó, a kísérlet vezetője állítja be

� X értékét a “természet” állítja be, de az pontosan ismert

� A mért X nem azonos az Y-t befolyásoló változóval (mérési pontatlanság miatt, vagy mert X elvont, nem mérhető, pl. ha X = intelligencia ≠ IQ). Ezt az esetet itt nem tárgyaljuk.

Korreláció- vagy regressziószámítás?

A legfontosabb különbségek a két módszer között:

� A korrelációszámítás szimmetrikus kapcsolatot tételez fel az X és Y között, míg a regresszió számítás egy bizonyos irányú (X →→→→ Y) kapcsolatot,

� Míg a korrelációszámításban mindkét változó valószínűségi változó, a regresszió számításban X nem feltétlenül az (nem feltétlenül függ a véletlentől). A korrelációszámításnak nincs értelme akkor, ha az X értékeit a kísérletező állítja be (pl. egy gyógyszer dózisát).

Gyakran mindkét módszer alkalmazható, ha megfelelően átfogalmazzuk a kérdéseket. Mindig gondoljuk meg azonban, melyik fogalmazás tükrözi jobban, hogy valójában

mi is érdekel!

NE használjunk regressziószámítást

� ha két mérési módszer közötti egyezést vizsgálunk, és nem pedig azt, hogy hogyan fejezhető ki egyik mérési eredmény a másikkal. Ilyenkor a korrelációelemzésnek sincs értelme, hiszen az erős korreláció sem feltétlenül jelent jó egyezést – erős korrelációt kaphatunk nagy szisztematikus hiba (torzítás) esetén is (ha X2 = X1 + 1000, a korrelációs együttható = 1). Ha a mérési eredmények egyezése érdekel, legjobb, ha a különbséggel (abszolút vagy relatív) számolunk. Végezhetünk azonban regresszió- (nem korreláció!) számítást, ha az egyik mérési módszert pontosnak tekintjük, és arra vagyunk kíváncsiak, hogyan lehet a másikat korrigálni.

� ha nem tudjuk eldönteni, melyik változót tekintsük magyarázó és melyiket függő változónak (ez nem csupán technikai kérdés, hanem a véleményünket tükrözi arról, hogy mi mitől függ, illetve, hogy mit tételezünk fel a véletlen faktorokról).

� ha tudjuk, hogy a magyarázó változó a függő változóval azonos nagyságrendű véletlen hibával terhelt.

X

Y

true line

Y=β0+ β1 X

estimated line

Y=b 0+b 1 X

observed

data

Lineáris regresszió egy magyarázó változóval (simple linear regression)

A lineáris modell egy magyarázó változóval:

( ) εββ ++== XXfY 10

Az együtthatókat az adatokból a legkisebb négyzetek módszerével becsüljük (least

squares), azaz úgy választjuk a paramétereket, hogy a ( )( )∑=

−n

iii xfy

1

2 négyzetösszeg

minimális legyen. Ezt az alábbi becsléssel érjük el:

( )( )

( )∑

∑

=

=

−

−−

=n

ii

n

iii

xx

yyxx

b

1

2

11 , xbyb 10 −=

Vigyázat! Ez a képlet akkor is ad eredményt, ha valójában nincs kapcsolat!

Az előző miatt hipotézisvizsgálatra van szükség, hogy valóban függ-e az Y az X-től. Ennek menete kétféle lehet:

t-próba:

Nullhipotézis: 0: 10 =βH , azaz Y nem függ X-től a modellben

Próba-statisztika: ( )11

bSE

bt = (lásd később a képletet)

Szabadsági fokok száma: n-2

F-próba:

Csak több magyarázó változó esetén különbözik

Teljes eltérés négyzetösszeg: ( )∑=

−=n

iit yySSQ

1

2 , szabadsági fok n-1

Reziduumok négyzetösszege: ( )( )∑=

−=n

iiir xfySSQ

1

2 , szabadsági fok n-2 (bi becsült)

� A számított és a valódi értékek különbségének négyzetösszege, ezt nem magyarázza a modell

Magyarázott négyzetösszeg: rt SSQSSQ −

� Az Y ingadozásának az a része, amelyet X változása magyaráz

Próbastatisztika:

2−

−=

n

SSQ

SSQSSQF

r

rt , szabadsági fokok 1, n-2

Feltételek:

Ahhoz, hogy a modellt alkalmazni lehessen, a következőknek teljesülni kell:

� ( ) 0=εE

� ε szórása minden megfigyelt értékre ugyanakkora

� ε értékei függetlenek egymástól és X-től

� ε normális eloszlású

Az illeszkedés jóságának mérése:

Determinációs együttható, t

rt

SSQ

SSQSSQR

−=2 (a korrelációs együttható négyzete)

Azt mutatja meg, hogy X változása mennyire magyarázza Y változását

Értéke 0 és 1 kötött lehet.

A paraméterek szórásának becslése

21

2

−=

∑=

n

e

s

n

ii

ε , ahol ( )iii xfye −=

x

bsn

ss ε=

1,

x

bsn

s?

0=

Ezeket felhasználva az n-2 szabadsági fokú t-eloszlásból a két paraméterre lehet konfidenciaintervallumot adni. Ennek megfelelően fel lehet rajzolni két konfidenciatartományt, az elsőt a regressziós egyenesre, a bővebbet pedig X adott értéke esetén Y-ra.

Az ábrán (a borjak adatai), a lila vonalak jelölik a regressziós egyenesre vonatkozó, a zöld vonalak pedig az egyes pontokra vonatkozó 95%-os konfidencia-sávot.

Az X tartomány szélei felé haladva a becslések egyre bizonytalanabbak. (A legkisebb a bizonytalanság az X értékek átlagánál.)

35

40

45

50

55

60

65

70

30 35 40 45 50

Birth weight (kg)

30-day body

weight (kg)

A változók transzformálása

A transzformációk olyankor segíthetnek, amikor a megfigyelt adatokra a lineáris regresszió közvetlenül nem alkalmazható.

Néha elméleti megfontolásokból következik, hogy a változók közötti kapcsolat nem lineáris:

� Testhossz → testtömeg ( gömb / ellipszoid térfogata – hatványfüggvény)

� Gyógyszer dózis → hatás görbéje (logisztikus görbe vagy hasonló “S-alakú” görbe)

Máskor a megfigyelt adatok ugyan egyértelműen arra utalnak, hogy az X és az Y között van összefüggés, de ha a pontokra egyenest illesztünk, az illeszkedés nagyon rossz.

Az első esetben az elméleti megfontolások arra vonatkozóan is útmutatást adnak, hogy milyen függvénytípust válasszunk, a másodikban pedig az adatok grafikus ábrázolása segíthet:

� A kétváltozós szórásdiagramok a modell-választáshoz nyújtanak segítséget,

� A hisztogram, boxplot, stb. az adatok eloszlásának vizsgálatában (reziduálisok normalitása, függetlenségük X-től!).

Azokban az esetekben, amikor az X és Y közötti összefüggés nem lineáris, lineáris összefüggés állhat fenn valamely X’ és Y’ transzformált változók között. Ha elméleti megfontolásokból nem következik, hogy milyen transzformációval érdemes próbálkozni, akkor szórásdiagramok segítségével választhatjuk ki a legmegfelelőbbet.

Mivel a legtöbb számítógépes programban egy gombnyomással kérhető, a logaritmus-transzformációt próbáljuk ki rutinszerűen!

Mindig gondoljuk végig, hogy egy ilyen transzformáció interpretálható-e, meg tudjuk-e magyarázni, mi az értelme.

exponenciális görbe → log. skála az y tengelyen → egyenes

0

20

40

60

80

100

0 5 10

1

100

0 5 10

logaritmus-görbe → log. skála az x tengelyen → egyenes

1

2

3

0 5 10 1

2

3

1 10

hatványfüggvény→ log. skála mindkét tengelyen → egyenes

0

100

200

300

0 5 10 1

10

100

1000

1 10

A transzformációk érinthetik mind a regressziós függvényt, mind a véletlenséget a modellben (utóbbit akkor, ha a függő változót transzformáljuk).

Példák:

Ha a regresszió lineárissá válik az Y log-transzformálásával: log Y = ββββ 0 + ββββ 1 X + εεεε, akkor a függvény exponenciális, multiplikatív hibával: Y = e ββββ 0 e

ββββ 1X e εεεε

Multiplikatív hiba: a véletlen faktor nem hozzáadódik a függvényértékhez, hanem összeszorzódik vele. Ekkor nagyobb függvényértékhez nagyobb Y szórás tartozik.

Ha a regresszió lineárissá válik X és Y log-transzformálásával: logY=ββββ0 +ββββ1 log X +εεεε, akkor a függvény hatványfüggvény, multiplikatív hibával: Y = e ββββ 0 x

ββββ 1 e εεεε

Ha a regresszió lineárissá válik az X log-transzformálásával: Y =ββββ0 +ββββ1 log X +εεεε, akkor a függvény logaritmus-függvény, multiplikatív hibával.

Ugyanilyen elterjedt a hatvány- és a gyök-transzformáció. A gyökök (relatíve) összehúzzák a nagy értékek tartományát, az (egynél nagyobb) hatványok pedig a kis értékekét.

Ha a mért értékek helyett rangokkal dolgozunk, a változót teljesen skála-függetlenné tehetjük.

Megjegyzések:

� A fent említettek mind monoton transzformációk.

� Ha a változó értéktartománya szűk, a rangok kivételével az összes többi kb. egyenértékű.

� Gyakorisági adatokra az arcsin transzformációt szokták alkalmazni.

A transzformációk statisztikai modell hiányában is hasznosak lehetnek. Segíthetnek az adatok jobb megismerésében és ábrázolásában, szebb grafikonok készítésében, stb.

Példa a transzformációs lehetőségekre az összefüggés linearizálásában:

0

5

10

0 1 2

0

2

4

0 1 2

eredeti összefüggés négyzetgyök Y

0

1

2

0 1 2

-4

-2

0

2

0 1 2

negyedik gyök Y logaritmus Y

Megjegyzések:

� A transzformációkat nemcsak az összefüggés linearizálására, hanem szórás-kiegyenlítésre és az eloszlások szimmetrizálására is szokták használni. (Persze előfordulhat, hogy az a transzformáció, amely linearizálja az összefüggést, elrontja a szórások egyenlőségét, stb.)

� A transzformáció megválasztásánál fontos szempont az interpretálhatóság.

� A transzformáció útján történő linearizálás nem az egyetlen lehetőség a nemlineáris össze-függések kezelésére. Léteznek eljárások lineárissá nem transzformálható (“intrinsically nonlinear”) modellek illesztésére is.

Ami idén kimaradt:

Lineárisra visszavezethető regressziók

Többszörös (multiple) regresszió

Többszörös és parciális korreláció

Polinomiális regresszió

Documents

Korreláció- és regresszió-analízis · Korreláció- és regresszió-analízis Az X és Y véletlen változók között az alábbi ábrákon pozitív összefüggés nem lineáris