22
Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás Kapcsolatot, összefüggést keresünk két vagy több változó között. Van-e összefüggés a 7-10 éves gyermekek testtömeg-indexe (TTI) és a hetente a tv előtt töltött órák száma (TV) között? Jól leírja-e a TTI TV-től való függését egy lineáris függvény? Ha igen, mik ennek a függvénynek a paraméterei? Ha nem, milyen más függvényt válasszunk? Változik-e a kép, ha a TV mellett még más magyarázó változókat is figyelembe veszünk? (pl. a szülők testtömeg- indexét, a számítógép előtt töltött órák számát stb.)

Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

  • Upload
    others

  • View
    12

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1

Korreláció és regressziószámítás

Kapcsolatot, összefüggést keresünk két vagy több változó között.

• Van-e összefüggés a 7-10 éves gyermekek testtömeg-indexe (TTI) és a hetente a tv előtt töltött órák száma (TV) között?

• Jól leírja-e a TTI TV-től való függését egy lineáris függvény? Ha igen, mik ennek a függvénynek a paraméterei? Ha nem, milyen más függvényt válasszunk?

• Változik-e a kép, ha a TV mellett még más magyarázó változókat is figyelembe veszünk? (pl. a szülők testtömeg-indexét, a számítógép előtt töltött órák számát stb.)

Page 2: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 2

Korreláció és regressziószámítás

Kapcsolatot, összefüggést keresünk két vagy több változó között.

• Van-e összefüggés a 7-10 éves gyermekek testtömeg-indexe (TTI) és a hetente a tv előtt töltött órák száma (TV) között?

KorrelációszámításKorrelációszámításKorrelációszámításKorrelációszámítás • Jól leírja-e a TTI TV-től való függését egy lineáris függvény? Ha igen, mik ennek a függvénynek a paraméterei? Ha nem, milyen más függvényt válasszunk?

Regressziószámítás Regressziószámítás Regressziószámítás Regressziószámítás • Változik-e a kép, ha a TV mellett még más magyarázó változókat is figyelembe veszünk? (pl. a szülők testtömeg-indexét, a számítógép előtt töltött órák számát stb.)

Page 3: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 3

Korreláció és regressziószámítás

Kapcsolatot, összefüggést keresünk két vagy több változó között.

• Van-e összefüggés a 7-10 éves gyermekek testtömeg-indexe (TTI) és a hetente a tv előtt töltött órák száma (TV) között?

KorrelációszámításKorrelációszámításKorrelációszámításKorrelációszámítás • Jól leírja-e a TTI TV-től való függését egy lineáris függvény? Ha igen, mik ennek a függvénynek a paraméterei? Ha nem, milyen más függvényt válasszunk?

Hipotézisvizsgálat Hipotézisvizsgálat Hipotézisvizsgálat Hipotézisvizsgálat RegressziószámításRegressziószámításRegressziószámításRegressziószámítás BecslésBecslésBecslésBecslés • Változik-e a kép, ha a TV mellett még más magyarázó változókat is figyelembe veszünk? (pl. a szülők testtömeg-indexét, a számítógép előtt töltött órák számát stb.)

Page 4: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 4

Figyelem! Nem minden kapcsolat korrelációs jellegű!

a – nincs kapcsolat, b – pozitív nemlineáris korreláció, c – pozitív lineáris korreláció, d – negatív lineáris korreláció, e, f – nem korrelációs (nem monoton) kapcsolatok

Page 5: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 5

Általános (bármilyen jellegű) összefüggés: asszociáció

Monoton összefüggés: korreláció Pozitív korreláció: nagyobb x-hez nagyobb y (általában!) Negatív korreláció: nagyobb x-hez kisebb y (általában!)

Számszerűsítése a (–1, 1) skálán történik:

–1 0 1 max. negatív korr. nincs korr. max. pozitív korr. (legerősebb) (leggyengébb) (legerősebb)

Bár két független változó között mindig 0 a korreláció, a 0 korrelációból nem következik a függetlenség!

(lásd e, f: van kapcsolat, csak nem korrelációs jellegű)

Page 6: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 6

A három leggyakrabban használt korrelációs együttható

Pearson-féle:

• Főleg a lineáris kapcsolatra érzékeny • A kiugró értékek erősen befolyásolják • A klasszikus szignifikancia-vizsgálat csak normális változókra megy (de bootstrap-pel eloszlásfüggetlen is végezhető)

Spearman-féle (rang-korrelációs együttható):

• A Pearson-féle a rangszámokra alkalmazva • Nemlineáris kapcsolatra is érzékeny • A kiugró értékek kevésbé befolyásolják

Kendall-féle ττττ (tau):

• Nemlineáris kapcsolatra is érzékeny • A kiugró értékek még kevésbé befolyásolják

Page 7: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 7

Regressziószámítás

Matematikai függvénnyel leírható kapcsolatot keresünk egy vagy több magyarázó változó (x1, x2 stb.) és egy függő változó (y) között. Feltételezzük, hogy az y-t az x-ek nem határozzák meg egyértelműen, az y mért értéke a véletlentől is függ.

Modell: f a f a f a f a függvény függvény függvény függvény εεεε a „véletlen a „véletlen a „véletlen a „véletlen komponenskomponenskomponenskomponens”””” y = f (x1 , x2 , …) + ε

vagy ha a függvény lineáris:

y = β0 + β1⋅x1 + β2⋅x2 + … + ε

Page 8: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 8

OOOOksági ksági ksági ksági kapcsolatotkapcsolatotkapcsolatotkapcsolatot keresünk keresünk keresünk keresünk???? Regressziószámítás

Matematikai függvénnyel leírható kapcsolatot keresünk egy vagy több magyarázó változó (x1, x2 stb.) és egy függő változó (y) között. Feltételezzük, hogy az y-t az x-ek nem határozzák meg egyértelműen, az y mért értéke a véletlentől is függ.

Modell: f a f a f a f a függvény függvény függvény függvény εεεε a „véletlen a „véletlen a „véletlen a „véletlen komponenskomponenskomponenskomponens”””” y = f (x1 , x2 , …) + ε

vagy ha a függvény lineáris:

y = β0 + β1⋅x1 + β2⋅x2 + … + ε

Page 9: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 9

Regressziószámítás

Matematikai függvénnyel leírható kapcsolatot keresünk egy vagy több magyarázó változó (x1, x2 stb.) és egy függő változó (y) között. Feltételezzük, hogy az y-t az x-ek nem határozzák meg egyértelműen, az y mért értéke a véletlentől is függ.

Modell: f a f a f a f a függvény függvény függvény függvény εεεε a „véletlen a „véletlen a „véletlen a „véletlen komponenskomponenskomponenskomponens”””” y = f (x1 , x2 , …) + ε

vagy ha a függvény lineáris:

y = β0 + β1⋅x1 + β2⋅x2 + … + ε

Az Az Az Az xxxx ----ek ebben a modellben nem véletlen változók!ek ebben a modellben nem véletlen változók!ek ebben a modellben nem véletlen változók!ek ebben a modellben nem véletlen változók!

Page 10: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 10

Regressziós modellezés:

1. Mit gondolunk, mi függ mitől, mi a függő változó, hogyan mérjük, mely magyarázó változókat használjuk stb.

2. Mi a cél? Csak az összefüggés igazolása, vagy előrejelzés az x-(ek)ből az y-ra? Esetleg az y-ból az x-re?

3. Mit tudunk már pl. az irodalomból? Lineáris a kapcsolat? Monoton a kapcsolat? Ha monoton, pozitív vagy negatív?

4. Mit látunk az adatokból készült grafikonokon? Vannak-e kiugró értékek? Ha igen, értjük-e, hogyan keletkeztek? A grafikonok szerint milyen függvénytípus illeszkedne jól?

5. Válasszunk függvénytípust és végezzük el az elemzést! Rendben van-e a modell (diagnosztika, reziduumok)? Szignifikáns-e (p-értékek)? Megfelel-e az illeszkedés (R2)?

6. Ha valami nincs rendben, vissza az 5.-re!

Page 11: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 11

Különbségek a korreláció- és regressziószámítás között

• Míg a korrelációszámítás szimmetrikus kapcsolatot tételez fel az x és y között, addig a regressziószámítás egy bizonyos irányú (x →→→→ y) kapcsolatot

• Míg a korrelációszámításban mindkét változó valószínűségi változó, a regressziószámításban x nem feltétlenül az (x nem feltétlenül függ a véletlentől).

A korrelációszámításnak nincs értelme akkor, ha az x értékeit (pl. dózist) a kísérletező állítja be!

Két mérési módszer közötti egyezés vizsgálatára sem a korreláció-, sem a regressziószámítás nem megfelelő!

Page 12: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 12

Miért nem mindegy, hogy melyik változót választjuk x-nek és melyiket y-nak?

Tegyük fel, hogy a valódi összefüggés az x és y között

y = 0.5 ⋅x + 3, amit átírhatunk így is:

x = 2⋅y – 6. Tegyük fel továbbá, hogy az y függ az x-től, de emellett egy normális eloszlású véletlen faktort (ε ) is tartalmaz, azaz:

y = 0.5 ⋅x + 3 + ε

(tehát az x nem véletlen, de az y az ε miatt az)

Ha az ε szórása kicsi, mindkét irányú regresszió ugyanazt adja. Ha az ε szórása nagyobb, a „jó irányú” regresszió továbbra is helyes eredményt ad, míg a másik egyre rosszabbat.

Page 13: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 13

A valódi összefüggés x és y között:

y = 0.5 ⋅x + 3 x = 2⋅y – 6

y = 0.5104x + 2.9745

3

4

5

6

7

1 2 3 4 5

y = 1.9256x - 5.6763

1

2

3

4

5

3 4 5 6 7

A becsült egyenesek, ha az ε szórása kicsi.

Page 14: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 14

A valódi összefüggés x és y között:

y = 0.5 ⋅x + 3 x = 2⋅y – 6

y = 0.5068x + 2.9853

3

4

5

6

7

1 2 3 4 5

y = 1.12x - 2.0465

1

2

3

4

5

3 4 5 6 7

A becsült egyenesek közepes szórású ε esetén.

Page 15: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 15

A valódi összefüggés x és y között:

y = 0.5 ⋅x + 3 x = 2⋅y – 6

y = 0.4818x + 3.0665

3

4

5

6

7

1 2 3 4 5

y = 0.6443x + 0.0929

1

2

3

4

5

3 4 5 6 7

A becsült egyenesek nagy szórású ε esetén.

Page 16: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 16

Megfigyelt és számított (becsült) értékek, reziduumok

Jelölje a két magyarázó változót x1 és x2, a függő változót y, és végezzünk lineáris regressziót! A regressziós felület egy sík lesz, a megfigyelt pontoknak a síkra való y irányú vetületei a becsült értékek, a síktól való eltéréseik pedig a reziduumok.

számított vagy becsült y

reziduum

megfigyelt (x1,x2,y) pont

Page 17: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 17

A paraméterek becslése: a legkisebb négyzetek elve

Azt a felületet (lineáris esetben síkot, egy magyarázó változó esetén egyenest) választjuk becslésnek, azaz mint az adatainkhoz legjobban illeszkedőt, amelyiktől a megfigyelt pontok eltérés-négyzetösszege (=a reziduumok négyzet-összege) a legkisebb.

A statisztikai programok e függvény (felület, sík, egyenes stb) paramétereit adják meg becslésként. Pl.: lineáris regresszió két magyarázó változóval:

Y = b0 + b1⋅x1 + b2⋅x2

Ekkor a paraméterek: b0, b1, b2 .

A programok a becslésekhez általában megadnak SE-t, sőt konfidencia-intervallumot is (95%-ost a bi ± 1.96⋅SE képlettel).

Page 18: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 18

Hipotézisvizsgálatok

Valóban függ-e…? H0: nem függ H1: függ (az adatok bizonyító erejűek)

„Szignifikáns a regresszió” = elvetjük a H0-t!

1. Valóban függ-e az y az xi –től (egyenként)?

• t-próbák, minden egyes magyarázó változóra • Amelyiktől nem függ szignifikánsan, kihagyhatjuk a modellből

2. Valóban függ-e az y az xi-ktől (együtt az összestől)?

• F-próba

A tesztek szükséges feltétele az y véletlen komponensének

normalitása, és hogy az εεεε szórása ne függjön az x-ektől!

Page 19: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 19

Mennyire határozzák meg az x-ek az y-t: az R2

A determinációs együttható, az R2 azt mondja meg, hogy mennyire informatívak az x-ek az y-ra nézve.

Értéke 0 és 1 közötti: R2=0 R2=1

Ne akarjunk minél nagyobb R2-et! (Inkább értelmes modellt!)

Nem érdemes ismernünk az x-eket, úgysem mondanak semmit az y-ra nézve (legalábbis a lineáris regresszió modelljében maradva)

Az x-ek teljes mértékben meghatározzák az y-t, valójában nincs véletlen komponense (tehát az y egyszerűen az x-ek egy lineáris függvénye)

Page 20: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 20

Rendben van-e a modell? „regressziós diagnosztika”

• Ha „rendben van” a modell, akkor a reziduumok véletlenszerű elrendeződést mutatnak.

0

2

4

6

8

0 5 10

x

y

-2

-1

0

1

2

0 5 10

x

resid.

0

5

10

15

20

25

0 5 10

x

y

-2

0

2

4

6

0 5 10

x

resid.

Page 21: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 21

• A reziduumok normalitását QQ-plottal vizsgálhatjuk (kis mintára a „szemmel” való megítélés jobb, mint a statisztikai teszt).

• Azt, hogy az εεεε szórása függ-e az x-ektől, a reziduumok szórásából ítélhetjük meg.

0

10

20

30

0 5 10

x

y

-15

-5

5

15

0 5 10

x

resid.

• Figyeljünk arra, hogy a magyarázó változók egymással ne legyenek nagyon korreláltak (multikollinearitás)!

• Mindig nézzük meg, hogy az összefüggés nem 1-2 pont műve-e!

• Több magyarázó változó esetén a diagnosztika bonyolultabb (és mindegyik statisztikai programmal másképp kell végezni).

Page 22: Korreláció és regressziószámításregr.pdf · 2010-10-25 · Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 1 Korreláció és regressziószámítás

Korreláció és regressziószámítás (Reiczigel Jenő, 2008.01.18.) 22

Kitekintés: a lineáris modell

Ha a magyarázó változók nem folytonosak, hanem diszkrétek, kategoriálisak (csoportképző változók), akkor a regresszió-számítás helyett varianciaelemzést (ANOVA) végzünk.

Ha a magyarázó változók között csoportképző és folytonos változók is vannak, akkor variancia-kovariancia-elemzést végzünk: az y-nak a kategoriális változóktól való függését a varianciaelemzés szerint, a folytonosaktól (=kovariánsok) való függését pedig lineáris regresszióval elemezzük.

Nem különNem különNem különNem külön----külön, ez a módszer ezt egyszerre tudjakülön, ez a módszer ezt egyszerre tudjakülön, ez a módszer ezt egyszerre tudjakülön, ez a módszer ezt egyszerre tudja csinálni! csinálni! csinálni! csinálni! Az általános lineáris modell (general linear model) egységes elméletet kínál e három módszerre.

((((A megoldás végül is regressziószámítással történik.A megoldás végül is regressziószámítással történik.A megoldás végül is regressziószámítással történik.A megoldás végül is regressziószámítással történik.))))