65
STATISZTIKA1 FELADATOK Bolla Marianna és Mala József BME Matematika Intézet, Sztochasztika Tanszék 2021. március 30. 1. feladatsor Alapstatisztikák és többdimenziós adatrendszerek 1. A Kandó Kálmán Műszaki Főiskolára a jelentkező 300 fiúból 200, míg az 50 lányból 40 került be. Ugyanakkor a Színművészeti Főiskolára a jelentkező 100 fiúból 5, míg a 200 lányból 20 került be. Láthatjuk, hogy mindkét főiskolára a lányoknak nagyobb %-a jutott be, mint a fiúknak, ugyanakkor az egyesített mintában éppen az ellenkezőjét tapasztaljuk: a két főiskolára összességében a lányoknál rosszabb a felvételi arány, mint a fiúknál. Hogyan lehetséges ez? Megoldás : Az itt leírt paradoxont, amely abban nyilvánul meg, hogy kü- lönböző részcsoportok keverékénél a részekkel ellentétes következtetésre jutunk, Simpson-paradoxon nak is nevezik (Simpson, E. H., The interpre- tation of interaction in contingency tables, J. Royal. Statist. Soc. Ser. B 13 (1951), 238-241 ). Azon alapul, hogy különböző súlyokkal szere- pelnek az egyes intézmények a fiúknál ill. a lányoknál. Mondhatnánk, hogy a lányok jobban teljesítettek, a fiúk viszont jobban választottak. Megfigyeléseink valójában 3 kategorikus (esetünkben bináris) változóra vonatkoznak: NEM (fiú/lány), INTÉZMÉNY (Kandó Kálmán Műszaki Főiskola/Színművészeti Főiskola), FELVÉTEL (igen/nem). A 2 × 2 × 2 térbeli kocka alkú kontingenciatábla adatai (8 cellával) az alábbi síkbeli táblázatokba sűríthetők össze (a 8 értéket cella-gyakoriságnak nevezzük). A NEM versus FELVÉTEL 2 × 2-es marginális tábla a következő: felvettek felvételizők fiú 205 400 lány 60 250 A fiúk felvételi aránya 51.3%, a lányoké 24%. Ha azonban az intézményen- kénti rétegeket nézzük, akkor azokban a két táblázat a fentivel ellentétes arányokat mutat: 1

STATISZTIKA1 FELADATOK

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: STATISZTIKA1 FELADATOK

STATISZTIKA1 FELADATOK

Bolla Marianna és Mala József

BME Matematika Intézet, Sztochasztika Tanszék

2021. március 30.

1. feladatsor

Alapstatisztikák és többdimenziós adatrendszerek

1. A Kandó Kálmán Műszaki Főiskolára a jelentkező 300 fiúból 200, mígaz 50 lányból 40 került be. Ugyanakkor a Színművészeti Főiskolára ajelentkező 100 fiúból 5, míg a 200 lányból 20 került be. Láthatjuk, hogymindkét főiskolára a lányoknak nagyobb %-a jutott be, mint a fiúknak,ugyanakkor az egyesített mintában éppen az ellenkezőjét tapasztaljuk: akét főiskolára összességében a lányoknál rosszabb a felvételi arány, mint afiúknál. Hogyan lehetséges ez?

Megoldás: Az itt leírt paradoxont, amely abban nyilvánul meg, hogy kü-lönböző részcsoportok keverékénél a részekkel ellentétes következtetésrejutunk, Simpson-paradoxonnak is nevezik (Simpson, E. H., The interpre-tation of interaction in contingency tables, J. Royal. Statist. Soc. Ser.B 13 (1951), 238-241 ). Azon alapul, hogy különböző súlyokkal szere-pelnek az egyes intézmények a fiúknál ill. a lányoknál. Mondhatnánk,hogy a lányok jobban teljesítettek, a fiúk viszont jobban választottak.Megfigyeléseink valójában 3 kategorikus (esetünkben bináris) változóravonatkoznak: NEM (fiú/lány), INTÉZMÉNY (Kandó Kálmán MűszakiFőiskola/Színművészeti Főiskola), FELVÉTEL (igen/nem). A 2 × 2 × 2térbeli kocka alkú kontingenciatábla adatai (8 cellával) az alábbi síkbelitáblázatokba sűríthetők össze (a 8 értéket cella-gyakoriságnak nevezzük).

A NEM versus FELVÉTEL 2× 2-es marginális tábla a következő:

felvettek felvételizők

fiú 205 400

lány 60 250

A fiúk felvételi aránya 51.3%, a lányoké 24%. Ha azonban az intézményen-kénti rétegeket nézzük, akkor azokban a két táblázat a fentivel ellentétesarányokat mutat:

1

Page 2: STATISZTIKA1 FELADATOK

intézmény nem felvettek felvételizők

Kandó fiú 200 300

lány 40 50

Színm. fiú 5 100

lány 20 200

A Kandóra a lányok felvételi aránya 80%, míg a fiúké 66.6%, a Színművé-szetire a lányok felvételi aránya 10%, míg a fiúké 5%. Ugyanakkor, összesé-gében a fiúk több mint fele bekerült (ebbe a két) felsőoktatási intézménybe,míg a lányoknak még negyede sem.

Még pontosabban, itt 3 binális változó (NEM, FELVÉTEL, INTÉZMÉNY)együttes eloszlásáról van szó, ami megadható 2 × 2 × 2-es kontingencia-táblával szeletekben. A tábla NEM versus FElVÉTEL szeletei az INTÉZ-MÉNY kétféle értékére a következők.

Kandó:felvett nem felvett

fiú 200 100

lány 40 10

Színművészeti:felvett nem felvett

fiú 5 95

lány 20 180

A paradoxon abból adódik, hogy a NEM versus FELVÉTEL marginálistábla (az INTÉZMÉNYekre összegezve) nem a fenti arányokat mutatja.

Összesen:felvett nem felvett

fiú 205 195

lány 60 190

A 2. feladatban megadunk egy algebrai feltételt, amely mellett a para-doxon egyáltalán előfordulhat alkalmas cella-gyakoriságokkal. A 3. és 6.feladatban inkább azt vizsgáljuk, milyen feltételek mellett nem fordul előa paradoxon. Ezek feltételes függetlenségekkel fogalmazhatók meg és agrafikus modellek irányába mutatnak.

2. Általában, ha p > q a felvett lányok aránya ill. felvett fiúk aránya a Kan-dóra, továbbá r > s fejezi ki ugyanezt a Színművészetire, akkor igazolja,hogy a Simpson paradoxon pontosan akkor állhat elő (valamely jelentke-zési arányokkal), ha q > r vagy s > p!

2

Page 3: STATISZTIKA1 FELADATOK

3. Floridai gyilkosságok: A következő két táblázat floridai gyilkosságokmiatti vádemelések számát tartalmazza a vádlott bőrszínének ill. annak afüggvényében, hogy halálbüntetést kiszabtak-e vagy sem. Az első táblázat- amelyben az áldozat bőrszíne nem szerepel - azt mutatja, hogy fehére-ket nagyobb arányban ítéltek halálra, mint feketéket (3.2% ill. 2.3%).Ha azonban az áldozat bőrszíne szerint csoportosítjuk az adatokat, a képegészen más: mind a fekete, mind a fehér áldozatok esetében a feketék na-gyobb arányban kaptak halálbüntetést. Mindkét táblázat ugyanannak ahelyzetnek bizonyos szempontból pontos leírása; azonban a példa mutatja,hogy egy gondatlan vizsgálat milyen hamar megalapozatlan eredményrevezethet.

vádlott halálraítéltek elítéltek

fekete 59 2606

fehér 72 2257

A táblázatból látható, hogy a fekete elítéltek között a halálraítéltek aránya2.3%, míg ugyanez a szám a fehérek között 3.2%.

Az áldozat bőrszíne szerinti adatok a következők voltak:

áldozat vádlott halálbüntetés egyéb

fekete fekete 11 2320

fehér 0 111

fehér fekete 48 286

fehér 72 2146

Ekkor a fekete áldozatok között a fekete-fehér elkövetők halálraítélési ará-nyai 0.5−0% és ugyanezek az arányok a fehér áldozatok között 16.8−3.3%.

Az adatok Floridában 1973-78 közt gyűjtött adatokon alapulnak (Range,P. R. (1979), Will he be the first? The New York Times Magazine, 11thMarch, 72-82.)

Itt is 3 binális változó (GYILKOS (bőrszíne), ÍTÉLET, ÁLDOZAT (bőr-színe)) együttes eloszlásáról van szó, ami megadható 2× 2× 2-es konting-enciatáblával. A tábla GYILKOS versus ÍTÉLET szeletei az ÁLDOZATkétféle értékére a következők.

Az ÁLDOZAT fekete:

halálos ítélet nem halálos ítélet

fekete gyilkos 11 2320

fehér gyilkos 0 111

3

Page 4: STATISZTIKA1 FELADATOK

Az ÁLDOZAT fehér:

halálos ítélet nem halálos ítélet

fekete gyilkos 48 286

fehér gyilkos 72 2146

A paradoxon abból adódik, hogy a GYILKOS versus ÍTÉLET marginálistábla (az ÁLDOZATokra összegezve) nem a fenti arányokat mutatja.

Összesen:

halálos ítélet nem halálos ítélet

fekete gyilkos 59 2606

fehér gyilkos 72 2257

4. Ha a változók kettőnél több értéket is felvehetnek, akkor is hasonló hely-zet adódhat. A következő példa egy képzeletbeli referendumról szól; aszavazók számát, illetve a szavazás eredményét tartalmazza az alábbi kéttáblázat három városban (A,B,C) és három korosztály (fiatalok (F), kö-zépkorúak (K) és nyugdíjasok (N)) szerint.

szavazók száma: igennel szavazók száma:

A B C

F 15000 15000 70000

K 25000 30000 45000

N 45000 35000 20000

A B C

F 12000 9000 24500

K 17000 16500 13500

N 27000 17500 5000

igennel szavazók százaléka városok szerint:

A B C

F 80 60 35

K 68 55 30

N 60 50 25

igennel szavazók százaléka összesen:

szav. igen szav. százalék

F 100000 45500 45.5

K 100000 47000 47

N 100000 49500 49.5

4

Page 5: STATISZTIKA1 FELADATOK

Látható, hogy mindhárom városban a fiatalok között legnagyobb a re-ferendum támogatottsága és a nyugdíjasok között legkisebb; azonban akorosztályok szerinti összesített adatok mást mutatnak: a sorrend éppena fordítottja a fentinek; összességében a nyugdíjasok között a legnagyobba támogatottság (49.5%), utána következnek a középkorúak (47%) és a fi-atalok között a legkisebb (45.5); a fiatalok sokat veszítenek C-ben, a nyug-díjasok viszont sokat nyernek A-ban. (Szintén vegyük észre, hogy a népesC-ben viszonylag kevés a nyugdíjas. A városokra összegezve így a KORversus TÁMOGATJA kereszttáblában a N korosztályban lesz a legkisebba nem-támogatók, és így legnagyobb a támogatók aránya.) Egyébként ittaz eltérések nem lényegesek (a szignifikancia fogalmával a hipotézisvizsgá-latoknál fogunk megismerkedni).

5. Folytonos eloszlású változók esetén is előfordulhat, hogy más következte-tésre jutunk, ha csak kettőt ragadunk ki a sok változó közül. Például télenazt tapasztaljuk, minél magasabb a gázszámlánk, annál hidegebb van alakásban, ha nem vesszük figyelembe a külső hőmérsékletet és a gáz össze-tételének romlását csúcsfogyasztás esetén. A problémát regresszióanalíziscímszó alatt tárgyaljuk, és a parciális korrelációval van kapcsolatban. Ezkét változó kapcsolatának „szorosságát” méri, megtisztítva a többi változóhatásától. Előfordulhat ugyanis hogy ha csupán két változót ragadunkki több közül, azok negatívan korrelálnak, mert nem vettük figyelembe azavaró hatásokat.

A következő ábra az Egyesült Államokban megfigyelt rákos esetek szá-mát mutatja a kivifogyasztás függvényében. Mivel 1970 és 1980 közöttmindkét mennyiség növekedett, ezek évente megfigyelt értékei korreláltak.Jóllehet ez matematikai bizonyosság, mégsem állíthatjuk, hogy a rákosesetek számának növekedését az okozta, hogy az emberek több kivit ettek.A ténylegesen talált (és statisztikailag bizonyított) korrelációt csak akkorszabad ok-okozati kapcsolatnak tekinteni, ha erre elméleti indok van.

-

6

rákosesetek

kivifogyasztás

••• •

• •••••

Hasonlóan, egy országban az egy lakosra jutó laptopok száma pozitívankorrelál az életszínvonallal. De senki sem gondolja, hogy pl. Rhodesiábanaz életszínvonal megnő, ha teherhajókkal laptopot küldenek oda.

5

Page 6: STATISZTIKA1 FELADATOK

Ilyen példákat az élet legkülönbözőbb területein találhatunk. Például ha-tározottan pozitív korreláció van a Duna vízállása és a BME-n tartózkodőhallgatók száma között, hiszen késő tavasszal és késő ősszel magas a Dunavízállása és éppen ezek az időszakok előzik meg a vizsgaidőszakot. Itt éskivis példában is az idő a közvetítő, míg a laptopos példában a pénz.

6. Folytonos eloszlásokra a következő tétel alkalmazható, ld. Cox, D. R.and Wermuth, N., Avoiding effect reversal after marginalization, J. Ro-yal. Stat. Assoc. B. 65 (2003), 937–941. A tétel kiterjeszthető diszkrételoszlásokra is.

Tétel: Legyen X,Y,W nornális eloszlású, X prediktor, Y célváltozó (vá-lasz), W pedig háttérváltozó. Cox and Wermuth megvizsgálták, hogy aközönséges regressziós együttható βY X mikor egyezik meg a βY X|W par-ciális regressziós együtthatóval, azaz mikor nincsen W -nek befolyása X ésY egymás közti viszonyára.

A későbbi regressziós tananyag jelöléseit használjuk. Tegyük fel, hogy vál-tozóinkat már standardizáltuk (0 várható érték, 1 szórás). Akkor βY X =rY X (Pearson korreláció), βY X|W = rY X|W pedig a parciális korrelációsegyüttható X és Y közt. A Cochran formula szerint

rY X = rY X|W + βYW |X · rXW . (1)

Így rY X = rY X|W akkor és csak akkor teljesül, ha vagy rXW = 0 vagyβYW |X = 0. Tehát W -nek pontosan akkor nincs befolyása X és Y egymásközti viszonyára, ha vagy X and W (marginálisan) függetlenek, vagy Y ésW feltételesen függetlenek X adott értéke mellett. Jelöléssel:

X⊥⊥W vagy Y⊥⊥W |X. (2)

Most példát látunk arra, hogy nem következik be a paradoxon.

Gyerekverő dán nők: A példát Lauritzen, S. L., Graphical Models, Ox-for Univ. Press (1995) könyvéből vettük, a Gallup Intézet adatai alapján.

237 dán nőnél vizsgálták a következőket: használ-e fizikai fenyítést gye-rekeinél (U=Usage), politikai pártállás (A=Affiliation)), gyerekkorábantapasztalt-e fizikai fenyítést (E=Experience). Az alábbi táblázat ezt mu-tatja (angolul):

1. táblázat. Frequencies (gyakoriságok).

Childhood experience and Political Affiliationuse of physical punishment(PP) Left Soc.Dem. RightHas experienced PP Uses PP 12 27 58

Does not use PP 7 28 30Has not experienced PP Uses PP 9 5 9

Does not use PP 19 15 18

U (usage of physical punishment y/n), E (childhood experience of physicalpunishment y/n), A (party affiliation, L/S/R).

6

Page 7: STATISZTIKA1 FELADATOK

2. táblázat. Tables describing marginal associations between childhood experi-ence (E) of physical punishment, use (U) of physical punishment and politicalaffiliation (A)

U A AE yes no E l s r U l s r

yes 97 65 yes 19 55 88 yes 21 32 67no 23 52 no 28 20 27 no 26 43 48

Ellenőrizhető, hogy U⊥⊥A|E, ami részletesebben azt jelenti, hogy

P(U = u,A = a |E = e) = P(U = u |E = e) · P(A = a |E = e)

vagy ami ezzel ekvivalens,

P(U = u |A = a, E = e) = P(U = u |E = e)

az összes lehetséges a, e, u értékhármasra. Ez statisztiksan értendő (a ké-sőbb tanulandó statisztikai próbák, pl. χ2 ismeretében). Pl. a margináli-sok szorzataként előálló 2× 3-as U versus A kereszt-tábla mind az E = y,mind az E = n szeletekben jól közelítette az eredetit, ami az E adottértéke melletti függetlenségét sugallja. Ezt a χ2 próbák is alátámasztják:

3. táblázat. Results from the χ2 tests for independence

Null Hypothesis (H0) U⊥⊥A U⊥⊥A|E = y U⊥⊥A|E = nDegree of Freedom 2 2 2χ2 Value 5.25 4.08 0.42Significance 0.072 0.130 0.810Conclusion (7.5%) Reject Do not reject Do not reject

Következtetés: Alkalmazzuk a Tételt az eddigi példákban!

• A dán nők esetében:

Y = U, X = E, W = A.

A fentiek alapján Y⊥⊥W |X teljesül (2)-ban, így A-nak nincs befolyá-sa U and E kapcsolatára, nem áll elő a paradoxon.Erre az A ← E → U jelölés is használatos, ami azt is jelenti, hogyA és U feltételesen független E adott értéke mellett, de marginálisannem függetlenek. Ezen az alapon log-lineáris modell konstruálható:

P(U = u,A = a,E = e) = P(E = e)·P(U = u |E = e)·P(A = a |E = e)

vagy logaritmálással

ln puae = ln fue + ln fae

bizonyos ún. másodrendű interakciókkal.

7

Page 8: STATISZTIKA1 FELADATOK

• Az 1. felvételi példában:

Y = FELVÉTEL, X = NEM, W = INTÉZMÉNY.

Itt X és W nem függetlenek és Y,W sem feltételesen függetlenek X-re. Ezért (2) alapján W -nek hatása van Y és X kapcsolatára, amimiatt a paradoxon bekövetkezik.

• A 3. floridai gyilkossági példában:

Y = ÍTÉLET, X = GYILKOS, W = ÁLDOZAT.

Itt (2)-beli egyik feltétel sem teljesül. Ezért W -nek hatása van Y ésX kapcsolatára, ami miatt a paradoxon bekövetkezik.

• A következő példa Wainer, H., Book review of Social Indicators III:selected data on social conditions and trends in the United States, J.Amer. Stat. Assoc. 78 (1980), 492–496 és Wermuth, N., GraphicalMarkov models, unifying results and their interpretation, In: (Balak-rishnan, N. et al. eds) Wiley StatsRef: Statistics Reference Online(2015), ArXiv: 1505.02456 cikkeiből való.Ellentétben a dán nők példájával, itt egy harmadik változó inkábbfeltételes függőséget indukál két független között. American Banks(1980): Y jövedelem, X iskolázottság (években),W nem. Azt tapasz-talták, hogy Y növekedett X-el mindkét nem esetében, így Y and Xnem feltételesen függetlenek W -re. Ugyanakkor X⊥⊥W marginálisanfüggetlen (férfiak és nők nemüktől függetlenül részesülhettek az okta-tásban). De Y és W már nem feltételesen függetlenek X-re. Így vanparadoxon. Hasonlóan, X és W nem feltételesen függetlenek Y -ra.Valóban, adott fizetésnél a nőknek magasabb volt az iskolázottsága,mint a férfiaknak.Ezt a feltételes függőség generálást úgy is jelölhetjük, hogyX → Y ←W (itt Y időben később következik).

7. A feladat a Matematikai statisztika példatárból (ELTE Eötvös Kiadó,1997) való. Egy gyáregységben az alkalmazottak havi fizetése (ezer Ft-ban): 25, 26, 18, 20, 51, 45, 80, 20, 30, 25, 250, 46, 38, 142, 40, 21, 25, 26,52, 90, 44, 21, 24, 40, 51. A rendezett minta alapján ábrázoljuk az adato-kat sűrűség-hisztogrammal, és készítsük el az empirikus eloszlásfüggvénytis. Gyanakodhatunk-e Pareto eloszlásra? Számoljuk ki a minta középérté-keit (átlag, medián)! Melyik középértéket mikor használnánk? Keressükmeg a kvartilis értékeket is!

8. Egy zeneműboltban kiválasztottunk hét különböző kiadású CD-t, melye-ken Beethoven 9. szimfóniája szerepel. A mű időtartamai az egyes CD-ken(percben mérve): 66.9, 66.2, 71.0, 68.6, 65.4, 68.4, 71.9.

Keressük meg

(a) a tapasztalati mediánt;

(b) a tapasztalati átlagot;

(c) a tapasztalati szórást.

8

Page 9: STATISZTIKA1 FELADATOK

9. A kalciumhiány komoly probléma az idős nőknél. Hogy a hiányt meg-állapítsa, egy kutató idős nőkben megmérte az alkarban található kalci-ummennyiséget, majd ugyanezt elvégezte egy év múltán. A veszteségekettartalmazza a következő táblázat:

8 7 13 3 64 8 6 3 40 1 11 7 18 6 12 13 109 11 3 2 97 1 16 3 210 15 2 5 817 8 2 5 5

a) Számolja ki x - et és s - et, ahol (és a továbbiakban is) s a korrigálttapasztalati szórást jelöli!

b) Számolja ki azon esetek arányát, melyek az x ± s, x ± 2s ill. x ± 3sintervallumokba esnek;

c) Hasonlítsa össze a kapott számokat az (x, s) - paraméterű normáliseloszlás megfelelő értékeivel!

10. A következő táblázat az eddigi amerikai elnökök életkorát tartalmazza abeiktatáskor:

1. Washington 572. J.Adams 613. Jefferson 574. Madison 575. Monroe 586. J.Q.Adams 577. Jackson 618. Van Buren 549. W.H.Harrison 6810. Tyler 5111. Polk 4912. Taylor 6413. Fillmore 5014. Pierce 4815. Buchanan 65

16. Lincoln 5217. A.Johnson 5618. Grant 4619. Hayes 5420. Garfield 4921. Arthur 5022. Cleveland 4723. B.Harrison 5524. Cleveland 5525. McKinley 5426. T.Roosevelt 4227. Taft 5128. Wilson 5629. Harding 5530. Coolidge 51

31. Hoover 5432. F.D. Roosevelt 5133. Truman 6034. Eisenhower 6235. Kennedy 4336. L.Johnson 5537. Nixon 5638. Ford 6139. Carter 5240. Reagan 6941. G.Bush 6442. Clinton 4643. G.W.Bush 5444. Obama 4745. D.Trump 7046. J.Biden 78

Adjuk meg a mediánt és a kvartiliseket, valamint a minta maximális ésminimális értéket, a mintaterjedelmet és a mintaátlagot! Készítsünk sűrű-séghisztogramot 6 osztóponttal! A 6 osztópont felhasználásával végezzennormalitás vizsgálatot!

11. a) Számolja ki x-t and s-t a 6, 8, 4, 9, 8 adatokra!b) Tekintsük az 106, 108, 104, 109, 108, adatokat, melyeket az előzőekből

100 - zal való eltolással kaptunk. Mennyi lesz most az x és s értéke?

9

Page 10: STATISZTIKA1 FELADATOK

c) Az a)-pontbeli adatokat megszorozzuk−3-mal: −18,−24,−12,−27,−24.Most mi lesz x és s értéke?

10

Page 11: STATISZTIKA1 FELADATOK

2. feladatsor

Elégséges statisztikák és maximum likelihood becslések

12. Legyen X1, . . . , Xn fae. minta az fθ(x) = 2θx(1 − x2)θ−1 (ha 0 < x < 1,különben 0) sfv.-el definiált eloszlásból. Keressünk elégséges statisztikátés ML-becslést az ismeretlen θ > 0 paraméterre!Megoldás: a likelihood fv.:

Lθ(x) = Lθ(x1, . . . , xn) =

n∏i=1

fθ(xi) = [2nθn(

n∏i=1

(1− xi)2)θ−1)] · [n∏i=1

xi],

ahol az első kapcsos zárójelben álló fv. gθ(x) , míg a másodikban ál-ló nem függ a paramétertől, ez h(x). (Megjegyezzük, hogy h(x)-be azI(0 ≤ x∗1 ≤ · · · ≤ x∗n ≤ 1) indikátorfv-t is bevehettük volna, ez semfügg a paramétertől.) Így a

∏ni=1(1 − X2

i ) statisztika elégséges lesz, de∑ni=1 log(1−X2

i ) is az lenne.A log-likelihood fv. θ szerint deriválható, a derivált gyökhelye lehet azML-becslés:

∂θlnLθ(x) =

∂θln gθ(x) =

n

θ+

n∑i=1

log(1−X2i ) = 0,

ahonnanθ = − n∑n

i=1 log(1−X2i ).

Könnyen látható, hogy θ 1 val.séggel pozitív, és ez az egyetlen lokális, sőtglobális maximum; továbbá θ egy elégséges statisztika fv-e.

13. Legyen X1, . . . , Xn fae. minta az fθ(x) = 1.5x2

θ3 (ha −θ ≤ x ≤ θ, különben0) sfv.-el definiált eloszlásból. Keressünk elégséges statisztikát és ML-becslést az ismeretlen θ > 0 pareméterre!Megoldás: a likelihood fv.:

Lθ(x) =

n∏i=1

1.5x2i

θ3I(−θ ≤ xi ≤ θ) =

[1

θ3nI(max

i|xi| ≤ θ)

[n∏i=1

1.5x2i

],

ahol az első kapcsos zárójelben álló fv. gθ(x) , míg a másodikban álló nemfügg a paramétertől, ez h(x). Így maxi |Xi| elégséges.A likelihood fv. most nem deriválható θ szerint (ez általában így van, haa sfv. tartója függ a paramétertől), viszont látható, hogy θ csökkenésévelmonoton nő mindaddig, amíg θ ≥ maxi |xi|. Így θ = maxi |Xi| ML-becslés.

14. Egy halastóból kifogtunk j db halat, megjelöltük és visszadobtuk őket.Ezután visszatevés nélkül kifogtunk n db halat melyek közül x jelölt ésn− x jelöletlen. Adjunk maximum likelihood becslést a halastóban talál-ható jelöletlen halak k számára.

11

Page 12: STATISZTIKA1 FELADATOK

Megoldás: a likelihood fv. itt a diszkrét k paramétertől függ, megfigyelé-sünket pedig x-ben sűrítettük össze. Itt ugyan nincsenek független min-taelemek (visszatevés nélkül történik a mintavételezés), mégis maximali-zálhatjuk az adott szituáció valószínűségét:

Lk(x) =

(jx

)(k

n−x)(

j+kn

) → max . k − ban.

Diszkrét maximalizálásról lévén szó, az

Lk(x)

Lk−1(x)=

k(j + k − n)

(k − n+ x)(j + k)

hányados növekedési viszonyainak vizsgálatával keressük a maximumot.Látható, hogy ez nj

x −j alsó egész része, ha ez a szám nem egész, különbennjx − j és

njx − j−1 is ML-becslések. Előbbi esetben az összes hal számára

njx − j + j = nj

x alsó egész része lesz az ML-becslés. A józan ész is eztdiktálja: extrapolálunk az összes jelölt és a kifogott mintában találhatójelöltek számának hányadosával.

15. A következő két kísérletet végezték el annak érdekében, hogy megállapít-sák egy adott párt népszerűségét:

(a) addig kérdezték véletlenszerűen kiválasztva az embereket, amíg 10olyat nem találtak, aki az adott pártra szavazna. Azt tapasztalták,hogy ehhez 1000 embert kellett megkérdezni;

(b) Véletlenszerűen megkérdeztek 1000 embert és azt találták, hogy kö-zülük 10 választaná az adott pártot.

Mutassuk meg, hogy mind a két kísérlet ugyanahhoz a maximum likeliho-od becsléshez vezet!

16. Tegyük fel, hogy egy almáskertben egymástól függetlenül találhatók fer-tőzött fák. Tíz egyforma nagy, egyenként három sorból álló ültetvénybenrendre 0, 3, 0, 1, 0, 0, 2, 1, 1, 2 beteg fát találtak. Adjunk maximum like-lihood becslést az egy sorban található fertőzött fák számának várhatóértékére!

17. Egy alkatrész élettartama exponenciális eloszlású ϑ/t várható értékkel,ha t hőmérsékleten működtetjük. Tegyük fel, hogy az n megfigyelést akülönböző t1, t2, . . . , tn hőmérsékleteken végeztük és x1, x2, . . . , xn élet-tartamokat figyeltünk meg. Adjunk maximum likelihood becslést ϑ - ra!

Megoldás: Itt a megfigyelések függetlenek, de nem azonos eloszlásúak. Azi. mintaelem eloszlása ti/θ paraméterű exponenciális. A maximalizálan-dó likelihood függvény: 1

ϑn exp(− 1ϑ

∑ni=1 tixi

). A loglikelihood függvény

deriváltja: −nϑ + 1ϑ2

∑ni=1 tixi, ennek zérushelye: ϑ = 1

n

∑ni=1 tixi. A meg-

oldás nem meglepő, olyan, mint a paraméter reciprokának ML becslése atixi realizáltakból (i = 1, . . . , n).

18. T ideig vizsgálták, hogy n páciens meddig élt még a kemoterápiás kezelésután. Az adatok: x1, . . . , ∗, . . . , ahol ∗ - ot írtunk az olyan esetekben,

12

Page 13: STATISZTIKA1 FELADATOK

ahol a páciens élt a T időpillanatban. Feltéve, hogy a sorozatban k db xitalálható, adjunk maximum likelihood becslést a páciensek túlélési időtar-tamára, ha az exponenciális eloszlású!

Megoldás: Ha a várható érték ϑ, akkor a likelihood függvény:∏ki=1

1ϑ exp(−xiϑ )·∏n−k

i=1 exp(−Tϑ ).A loglikelihood függvény deriváltja: − kϑ+

∑ki=1 xiϑ2 + (n−k)T

ϑ2 ,

és ennek zérushelye: ϑ =∑ki=1 xi+(n−k)T

k . Ez biztosan maximumhely, merta likelihood függvény limesze 0-ban és ∞ - ben is 0.

Cenzorált megfigyelśek : a gyakorlatban sokszor előfordul, hogy a kísérletlezárultáig nem következik be a válasz, a páciensek esetében pl. csak azttudjuk, hogy a megfigyelés végéig túléltek, a valódi túlélési időről pedigcsak annyit tudunk, hogy minimum annyi, mint a megfigyelési idő. Eztcenzorált mintának nevezzük és általánosan a Kaplan–Meyer algoritmussalkezeljük.

Általánosabb példa: n villanyégő élettartamát figyeltük meg. Közülükk db. elromlott a vizsgálati idő alatt (élettartamuk x1, . . . , xk), a többin− k túlélte a vizsgálatára szánt tj időt (j = 1, . . . , n− k) (ezek a cenzo-ráltak). Feltéve, hogy az égők valódi élettartama exponenciális eloszlásúλ paraméterrel, adjunk ML becslást λ-ra.

Megoldás: A cenzorált adatok esetében a P(Xj > tj) = e−λtj exponenci-ális val.ség lép a likelihood fv-be, ami

Lθ(x) =

k∏i=1

λe−λxi ·n−k∏j=1

e−λtj ,

lnLθ(x) = k lnλ−k∑i=1

λxi −n−k∑j=1

λtj ,

melynek deriválásával

λ =k∑k

i=1 xi +∑n−kj=1 tj

,

ha k > 0.

19. Egy város energiafogyasztása (megfelelő mértékegységben) 100 várhatóértékű és egységnyi szórású normális eloszlású valószínűségi változó. ϑ napután egy konstans, egységnyi fogyasztású üzem is megkezdte a működését.Adjuk meg a likelihood függvényt x1, . . . , xn megfigyelés alapján. Adjunkmaximum likelihood becslést az alábbi adatsor esetén: 99.2, 101.4, 99.7,100.2, 102.4, 100.1, 101.6, 99.8, 102.4, 100.5.

20. Egy laborban a mérést általában az ismert (σ) szórású műszeren végzik. nilyen mérés elvégzése után (a független, azonos N (µ, σ2) eloszlású adatok:x1, . . . , xn) elromlott a készülék és csak a régi kσ (szintén ismert) szórásúműszert lehetett használni. Ezzel a műszerrel az y1, . . . , yn adatokhozjutottunk (µ változatlan). Adjunk maximum likelihood becslést µ - re!

13

Page 14: STATISZTIKA1 FELADATOK

21. Legyen X1, . . . , Xn n megfigyelés az f(x) = 0.5e−|x−ϑ| sűrűségfüggvényűeloszlásból. Adjunk maximum likelihood becslést ϑ-ra!

Megoldás: A maximalizálandó likelihood függvény −∑ni=1 |ϑ− xi|, mely-

nek maximumhelye ϑ = mn, ahol mn jelöli az x1, . . . , xn számsokaságmediánját (Ez n = 2k esetén nem egyértelmű: ekkor az x(n)

k , x(n)k+1 inter-

vallum tetszőleges pontja megoldása a szélsőérték feladatnak).

Az eredmény például abból az okoskodásból adódik, hogy függvé-nyünk folytonos és szakaszonként deriválható; a derivált konstans minden(x

(n)m , x

(n)m+1) intervallumon és a konstansok fogyó sorozatot alkotnak. A 0

értéket éppen a fentiekben megadott helyeken veszi fel (illetve a páratlanesetben "ugorja át" a függvény).

Másik megoldás, hogy ha ϑ egyik oldalán több xi van, mint a mási-kon, akkor az

∑ni=1 |ϑ− xi| távolságösszeg nőni fog, ha a medián(ok) felé

mozdulunk el.

22. A Smarties cukorka k színben készül. Tegyük fel, hogy nem ismerjük k-t.Kiveszünk 3 szemet a zacskóból, a színeik rendre piros, zöld, piros.

(a) Adjunk maximum likelihood becslést k-ra!

Kiveszünk egy negyediket is, ez sárga.

(b) Adjunk maximum likelihood becslést k-ra!

23. Legyen az X változó sűrűségfüggvénye x ∈ (0, 1) esetén θxθ−1, egyéb-ként 0, θ > 0 ismeretlen. Az X1, . . . , Xn minta esetén adjunk elégségesstatisztikát és ML-becslést θ-ra!

24. Az ún. α modell (l. pl. Csiszár,V., Hussami,P., Komlós,J., Móri,T.F.,Rejtő,L. and Tusnády,G. (2011), When the degree sequence is a sufficientstatistic, Acta Math. Hung. 134, 45-53) a következő. Adott egy véletlengráf n csúccsal, melynek szomszédsági mátrixa A = (Aij). A diagonálisazéró, a diagonalis feletti Aij-k pedig függetlenek, és Aij Bernoulli eloszlásúpij = P(Aij = 1) paraméterrel, különben A szimmetrikus. A modellszerint a pij

1−pij ún. esélyhányadosokra

pij1− pij

= αiαj (1 ≤ i < j ≤ n)

teljesül, ahol α1, . . . , αn pozitiv valós paraméterek. Könnyen látható, hogy

pij =αiαj

1 + αiαjés 1− pij =

1

1 + αiαj.

Úgy tűnhet, hogy egyelemű mintánk van, azonban itt az élek a függetlenmintaelemek (n rögzített). Jelölje D = (D1, . . . , Dn) a fokszámsorozatot,ahol Di =

∑nj=1Aij (i = 1, . . . n). Belátjuk, hogy ez elégseges az α =

(α1, . . . , αn) paramétervektorra. A szimmetriája és a 00 = 1 konvenció

14

Page 15: STATISZTIKA1 FELADATOK

miatt

Lα(A) =

n−1∏i=1

n∏j=i+1

pAijij (1− pij)1−Aij =

n∏i=1

n∏j=1

pAijij (1− pij)1−Aij

1/2

=

n∏i=1

n∏j=1

(pij

1− pij

)Aij n∏i=1

n∏j=1

(1− pij)

1/2

=

n∏i=1

α∑nj=1 Aij

i

n∏j=1

α∑ni=1 Aij

j

∏i6=j

(1− pij)

1/2

=

∏i6=j

1

1 + αiαj

1/2

n∏i=1

αDii

n∏j=1

αDjj

1/2

=

∏i<j

1

1 + αiαj

{

n∏i=1

αDii

}= Cα ×

n∏i=1

αDii .

Itt kihasználtuk, hogy Aij = Aji, pij = pji (i < j) és Aii = 0, pii = 0 (i =1, . . . , n). Cα =

∏i<j

11+αiαj

csak az α paramétertől függ, és a likelihoodfv. az Aij mintaelemektől csak Di-ken keresztül függ. Így D elégséges.A csak mintaelemektől függő tényező itt 1, amiből következik, hogy amátrixelemek együttes eloszlasa, feltéve a fokszámsorozatot, egyenletes.Azaz adott fokszámsorozat esetén ezzel a modellel generálhatunk véletlengráfokat.

Megjegyezzük, hogy az Erdős–Rényi véletlen gráf ennek az a specialis ese-te, melyben az összes α, és így pij megegyezik. Véletlen, téglalap alakú0-1 mátrixokra is általánosítható a módszer, l. Rasch modell és Bolla,M., Elbanna, A. (2015), Estimating parameters of a probabilistic hetero-geneous block model via the EM algorithm, Journal of Probability andStatistics. Article 657965.

25. Az alábbi ábrán egy bajnokság végeredménye látható, ahol i - ből j - bepontosan akkor fut él, ha i legyőzte j - t. Ha az i játékos játékerejétwi > 0 "méri" oly módon, hogy az i játékos wi

wi+wjvalószínűséggel győzi

le j - t, továbbá a mérközések eredményei függetlenek egymástól, akkoradjon maximum likelihood becslést az egyes játékosok játékerejére, feltéve,hogy

∑4i=1 wi = 1 !

•1 •2

•3•4

//

OOoo

��

??__

15

Page 16: STATISZTIKA1 FELADATOK

Megoldás.(

38 ,

38 ,

18 ,

18

).

16

Page 17: STATISZTIKA1 FELADATOK

3. feladatsor

Becsléselmélet: torzítatlan és aszimptotikusan torzítatlan becslések

26. Ha X ∼ Exp(λ), akkor az X1, . . . , Xn fae. minta alapján Xn torzítatlanbecsése 1

λ -nak (hisz az a várható érték). Nem várhatjuk azonban, hogy1Xn

torzítatlan becslése legyen λ-nak. Ezt mindjárt be is látjuk az n > 1

esetben. (Az n = 1 esetben nem létezik 1X1

várható értéke.) Azonbanbelátjuk, hogy 1

Xnaszimptotikusan torzítatlan becslése λ-nak, ha n > 1.

Megoldás. Kihasználjuk, hogy∑ni=1Xi ∼ Γn(λ):

Eλ(1

Xn

) = Eλ(

n∑ni=1Xi

)=

∫ ∞0

n

x

λnxn−1e−λx

(n− 1)!dx =

=n

n− 1λ

∫ ∞0

λn−1xn−2e−λx

(n− 2)!dx =

n

n− 1λ =

(1 +

1

n− 1

)λ 6= λ,

azonban aszimptotikusan torzítatlan, hiszen

limn→∞

Eλ(1

Xn

) = λ.

27. Bizonyítsa be, hogy az empirikus variancia aszimptotikusan torzítatlan,míg a korrigált empirikus variancia torzítatlan becslése az alapeloszlásvalódi varianciájának, amennyiben az létezik.

Megoldás. Jelölje µ = Eθ(X1) és σ2 = Varθ(X1) az alapeloszlás várhatóértékét és varianciáját (ezek függenek θ-tól, de nem jelöljük külön). EkkorEθ(X2

1 ) = σ2 + µ2. Ezért

Eθ(n∑i=1

(Xi − X)2 = Eθ(n∑i=1

X2i − nX2) =

=

n∑i=1

Eθ(X2i )− nEθ(X2) = n

(σ2 + µ2

)− n(

σ2

n+ µ2) = (n− 1)σ2.

Így

Eθ(Sn2) =n− 1

nσ2 → σ2, n→∞.

A korrekció utánEθ(S∗n

2) = σ2, ∀θ ∈ Θ,

azaz torzítatlan becslést kapunk.

17

Page 18: STATISZTIKA1 FELADATOK

4. feladatsor

Becslések további tulajdonságai: hatásosság, konzisztencia

28. Legyen X1, . . . , Xn ∼ P(λ) független azonos eloszlású. Tudjuk, hogy S =X1 torzítatlan becslés és T =

∑ni=1Xi elégséges statisztika λ-ra. Keressük

meg az U = Eλ(S|T ) blackwellizáltat!

Megoldás. S feltételes eloszlása a∑ni=1Xi = t feltétel mellett:

Pλ(X1 = k|n∑i=1

Xi = t) = =Pλ(X1 = k,

∑ni=1Xi = t)

Pλ(∑ni=1Xi = t)

=

=Pλ(X1 = k) · Pλ(

∑ni=2Xi = t− k)

Pλ(∑ni=1Xi = t)

=

=

λk

k! e−λ · ((n−1)λ)t−k

(t−k)! e−(n−1)λ

(nλ)t

t! e−nλ=

=

(t

k

)(

1

n)k(1− 1

n)t−k,

(k = 0, . . . , t), ahol kihasználtuk, hogy X1 + · · · + Xn ∼ P(nλ). Ebbőllátható, hogy S feltételes eloszlása a

∑ni=1Xi = t feltétel mellett Bt(1/n)

(nyilván nem függ λ-tól, mert T elégséges), feltételes várható értéke pedig

Eλ(S|n∑i=1

Xi = t) = t · 1

n,

ahonnanEλ(S|T ) = T · 1

n= X.

Megjegyezzük, hogy T egy másik tulajdonsága miatt (teljesség), bármilyentorzítatlan S-t blackwellizálunk vele, ugyanarra az eredményre jutunk. ÍgyX hatásos becslés λ-ra.A Rao–Blackwell–Kolmogorov tétel üzenete: a hatásos becslést sok esetbenaz elégséges statisztika torzítatlanná tételével kapjuk.

29. Legyen X ∼ N (µ, σ20). Mutassa meg, hogy X a µ paraméter hatásos

becslése (σ20 adott)!

30. Legyen (X1, . . . , Xn) indikátorminta a p paraméterű Bernoulli eloszlásból(n > 2).

(a) Adjunk X1 és X2 függvényeként torzítatlan becslést p(1− p)-re;(b) Adjunk elégségs statisztikát p-re;(c) Az (a)-ban megadottnál konstruáljunk hatásosabb becslést a Rao-

Blackwell-Kolmogorov tétel segítségével.

18

Page 19: STATISZTIKA1 FELADATOK

31. Legyen X1, . . . , Xn fae. minta az alábbi diszkrét eloszlásból (0 < α < 1paraméter):

x 1 2

pα(x) α 1− α

(a) Adjunk X1 függvényeként torzítatlan becslést α-ra;

(b) Adjunk meg elégséges statisztikát;

(c) Az (a)-ban megadottnál konstruáljunk hatásosabb becslést a Rao-Blackwell-Kolmogorov tétel segítségével.

32. Legyen X1, . . . , Xn független azonos eloszlású minta egy tetszőleges olyaneloszlásból, amelynek második momentuma létezik. Akkor S2

n erősen kon-zisztens becslése a varianciának.

Megoldás. A nagy számok erős törvényét alkalmazzuk az X háttérváltozóés X2 várható értékére: n→∞ esetén

S2n =

1

n

n∑i=1

X2i − X2 → Eθ(X2)− (Eθ(X))2 = σ2(θ)

1 valószínűséggel (Pθ-m.m.), ∀θ ∈ Θ. Itt a 27. feladat megoldásánakgondolatmenetét követtük.

Könnyen látható, hogy S∗n2 is erősen konzisztens becslése a varianciának,

és persze gyengén konzisztens is. A négyzetes középben való konzisztenci-ához az alapeloszlás negyedik momentumának létezését is fel kell tenni.

19

Page 20: STATISZTIKA1 FELADATOK

5. feladatsor

Becslési módszerek

33. Adjunk momentum becslést az U [a, b] eloszlás a < b valós paramétereireegy X1, . . . , Xn fae. minta alapján!

Megoldás. Mivel két becsülendő paraméterúnk van, az eloszlás első kétmomentumára lesz szükségúnk:

m1 =a+ b

2, m2 = σ2 + µ2 =

(b− a)2

12+

(a+ b)2

4.

Könnyen kiszámolható, hogy az (a, b)→ (m1,m2) leképezés Jacobi-determinánsanem 0, az inverz leképezés pedig:

a = m1 −√

3(m2 −m21), b = m1 +

√3(m2 −m2

1).

Végülm1 = X, m2 − m2

1 = S2n

figyelembevételével a paraméterek momentum becslésére

a = X −√

3Sn, b = X +√

3Sn

adódik, ami eltér az ML-becsléstől.

Megjegyezzük, hogy ún. exponenciális eloszláscsaládban (pl. Poisson,Bernoulli, exponenciális, normális eloszlások) a paraméterek momentumbecslése ugyanaz, mint az ML-becslése. Jelen eloszlás azonban nem tar-tozik ide, mivel a sűrűségfüggvény tartója függ a paramétertől. Láttuk,hogy az elégséges statisztika is rendezett mintás.

34. Legyen X1, . . . , Xn fae. minta az alábbi eloszlásból:

f(x) =2x

θ2, 0 ≤ x ≤ θ.

(a) Adjon momentum becslést θ-ra!(a) Adjon ML-becslést θ-ra!(c) Adjunk meg θ-ra elégséges statisztikát!

35. Konstruáljon 95%-os konfidenciaintervallumot az exponenciális eloszlás λparaméterére az X1, . . . , Xn fae. minta alapján, ahol n „nagy” (n ≥ 30).

Megoldás. A CHT miatt „nagy” n-re X közel N ( 1λ ,

1nλ2 ) eloszlású. Így

0.95 = Pλ

(−1.96 <

X − 1λ

1√nλ

< 1.96

)=

= Pλ(

1

X− 1.96√

nX< λ <

1

X+

1.96√nX

).

20

Page 21: STATISZTIKA1 FELADATOK

36. a. Legyen x1, . . . , x20 egy fae. normális eloszlású minta realizációja, ahola µ várható érték ismeretlen, míg a szórás ismert: 0.05. Az x = 1.5mintaátlag alapján konstruáljon 98%-os konfidenciaintervallumot µ-re!

b. Legyen x1, . . . , x20 egy fae. normális eloszlású minta realizációja,ahol a µ várható érték ismeretlen, a szórásra pedig az s = 0.05 becslésadódik (korrigált empirikus szórás) . Az x = 1.5 mintaátlag alapjánkonstruáljon 98%-os konfidenciaintervallumot µ-re!

37. LegyenX1, X2, X3 fae. minta λ paraméterű Poisson eloszlásból. Az alábbistatisztikák melyike ad torzítatlan becslést λ-ra? Válaszát csak indoklássalfogadjuk el.

(a) X

(b) 12X1 + 1

3X2

(c) 12X1 + 1

3X2 + 16X3

(d)∑3i=1(Xi −X)2

(e) 12

∑3i=1(Xi −X)2

(f) 13

∑3i=1(Xi −X)2

21

Page 22: STATISZTIKA1 FELADATOK

6. feladatsor

Hipotézisvizsgálati alapfogalmak, szignifikancia,diszkrét és folytonos alapeloszlás, egy- és kétoldali alternatíva

38. Folytonos alapeloszlás, kétoldali alternatíva (egymintás, kétoldali z-próba).Vásárlói panaszok érkeznek, hogy egy élelmiszerboltban az 1 kg-os felira-tú kenyér súlya kevesebb. Szeretnénk korrekt módon kivizsgálni az ügyet.Kiszállunk az üzletbe, megmérünk n véletlenszerűen kiválasztott kenyeret,X1, . . . , Xn a minta. Legyen n = 25, és a realizációban azt találjuk, hogyátlaguk 0.98 kg. Mit tegyünk? Az eltérést okozhatja a véletlen is, hiszenaz 1 kg várható értékű, normális eloszlású mintaelemek eltérhetnek a vár-ható értéktől. A következőképpen gondolkozunk: az ártatlanság vélelmealapján tegyük fel, hogy nem csalnak, vagyis a normális eloszlású háttér-változó várható értéke valóban 1 kg. Szerkesszünk például 95%-os szintűkonfidenciaintervallumot a várható értékre a minta alapján! Amennyibenaz 1 kg hipotetikus várható érték nincsen benne ebben az intervallumban,akkor két eset lehetséges:

• Mivel az esetek 95%-ában a várható érték benne van ebben az inter-vallumban, a véletlen folytán lehet, hogy mégiscsak bekövetkezett azaz 5% valószínűségű esemény, hogy nincsen benne.• Nem igaz eredeti elképzelésünk, hogy 1 kg a várható érték.

Nagyon kis okunk van azt hinni, hogy bekövetkezett egy 0.05 valószínűsé-gű esemény, inkább az utóbbi mellett voksolunk, hogy nem 1 kg a várhatóérték. Azaz 95%-os biztonsággal (0.05 szignifikanciával) úgy döntünk,hogy csaltak. Ellenkező esetben, ha az 1 kg benne van a konfidenciainter-vallunban, viszont úgy döntünk, hogy nem csaltak. Lehet, hogy hibásandöntöttünk. Úgy is dönthettünk hibásan, hogy felmentettük a boltot a vádalól, holott az igaz volt. Vizsgáljuk meg a hibás döntések valószínűségét!Fogalmazzuk meg a feladatot a következőképpen: a H0 ún. null-hipotézisés a H1 alternatív hipotézis (ellen-hipotézis) közt szeretnénk dönteni. Ese-tünkben az X ∼ N (µ, σ2

0) háttérváltozó ismeretlen µ várható értékérevonatkoznak a hipotézisek (a σ0 szórást most ismertnek vesszük).

H0 : µ = µ0(= 1 kg) versus H1 : µ 6= µ0.

(Valójában itt a H1 : µ < µ0 alternatívát kellene inkább vizsgálni, eztegyoldali ellen-hipotézisnek nevezzük, és a 39. példában tárgyaljuk is.)A döntést az X1, . . . , Xn független azonos eloszlású minta, illetve az ebbőlszámolt

Z =X − µ0

σ0

√n

statisztika alapján hozzuk. Ettől függetlenül választunk egy α szignifikan-ciát (esetünkben α = 0.05), és ehhez meghatározzuk a

zα/2 = Φ−1(

1− α

2

)22

Page 23: STATISZTIKA1 FELADATOK

ún kritikus értéket. A konfidencia-intervallum szerkesztésénél láttuk, hogy

Pµ0

(µ0 ∈

(X −

zα/2σ0√n

, X +zα/2σ0√

n

))= Pµ0

(|Z| < zα/2

)= 1− α .

Tehát H0 fennállása esetén µ0 benne van 1− α valószínűséggel a fenti, Xkörüli, szimmetrikus konfidenciaintervallumban. Ezzel ekvivalens, hogy Xstandardizáltjának, a Z valószínűségi változónak az abszolút értéke kisebb,mint a zα/2 kritikus érték. Ezért az ún. z-próba (u-próba) a következőlépésekből áll:

• A mintából kiszámoljuk a z próbastatisztikát.• Az adott α szignifikanciához meghatározzuk az zα/2 ún. kritikus

értéket.• Döntünk: ha |z| < zα/2, akkor α szignifikanciával elfogadjuk H0-t, a|z| ≥ zα/2 esetben pedig elutasítjuk azt. Ezzel ekvivalens, hogy az xminta-realizáció benne van az

Xk = {x : |z(x)| ≥ zα/2}

ún. kritikus tartomány-ban (elutasítási tartományban). Ha ez meg-történik, azt mondjuk, hogy a kenyerek súlya (α szignifikanciával)szignifikánsan eltér az 1 kg-tól.

Példánkban x = 0.98, µ0 = 1, n = 25 és legyen σ0 = 0.05. Így z = −2.α = 0.05 mellett zα/2 = 1.96, ezért 0.05 szignifikanciával el kell utasíta-nunk a null-hipotézist, azaz megállapítjuk, hogy csaltak. α = 0.01 mellettezt már nem tudjuk megtenni, ugyanis akkor zα/2 = 2.58, ezért 0.01 szig-nifikanciával el kell fogadnunk a null-hipotézist. Ez nem meglepő, hiszena konfidencia-intervallum szerkesztésénél megállapítottuk, hogy az 1 − αszint növelése (α csökkentése) növeli a konfidenciaintervallum szélességét(a mintaelemszám növelése viszont csökkenti azt). Azt mondhatjuk te-hát, hogy 0.05 szignifikanciával állíthatjuk, hogy csaltak, de 0.01-el márnem állíthatjuk ugyanezt. (Azaz a boltot „elsőfokon” elítélik, de egy szi-gorúbb bíróság „másodfokon” felmenti a vád alól. A szigorúság a vádlottérdekeit képviseli: minél kisebbé akarják tenni annak valószínűségégét –másodfokon ez 0.01 –, hogy ártatlanul elítéljék.)A standard normális eloszlásfüggvény táblázatából kikereshető, hogy α =0.0456 esetén lenne zα/2 = 2, azaz ez lenne az a legkisebb α, ami mellettmár, illetve 95.44% lenne az a legnagyobb biztonság, ami mellett még eltudnánk utasítani a null-hipotézist. Ezt a határ α-t nevezzük p-értéknek.Döntésünkkor kétfajta hiba is felléphet:

• I. fajú hiba: H0 fennáll, mégis elutasítjuk.• II. fajú hiba: H0 nem áll fenn, mégis elfogadjuk.

(A fenti példában I. fajú hibát követünk el, ha elítéljük az ártatlant, és II.fajút, ha felmentjük a bűnöst.)Jelölje p1 illetve p2 az I. illetve II. fajú hiba valószínűségét. Nyilván

p1 = Pµ0

(|Z| ≥ zα/2

)= α,

23

Page 24: STATISZTIKA1 FELADATOK

így ezt a fajta hibát uralni tudom a α megválasztásával. A másodfajúhiba azonban függ a valódi µ 6= µ0 paraméterértéktől:

p2 = Pµ(|Z| < uα/2

),

továbbá függ α-tól és a mintaelemszámtól is. Hogy a µ-től való függésmikéntjét megnézzük, vezessük be a

β(µ) = p2 = Pµ(|Z| < zα/2

)másodfajú hibavalószínűséget, ill. a

γ(µ) = 1− p2 = Pµ(|Z| ≥ zα/2

)erőfüggvényt, melyet a következő alakban írunk fel:

γ(µ) = 1− Pµ(−zα/2 <

X − µ0

σ0

√n < zα/2

)=

= 1− Pµ(−zα/2 −∆n <

X − µσ0

√n < aα/2 −∆n

)=

= 1− Φ(zα/2 −∆n) + Φ(−zα/2 −∆n) =

= 2− Φ(zα/2 −∆n)− Φ(zα/2 + ∆n),

ahol∆n =

µ− µ0

σ0

√n,

és X−µσ0

√n ∼ N (0, 1), ha µ a valódi várható érték.

Nézzük meg, mi történik, mikor n-t és α-t rögzítjük, és µ-t változtatjuk.Ekkor

∂γ(µ)

∂µ= φ(zα/2 −∆n)

√n

σ0− φ(zα/2 + ∆n)

√n

σ0=

=

√n√

2πσ0

[exp

(−(zα/2 −∆n)2

2

)− exp

(−(zα/2 + ∆n)2

2

)]< 0, ha µ < µ0,

= 0, ha µ = µ0,

> 0, ha µ > µ0.

Ezért az erőfüggvény (−∞, µ0)-on fogy, µ0-ban minimuma lenne (ha ottértelmezve lenne), a minimum értéke α lenne, (µ0,+∞)-n pedig nő (eztúgy is mondják, hogy a z-próba torzítatlan: mindig nagyobb valószínűség-gel ítélik el a bűnöst, mint az ártatlant). Az erőfüggvény fenti alakjábólaz is látható, hogy

limµ→−∞

γ(µ) = limµ→+∞

γ(µ) = 1.

Tehát az erőfüggvény a legkisebb µ0 közelében, és egyre nagyobb (1-heztart), ha µ távolodik µ0-tól, mint azt az 1. ábra mutatja. Ekvivalens mó-don, a másodfajú hiba a legnagyobb µ0 közelében (nehéz ekkor különbségettenni), és egyre kisebb, ha µ távolodik µ0-tól.

Megjegyzzük, hogy rögzített µ és α esetén – az előbbi gondolatmenettel– az erőfüggvény szintén 1-hez tart, ha n → ∞ (ezt úgy mondják, hogy

24

Page 25: STATISZTIKA1 FELADATOK

Α

Μ0Μ

1

ΓHΜL

1. ábra. Egymintás, kétoldali z-próba erőfüggvénye

a z-próba konzisztens), azaz az 1. ábrán látható erőfüggvény sokkal me-redekebb „nagy” n-re, mint „kicsire”. Ugyanakkor rögzített µ és n eseténaz erőfüggvény annál nagyobb, minél nagyobb az α. Ez következik ab-ból, hogy az erőfüggvények nem metszik egymást, mint azt átni fogjuk a41.példában. Ekvivalens módon, rögzített µ és n esetén, a másodfajú hibaannál nagyobb, minél kisebb az elsőfajú, és megfordítva.Mivel csak az elsőfajú hiba „uralható”, a másodfajú változása pedig veleellentétes, előbbit nem érdemes túlságosan leszorítani. Az is egy megoldás,hogy a H0, H1 szereposztást választjuk meg úgy, hogy a másodfajú hibaelkövetése ne legyen fatális, az első fajú hibáé legyen a súlyosabb vétség,ennek valószínűségét viszont tetszőlegesen kicsivé tudjuk tenni kellőképpen„kis” szignifikancia választásával.Például gyógyszer-hatásvizsgálatnál legyen

H0 : a gyógyszer hatástalan vagy káros, H1 : a gyógyszer hatásos.

Ilyenkor az uralhatatlan másodfajú hiba azt jelenti, hogy egy hatásosgyógyszert nem vezetnek be, mert hatástalannak vagy károsnak minősít-jük, ami azért nem okoz fatális problémákat. Az elsőfajú hiba – hogy hatá-sosnak minősítünk és bevezetünk egy hatástalan, netán káros készítményt– valószínűsége viszont kellően kicsivé tehető, például legyen α = 0.001,így ennek bekövetkezése nagyon valószínűtlen. Általában is, az orvosi gya-korlatban a null-hipotézis gyakran a pejoratív verziót tartalmazza: nincsenhatása egy kezelésnek, egy klinikai mérésnek nincs diagnosztizáló hatása,stb., tehát örülünk, ha ezt el tudjuk utasítani minél kisebb I. fajú hibával.Megjegyezzük, hogy a z-próba egy gyógyszer hatástalanságát úgy jellemzi,hogy a gyógyszert szedése hatására a paraméter nem változik (pl. ugyan-az a vérnyomás, mint a gyógyszer szedése előtt volt), ami egyenlőséggelfejezhető ki.Más szituációban viszont inkább nagynak választjuk az elsőfajú hibát.Például egy szigorúan rögzített méretű alkatrész gyártásakor gyakran elő-

25

Page 26: STATISZTIKA1 FELADATOK

fordul, hogy a gyártóberendezés kopása miatt a várható érték megváltozik(a szórás kicsi). Minőségellenőrzést végzünk arra vonatkozóan, hogy azalkatrésze megfelel-e a szabványnak. Ekkor a

H0 : a várható érték megegyezik a szabvány mérettel, H1 : nem egyezik meg

hipotézisek közötti választásnál viszonylag nagy α-t kell választanunk, haszigorúak akarunk lenni: vállaljuk, hogy selejtnek minősítünk egy jó al-katrészt is, semmint véletlenül rosszat építsünk be.Elterjedt az a gyakorlat, hogy nem adjuk meg előre α-t, hanem nézzük,hogy mi az a legkisebb α, amelyre α szignifikanciával már el tudjuk utasí-tani a null-hipotézist. A felhasználó aztán eldönti, elég-e neki ekkora szig-nifikancia. a programcsomagok ezt a küszöb-α-t írják ki, amit p-értéknekneveznek. Amúgy, ha egy próba konzisztens, „kellően nagy” mintaelem-szám esetén a másodfajú hiba tetszőlegesen kicsivé tehető, így ilyenkornyugodtan kicsinek választhatjuk α-t.

39. Folytonos alapeloszlás, egyoldali alternatíva (egymintás, egyoldali z-próba).Az előző példabeli vádat most átfogalmazzuk egyoldalira:

H0 : µ ≥ µ0 versus H1 : µ < µ0

(azt tekintjük csak csalásnak, ha kimondottan kisebb a kenyerek súlyánakvárható értéke, mint µ0 = 1 kg). Az elutasítási (kritikus) tartomány ekkor

Xk = {x : z(x) ≤ −zα},

a Tankönyv IV. fejezet, 2. paragrafus alapján.Ekkor 0.05 és 0.025 szignifikanciával biztonsággal elutasítjuk a null-hipotézist(azaz állítjuk, hogy csaltak). A −zα = −2 egyenletből adódik, hogy alegkisebb szignifikancia, ami mellett még el tudjuk utasítani H0-t, α =0.0228. (A 38.példa kétoldali esetében ez éppen a duplája, 0.0456 volt.)Azaz az átfogalmazott vád alapján nagyobb biztonsággal (kisebb p-értékkel)állíthatjuk, hogy csaltak ugyanazon evidencia alapján. Mégegyszer, a p-érték annak a valószínűsége, hogy alaptalanul ítéljük el a boltot, ha azártatlan.Az erőfüggvény (rögzített n és α mellett)

γ(µ) = Pµ(Z ≤ −zα) = Pµ(X − µσ0

√n+ ∆n ≤ −zα) = Φ(−zα −∆n).

Látható, hogy itt γ(µ) szigorúan monoton csökken µ-ben, mint azt a 2. áb-ra mutatja.

40. Diszkrét alapeloszlás, egyoldali alternatíva.Egy adott betegségből való felgyógyulás 60%-os a szokásos gyógyszerrel.Egy új gyógyszer gyártói be akarják bizonyítani, hogy ez az arány szigni-fikánsan nagyobb az új gyógyszerrel. 20 páciensen próbálják ki a gyógy-szert, és közülük a felgyógyultak számát jelölje X. Kérdés az, hogy milyenszignfikanciával lehet az új gyógyszer hatásosságát bizonyítani az alábbikritikus tartományok mellett:

A : Xk = {X ≥ 15}, B : Xk = {X ≥ 18}, C : Xk = {X ≥ 14}.

26

Page 27: STATISZTIKA1 FELADATOK

Α

Μ0Μ

1

ΓHΜL

2. ábra. Egymintás, egyoldali z-próba erőfüggvénye

Megoldás. Itt X1, . . . , X20 fae. Bernoulli minta p paraméterrel (0 < p <1), ahol Xi = 1, ha az i-edik páciens felgyógyul az új gyógyszertől, és0, ha nem. A teszt-statisztika X =

∑20i=1Xi ∼ B20(p), melynek alapján

döntünk aH0 : p ≤ 0.6 versus H1 : p > 0.6

alternatíváról, és örülünk, ha el tudjuk utasítani (ez jelenti azt, hogy azúj gyógyszer hatásosabb, mint a régi).

A kritikus tartományok három döntési stratégiának felelnek meg, melyekmellett vizsgáljuk a γ-függvényt. Pl. (A) esetben ez a következő:

γ(p) = P(X ≥ 15) = 1−14∑k=0

(20

k

)pk(1− p)20−k = 1− F+

p (14),

ahol F+p a B20(p)-eloszlás jobbról folytonos eloszlásfüggvénye (értékei táb-

lázatokból kikereshetők). Könnyen látható, hogy a γ(p) függvény szigorú-an monoton nő p-ben, és a p = 0.6 helyen felvett értéke (a fenti képletbevaló behelyettesítéssel) az (A) esetben 0.126. Az 4. táblázat mutatja azerőfüggvény néhány értékét a három stratégia mellett.

p 0.3 0.4 0.5 0.6 0.7 0.8 0.9

(A) γ(p) = P (X ≥ 15) 0.000 0.002 0.021 0.126 0.416 0.804 0.989

(B) γ(p) = P (X ≥ 18) 0.000 0.000 0.000 0.004 0.035 0.206 0.677

(C) γ(p) = P (X ≥ 14) 0.000 0.006 0.058 0.250 0.608 0.913 0.998

4. táblázat. Az erőfüggvény néhány értéke a három stratégia mellett

Mivel H0 most összetett, többféle I. fajú hiba is fellép, ezek maximuma, amaxp≤0.6 γ(p) érték azonban a γ-fügvény monotonitása miatt γ(0.6) =

27

Page 28: STATISZTIKA1 FELADATOK

H0 H1

A BC

0.2 0.4 0.6 0.8 1.0p

0.2

0.4

0.6

0.8

1.0

ΓHpL

3. ábra. Az erőfüggvény ábrázolása a három stratégia mellett a gyógyszer ha-tásvizsgálatnál

0.126 az (A) esetben. Tehát 0.126 az a p-érték, ami mellett az (A)-stratégiával még el tudjuk utasítani Ho-t. A p > 0.6 értékekre az erő-függvény monoton nő és 1, ha p = 1.

Az erőfüggvények hasonló viselkedést mutatnak a szigorúbb (B) és az eny-hébb (C) stratégiák mellett is (mint azt a 3. ábra mutatja), és a velükadódó szignifikanciák 0.004 ill. 0.250 lesznek. Tehát legbiztonságosabbana (B) stratégiával tudjuk elutasítani H0-t (bizonyítani az új gyógyszerhatékonyságát), azonban ez túl szigorú evidenciát követel (legalább 18embernek fel kell gyógyulnia a 20-ból, hogy ezt állíthassuk). A (C) stra-tégia szignifikanciája viszont túlságosan nagy, 0.250 a valószínűsége, hogyalaptalanul állítjuk az új gyógyszer hatásosabb voltát. Így végúlis marad-hatunk az (A) stratégiánál, melynek szignifikanciája még elfogadható.

Megjegyezzük, hogy a p > 0.6 értékekre lesz valójában a γ-függvény azerőfüggvény, és a három stratégia mellett, akárcsak a szignifikanciáknál,a B stratégia erőfüggvénye kisebb étréket vesz fel, mint A-é, az pedig ki-sebbet, mint B-é (∀p > 0.6). A másodfajú hibavalószínűségeknél, mivelβ(p) = 1 − γ(p), ha p > 0.6, ez a reláció megfordul. A legszigorúbb (B)stratégia dolgozik a legnagyobb másodfajú hibával, azaz itt lesz a legna-gyobb a valószínűsége annak, hogy hatástalannak minősítik a hatásosabbgyógyszert.

41. Diszkrét alapeloszlás, kétoldali alternatíva.

Egy macskaeledel gyártó meg akarja állapítani, hogy az A és B termé-kek különböző módon keltik-e fel a macskák érdeklődését. Így két azonosméretű tálat megtölt A ill. B eledellel, és odahív 15 macskát. Azt látja,hogy közülük X eszik A-ból, a többi B-ből. Ennek alapján milyen szign-fikanciával állíthatjuk azt, hogy az A és B eledel nem egyformán vonzza a

28

Page 29: STATISZTIKA1 FELADATOK

macskákat az alábbi kritikus tartományok mellett:

a : Xk = {X ≤ 4 vagy X ≥ 11}, b : Xk = {X ≤ 3 vagy X ≥ 12},

ill. amellett az evidencia mellett, hogy azt látjuk: 5 macska eszik A-ból,10 pedig B-ből.Megjegyezzük, hogy a kétoldali alternatíva miatt (A jobban vonzza amacskákat, mint B, vagy megfordítva) itt a kritikus tatományok is szim-metrikusak a [0,15] intervallum felezőpontjára. Az evidenciához szimmet-rizálva a

c : Xk = {X ≤ 5 vagy X ≥ 10}kritikus tartományt konstruálhatjuk, mint a legszűkebbet, ami még (ahatárán) tartalmazza az 5-öt.

Megoldás. Most X1, . . . , X15 a fae. Bernoulli minta p paraméterrel (0 <p < 1), ahol Xi = 1, ha az i-edik macska A-ból eszik, és 0, ha B-ből. Ateszt-statisztika X =

∑15i=1Xi ∼ B15(p), melynek alapján döntünk a

H0 : p = 0.5 versus H1 : p 6= 0.5

alternatíváról, és ha el tudjuk utasítani H0-t, az azt jelenti, hogy szignifi-káns külónbség van a kétféle macskaeledel közt.A kritikus tartományok három döntési stratégiának felelnek meg, melyekmellett vizsgáljuk az erőfüggvényt. Pl. (a) esetben ez a következő:

γ(p) = P(X ≤ 4) + P(X ≥ 11) = F+p (4) + 1− F+

p (10).

Könnyen látható, hogy a γ(p) függvény szigorúan monoton fogy p-benp = 0.5-ig, majd szigorúan monoton nő (1-ig), és a p = 0.5 helyen felvettértéke (a fenti képletbe való behelyettesítéssel) 0.118 az (a) esetben.Az erőfüggvények hasonló viselkedést mutatnak a szigorúbb (b) és a való-ságot tükróző enyhébb (c) stratégiák mellett is (ezt a 4. ábra mutatja), ésa velük adódó szignifikanciák 0.036 ill. 0.302 lesznek. Tehát legbiztonsá-gosabban a (b) stratégiával tudjuk elutasítani H0-t, azonban ez túl szigorúevidenciát követel (legalább 3:12 arányban kell a macskáknak megoszla-nia). A valóságot tükröző (c) stratégia szignifikanciája viszont túlságosannagy, 0.302 a valószínűsége, hogy alaptalanul állítjuk a két eledel külön-bözőségét.Megjegyezzük, hogy az erőfüggvények a kölönböző (véges sok) stratégiamellett továbbra sem metszik egymást, a stratégiákkal csak véges sok szig-nifikancia érhető el, és hogy (b) ereje kisebb, mint (a)-é, viszont nagyobba másodfajú hibavalószínűség (b)-vel, mint (a)-val.Érdekes, hogy a macskák 5:10 arányú megoszlása nem elég erős bizonyí-ték. Ez azért van így, mert akárcsak az előző feladatban, kis mintáinkvannak (nem akarunk egy új gyógyszert túl sok emberen kipróbálni ill.nem akarunk macskaeledellel túl sok macskát megkínálni pusztán kísérleticélokból). A továbbiakban látunk módszert arra, hogy „nagy” minták ese-tén (n ≥ 30) a populációs arányra z-statisztikával konstruálhatunk próbáta CHT alapján. Ha pl. 150 macska oszlik meg 50:100 arányban, az ottmár igen erős bizonyíték lesz az A és B termékek különbözőségére, mintazt a 42. példa mutatja.

29

Page 30: STATISZTIKA1 FELADATOK

HaL

HbL

HcL

H1 H1H0

0.2 0.4 0.6 0.8 1.0p

0.2

0.4

0.6

0.8

1.0

ΓHpL

4. ábra. Az erőfüggvény ábrázolása a három stratégia mellett a macskaeledelpéldában

42. Populációs arány nagy mintára, kétoldali alternatíva.

A feladat ugyanaz, mint az előbb, csak most n = 150 macska lakmározik.Határozzuk meg, a macskák milyen arányú megoszlása esetén lesz a p-érték0.05 ill. 0.01!

Gondolatébresztő. Most is X1, . . . , Xn a fae. Bernoulli minta p paramé-terrel (0 < p < 1). Mivel n „nagy”, a Moivre–Laplace tétel értelmébenX =

∑ni=1Xi ∼ Bn(p) eloszlása, és így X eloszlása is közelíthető normá-

lissal, utóbbié N (p, p(1−p)n )-eloszlással, ahol a paraméterekre az ún. popu-lációs arány r = X és r(1−r)

n „ jó” becslések. Így a

H0 : p = 0.5 versus H1 : p 6= 0.5

alternatíva vizsgálatára konstruált próbastatisztika

Z =r − 0.5√r(1− r)

√n,

ami H0 fennállása esetén közelítően standard normális („nagy” n-re). Akritikus tartomány ugyanaz, mint a kétoldali z-próbáé:

Xk = {|z| ≥ zα/2},

de hangsúlyozzuk, hogy itt nem z-próbáról, hanem populációs arány vizs-gálatáról van szó z-statisztikával. Fontos, hogy olyan próbastatisztikáttudjunk konstruálni, melynek pontos, vagy („nagy” n esetén) aszimptoti-kus eloszlását ismerjük H0 fennállásakor.

Ha 150 macskából 50 eszik az A, 100 pedig a B eledelből, akkor r = 13 és a

z = −4.33 érték adódik. Ez annak a kritikus tartománynak van a határán,melyre zα/2 = | − 4.33|, így a p-értéket adó α gyakorlatilag 0 (sok-sok 0

30

Page 31: STATISZTIKA1 FELADATOK

tizedesjeggyel). Ez azt jelenti, hogy az 50:100 evidencia alapján nagyonnagy biztonsággal elutasíthatjuk H0-t, és még inkább megtehetjük ezt a40:110 vagy a 30:120 evidenciák alapján.Megjegyezzük, hogy itt a p-re konstruált 1−α szintű konfidenciainterval-lum a következő:

r ± zα/2

√r(1− r)

n. (3)

Ezért aH0 : p = p0 versus H1 : p 6= p0

alternatívára H0-t „nagy” n esetén kézenfekvő elfogadni, ha p0 benne vana (3) konfidenciaintervallumban. Ez ekvivalens azzal, hogy a

Z =r − p0√r(1− r)

√n

próbastatisztikára, ami H0 fennállása esetén aszimptotikusan standardnormális, |Z| < zα/2 teljesül.Ugyancsak megjegyezzük, hogy H0 fennállása esetén a

Z ′ =r − p0√p0(1− p0)

√n

próbastatisztika is aszimptotikusan standard normális, így használhat-nánk ezt is. Azonban, ha n „nagy”, akkor Z-ben és Z ′-ben is

√n dominál,

így a döntésben nincs nagy külonbség.

Ezek után a feladat az, hogy határozzuk meg, a macskák milyen arányúmegoszlása esetén lesz a p-érték 0.05 ill. 0.01!

43. Populációs arány nagy mintára, egyoldali alternatíva.A feladat ugyanaz, mint a 40. példában, csak most n = 200 betegenpróbálják ki az új gyógyszert. Határozuuk meg, legalább hánynak kellfelgyógyulnia, hogy a p-érték 0.05 ill. 0.01 legyen!

Gondolatébresztő. Most is X1, . . . , Xn a fae. Bernoulli minta p paramé-terrel (0 < p < 1). Mivel n „nagy”, a Moivre–Laplace tétel értelmébenX =

∑ni=1Xi ∼ Bn(p) eloszlása, és így X eloszlása is közelíthető nor-

málissal, utúbbié N (p, p(1−p)n )-eloszlással, ahol a paraméterekre r = X ésr(1−r)n „ jó” becslések. Így a

H0 : p ≤ 0.6 versus H1 : p > 0.6

alternatíva vizsgálatára konstruált próbastatisztika

Z =r − 0.6√r(1− r)

√n,

ami p = 0.6 esetén esetén standard normális. A kritikus tartomány ugyan-az, mint az egyoldali z-próbáé:

Xk = {z ≥ zα}.

31

Page 32: STATISZTIKA1 FELADATOK

Az erőfüggvény monotonitása miatt ez összetett H0-ra is megfelel.Ha 200 betegből 140 gyógyul fel, akkor r = 140

200 és z = 5.09 adódik. Ezannak a kritikus tartománynak van a határán, melyre zα = 5.09, így ap-értéket adó α gyakorlatilag 0 (sok-sok 0 tizedesjeggyel). Ez azt jelenti,hogy már a 140:60 evidencia alapján is nagyon nagy biztonsággal eluta-síthatjuk H0-t, és még inkább a 150:50 vagy a 180:20 evidenciák alapján,azaz nyugodtan állíthatjuk, hogy az új gyáogyszer hatásosabb, mint arégi.

Ezek után a feladat az, hogy határozuuk meg, legalább hány betegnek kellfelgyógyulnia, hogy a p-érték 0.05 ill. 0.01 legyen!

44. Populációs arányok összehasonlítása nagy mintákban (kétmintás eset).Azonosan valószínű-e a hypertónia átlagsúlyú és elhízott lakosságnál? Anull-hipotézis: igen, s a felvetett kérdés alapján kétoldali az alternatí-va. Tudjuk, hogy 4200 átlagos testsúlyú felnőtt közül 792, míg 1000 el-hízott felnőtt közül 249 szenved hypertóniában egy bizonyos társadalmirétegben. Adataink: n1 = 4200, r1 = 792/4200 = 18.9%, n2 = 1000,r2 = 249/1000 = 24.9%. Ezekből

Z =r1 − r2√

r1(1−r1)n1

+ r2(1−r2)n2

,

amely H0 fennállása esetén közelítően N (0, 1)-eloszlású. Esetünkben

z =−0.06

0.0149= −4.2

adódik, s mivel ez abszolút értékben még α = 0.01 szinten is nagyobb, minta zα/2 kritikus érték, azt mondhatjuk, hogy a hypertónia valószínűsége0.01 szignifikanciával különbözik átlagos és elhízott lakosságnál. Azaz azelhízás befolyásolja a hypertónia kialakulását.Ha azt akarjuk tudni, hogy pozitív irányban befolyásolja-e, akkor egyol-dali alternatívát állítunk fel. A két minta indexelését most felcseréljük, ésellen-hipotézisünk az, hogy az elhízottak körében nagyobb a hypertóniavalószínűsége, mint átlagos testsúlyú lakosságnál (amit bizonyítani szeret-nénk). A felcserélés miatt most z = 4.02, amely még α = 0.01 mellettis nagyobb, mint a zα kritikus érték. Így azt is elmondhatjuk, hogy ahypertónia valószínűsége 0.01 szignifikanciával szignifikánsan nagyobb azelhízott lakosságnál.Megjegyezzük még, hogy ezt a próbát használhatjuk két közvéleménykuta-tás eredményének összehasonlítására is, bővebben a Tankönyv IV. fejezet2. paragrafusában, Paraméteres próbák alatt olvashatunk erről is.Szintén megjegyezzük, hogy a kétmintás, kétoldali esetben, mikor a

H0 : p1 = p2 versus H1 : p1 6= p2

alternatívára a Z = r1−r2√r1(1−r1)

n1+r2(1−r2)

n2

, próbastatisztikát használjuk, ak-

kor H0 elfogadása ekvivalens azzal, hogy p1 − p2 benne van az

r1 − r2 ± zα/2

√r1(1− r1)

n1+r2(1− r2)

n2

32

Page 33: STATISZTIKA1 FELADATOK

konfidenciaintervallumban.

Itt H0 fennállása esetén r1 − r2 becsült szórása ,√

r(1−r)n is használható,

ahol r = n1r1+n2r2n és n = n1 + n2. Ezzel az ún. összevolt szórással a

próbastatisztikaZ ′ =

r1 − r2√r(1− r)

√1n1

+ 1n2

alakú, de aszimptotikusan hasonlóan viselkedik, mint Z.

33

Page 34: STATISZTIKA1 FELADATOK

7. feladatsor

További feladatok diszkrét eloszlásokra és z-próbára

45. Azt szeretnénk bebizonyítani, hogy egy gyártmányban a selejtarány (θ) amegengedhető 5%-ot meghaladja. Hogy a

H0 : θ ≤ 0.05 versus H0 : θ > 0.05

alternatívát teszteljük, 25 elemű mintát veszünk. Jelölje X a selejtesekszámát a 25-ből. Adja meg a próba szignifikanciáját és vázolja az erőfügg-vényt a következő kritikus tartományok esetén:

a. Xk = {X ≥ 2} b. Xk = {X ≥ 3} c. Xk = {X ≥ 4}.

46. A "biológiai oxigénigény" (BOD)a szennyeződés mérőszáma, amelyet pél-dánkban a papírgyárak kibocsátott szennyvizéből határoznak meg napon-ta. Egy adott papírgyárnál a tavaszi és nyári időszakok folyamán az átlag3246-nak, a korrigált tapasztalati szórás pedig 757-nek adódott. A gyárcélul tűzte ki, hogy az átlagos napi kibocsátás 3000 lesz. Alátámasztják-eaz adatok 0.05 szignifikanciával, hogy a gyár nem teljesítette a célt?

47. Tekintsük aH0 : µ ≤ 10 versus H1 : µ > 10

alternatívát az n = 64, σ = 2 (ismert) és α = 0.025 feltételekkel. Azelutasítási tartomány ekkor a Z = X−10

2

√64 próba-statisztika alapján:

Xk = {Z ≥ 1.96} = {X ≥ 10 + 1.962√64

= 10.49}.

Ha γ(µ) jelöli az erőfüggvényt, akkor ennek a tesznek az ereje a µ1 = 11alternatívára:

γ(11) = P11(Z ≥ 1.96) = P11(V ≥ 10.49− 11

2

√64) = 0.9793,

hiszen ekkor V = X−112

√64 lesz standard normális eloszlású.

(a) Számítsuk ki a fenti teszt erejét, amikor µ1 = 10.5!(b) Számítsuk ki a fenti teszt erejét, amikor µ1 = 10.8!(c) Vázolja az erőfüggvényt és állapítsa meg aszimptotikus viselkedését,

ha µ→∞!(d) Mit tud mondani a különböző µ > 10 értékek mellett fellépő másod-

fajú hibákról?

48. Tekintsük aH0 : µ = 77 versus H1 : µ 6= 77

alternatívát az α = 0.05 szinten, melyhez az alábbi számítógépes eredménytertozik:

34

Page 35: STATISZTIKA1 FELADATOK

Test of mu = 77 versus mu not = 77

Variable N Mean StDevmalt extract 40 77.458 1.101

Variable 95.0% Conf. Int. Z P-valuemalt extract ( 77.116, 77.799) 2.63 0.009

(a) Rövidebb vagy hosszabb lesz a 98%-os konfidenciaintervallum, minta számítógépes eredményben szereplő? Számítsa is ki a 98%-os kon-fidenciaintervallum végpontjait!

(b) A számítógépes eredményben szereplő Z érték segítségével döntsünk0.05 szignifikanciával a

H0 : µ ≤ 77 versus H1 : µ > 77

alternatíváról (mindenféle számolás nélkül, csak a számítógépes ered-ményre hagyatkozva)!

Az adatok egyébkánt a 5. táblázatban láthatók.

75.3 77.9 77.6 76.6 78.3 77.9 77.5 77.6 77.1 78.077.9 76.3 75.7 77.4 77.4 76.9 77.9 77.4 78.1 77.476.4 79.1 80.0 76.9 78.5 78.4 77.8 80.4 75.9 77.079.2 76.2 77.0 75.9 77.9 78.4 76.7 76.4 76.6 77.4

5. táblázat. Egy maláta eszencia %-os koncentrációja külónbóző mérésekkor

49. Egy irodalmkritikus bizonyítani akarja, hogy egy novellában a mondaton-kénti szavak átlagos száma nem 9.1. Egy, a novellából vett 36 mondatosminta átlaga 8.6-nak, korrigált tapasztalati szórása pedig 1.2-nek adódott.

(a) Határozza meg a null- ill. az alternatív hipotézist!

(b) Adja meg a próba-statisztikát!

(c) Mi lesz a kritikus (elutasítási) tartomány?

(d) Mi a teszt konklúziója α = 0.1 mellett?

(e) Mekkora másodfajú hibát követünk el, ha α = 0.1 és a mondatonkéntiszavak átlagos száma 10?

(f) Határozza meg a p-értéket a fenti 8.6-os evidencia mellett!

35

Page 36: STATISZTIKA1 FELADATOK

8. feladatsor

Kis minták, t-próba

50. R.A. Fisher két altató hatását vizsgálta ugyanazon a 10 páciensen. Atöbblet alvás, amit az A ill. B altató okozott (órákban) a következő volt:

No. A B B-A1. +0.7 +1.9 +1.22. −1.6 +0.8 +2.43. −0.2 +1.1 +1.34. −1.2 +0.1 +1.35. −0.1 −0.1 0.06. +3.4 +4.4 +1.07. +3.7 +5.5 +1.88. +0.8 +1.6 +0.89. 0.0 +4.6 +4.610. +2.0 +3.4 +1.4

Jelölje X az A, Y pedig a B altató által okozott alvástöbbletet! Ugyan-azon a 10 emberen próbálták ki mindkét gyógyszert. Az X1, . . . , X10 ésY1, . . . , Y10 minták tehát messze nem függetlenek egymástól, így a Vi =Yi − Xi mintaelemekkel számolunk, melyek a V = Y − X alvástöbblet-különbségre vonatkoznak. Erre nézve vizsgáljuk a

H0 : E(V ) = 0 versus H1 : E(V ) 6= 0

alternatívát. Ezt nevezzük páros mintás t-próbának.A fenti táblázat B-A oszlopával számolva n = 10, v = 1.58, s∗10 = 1.23,így a próbastatisztika értéke:

t =1.58− 0

1.23·√

10 = 4.06,

ezt vetjük össze a t(9)-eloszlás (1 − α/2)-kvantilisével. A t-eloszlás táb-lázatából látható, hogy a null-hipotézist 0.05 és 0.01 szignifikanciával iselutasítjuk, 0.001 szignifikanciával azonban már nem tudjuk elutasítani.Fisher ezután megnézi azt, mi történne, ha méréseinket két különbözőcsoporton végrehajtottnak tekintenénk (például 10 fős inszomniás- és 10fős kontroll-csoport). Ekkor 2-mintás t-próbával már 0.01 szignifikanciá-val sem tudnánk elutasítani H0-t. Ezután megvizsgálhatnánk külön-külön1-mintás t-próbával, hogy az A és B altató hatásos-e (az alvastóbblet szig-nifikánsan eltér-e 0-tól).Azt is megkérdezhetnénk, hogy a B altató szignifikansan jobb-e, mint azA? Határozzuk ezt meg a fenti adatok alapján, különböző szignifikanciákmellett, páros mintás t-próbával!

51. 10-10 szeget gyártanak le két különböző gépen. Az átlagos méretek és akorrigált empirikus szórások (cm-ben):

x = 0.625, y = 0.471, s∗x = 0.754, s∗y = 1.269.

36

Page 37: STATISZTIKA1 FELADATOK

Hasonlítsa össze a varianciákat F-próbával, majd vizsgálja a null-hipotézist,hogy nincsen különbség a méretek tekintetében a két gép közt. Használjonα = 0.10 szignifikanciát! Hogyan vizsgálná ki ugyanezt a hipotézist akkor,ha 100-100 szeget gyártanának ugyanezekkel az empirikus jellemzőkkel?

52. A Dunában megmérték a víz által sodort szilárd anyag mennyiségét 14hétfői reggelen. Azt találták, hogy x = 47, s = 9.4. Adjon

(a) 95%-os ill. 99%-os biztonságú konfidenciaintervallumot(b) 95%- os ill. 99%-os biztonságú alsó korlátot

a folyóban sodort szilárd anyagmennyiség átlagára!

(c) A víz minősége elfogadható, ha a fenti anyagmennyiség 49 alatt van.Állítsa fel a megfelelő hipotéziseket és végezze el a hipotézisvizsgála-tot 5%-os szignifikancia-szinten!

Megoldás.

(a) A háttérváltozót normális eloszlásúnak feltételezve n megfigyelésbőlaz 1− α megbízhatósági szintű konfidenciaintervallum végpontjai:

x± tα/2(n− 1)s√n.

A feladatban α = 0.05 ill. α = 0.01 és n = 14. A t-eloszlás táb-lázatából t0.025(13) = 2.160 ill. t0.005(13) = 3.012, és így a 95%-osill. 99%-os konfidenciaintervallumok: (41.37, 52.63) ill. (39.15, 54.85)lesznek.

(b) Az alsó korlát most:x− tα(n− 1)

s√n,

ahonnan a t0.05(13) = 1.771 ill. t0.01(13) = 2.650 értékekkel a 95%-osill. 99%-os alsó korlátok 42.38 ill. 40.09 lesznek.Megjegyezzük, hogy az egy- és kétoldali t-értékekre vonatkozó táblá-zat is ugyanezt mutatja, csak más felállásban.

(c) A hipotézisek: H0 : µ ≥ 49 versus H1 : µ < 49. A számolttesztstatisztika: t = x−µ0

s/√n

= 47−499.4/√

13= −0.767, ezért nem tudunk

elutasítan, azaz 0.05 szignifikanciával bizonyítani, hogy µ < 49, a 47átlag evidencia alapján. Ui. −0.767 > t0.05(13) = −1.771.

53. Egy zoológus 20 gyíkot gyűjtött össze és megmérte a hosszukat:179 157 169 146 143 131 159 142 141 130142 116 130 140 138 137 134 114 90 114

Adjunk 95%-os konfidenciaintervallumot a gyíkok átlagos hosszára!

54. Egy genetikai modell szerint egy bizonyos – két különböző fajtájú mag-ról keresztezett – növény 80%-ban alacsony lesz. 200 ilyen keresztezéstelvégezve azt találták, hogy közülük 136 alacsony növésű lett.

37

Page 38: STATISZTIKA1 FELADATOK

(a) Ellentmondanak-e ezek az adatok a modell állításának?

(b) Szerkesszen 95%-os konfidenciaintervallumot az alacsony növényekarányára!

55. Egy előző széleskörű felmérés alapján állíthatjuk, hogy az 1-2 gyerekescsaládok heti élelmiszer kiadása átlagosan 148$, a szórás pedig 25$. Egyévvel később ismét felmérést terveznek.

(a) Hány családot kérdezzenek meg, ha azt szeretnék, hogy a becslésihiba 95% valószínűséggel 2$-nál kisebb legyen?

(b) Végül 100 családot megkérdeztek és a kapott minta átlaga 155$ lett,a szórás pedig 22$. Konstruáljon 98%-os konfidenciaintervallumot acsaládok költségeire!

56. Könyvelési tanulmányaikat kezdő tanulók tesztet töltöttek ki, amely akomputerrel kapcsolatos aggodalmaikat mérte. A következő pontszámokatkapták 15 tanuló esetén:2.90 1.00 1.90 2.37 3.32 3.79 3.26 1.901.84 2.58 1.58 2.90 2.42 3.42 2.53

(a) Adjon becslést a hallgatók pontszámának szórására!

(b) Szerkesszen 95%-os konfidenciaintervallumot az ismeretlen szórásra!

(c) Ellenőrizze, hogy az (a)-ban kapott becslés a felezőpontja-e a (b)-benkapott konfidenciaintervallumnak!

57. Megmérték a 30− 40 és a 60− 70 éves korosztályból 250-250 ember alvás-idejét. Az alábbi adatok születtek:

alvásidő

életkor < 8 ≥ 8 összesen

30-40 173 77 250

60-70 120 130 250

összesen 293 207 500

(a) Alátámasztják-e ezek az adatok, hogy a 30−40 közöttiek közül többenalszanak 8 óránál kevesebbet átlagban, mint a 60− 70 közöttiek? Azindokláshoz használja a p-értéket!

(b) Legyen p1 ill. p2 azoknak az aránya a két korcsoporton belül, akik 8óránál kevesebbet alszanak. Szerkesszen 95%-os konfidenciainterval-lumot p1 − p2-re!

58. Hogy kiértékeljék egy egyszerűsített adóbevallási ív két változatát, 40-40embert kértek meg, hogy töltse ki az A1 és A2 típusú íveket. Az adatokösszesítése során az alábbiakat kapták a kitöltési időkre:

A1 : x = 12.2, s1 = 1.1A2 : y = 7.2, s2 = 2.1

38

Page 39: STATISZTIKA1 FELADATOK

Szerkesszen 95%-os konfidenciaintervallumot a két ív kitöltésének átlag-idejére!

59. A 58. feladatban tekinthetők-e egyenlőknek a szórások 0.05 szignifikanci-ával?

60. Tegyük most fel, hogy a 58. feladatban nem 40-40 ember töltötte ki azA1-es ill. A2-es ívet, hanem n1 = 8 ill. n2 = 7.

(a) Most is elutasítaná-e 0.05-ös szinten, hogy a két szórás egyenlő?(b) Adjon 95%-os konfidenciaintervallumot az A2 és A1 ív kitöltési ideje

közti különbségre! Ismertesse, milyen feltevésekkel élt!

Megoldás. (a) Nem, mert s22s21

= 3.645, viszont az F (7, 8) eloszlás felső0.025-ös kvantilise 4.53.

(b) 60.a alapján tekintsük egyenlőnek a szórásokat. Ekkor az 1 − αmegbízhatóságú konfidenciaintervallum végpontjai: x− y± tα/2(n1 +

n2 − 2)sp

√1n1

+ 1n2, ahol sp =

(n1−1)s21+(n2−1)s22n1+n2−2 az ú.n. összevont

szórás. Az adatokkal tα/2(n1 + n2 − 2) = 2.160, sp = 1.639. Tehát akeresett intervallum (3.168, 6.832).

61. 10.13. Két rokon lepkefaj szárnyméretét mérték meg (cm-ben) és ezt kap-ták:

1. fajta 6 4 7 32. fajta 6 9 6

(a) Határozza meg az összevont tapasztalati szórásnégyzetet!(b) Adjon becslést a két lepkefaj szárnyméretének közös szórására!(c) Adja meg a két szárnyméret egyenlőségének teszteléséhez szükséges

t-statisztikát!

62. 10.37. Egy táplálkozástudománnyal foglalkozó kutató szeretné tudni, hogyvan-e különbség a előtenyésztett baktériumot (psychrotrops, röviden PC).tartalmazó és nem tartalmazó lefölözött tej között. Hét különböző, tejter-mékekkel foglalkozó gazdaságból vettek egy-egy mintát a lefölözött tejből.Ezután mindegyik minta egyik felét beoltották PC-vel, a másik felét nem.Az elkészült joghurt keménységét megmérték és az alábbi adatokat kapták:

tejgazdaságjoghurt keménység A B C D E F E

PC-vel 68 75 62 86 52 46 72PC nélkül 61 69 64 76 52 38 68

(a) Alátámasztják-e ezek az adatok, hogy a PC-vel beoltott (lefölözött)tej nagyobb keménységű, mint a a nem beoltott?

(b) adjon meg egy 90% - os intervallumot az átlagos keménységnöveke-désre a PC kezelés után!

39

Page 40: STATISZTIKA1 FELADATOK

63. 10.46. Egy összehasonlító tanulmányban az A és B gyógyszereket próbál-ták ki 120 ill. 150 betegen és az alábbi adatokat kapták:

A Bkezelt 55 88

nem kezelt 70 62összes 120 150

(a) alátámasztják-e ezek az adatok, hogy a B gyógyszer eredményesebb,mint az A? Hasznnáljon 0.05-ös szignifikanciát.

(b) Szerkesszen 95%-os konfidenciaintervallumot a gyógyultak arányánakkülönbségére a B ill. az A gyógyszer tekintetében!

64. Egy közgazdász egy pénzügyi botrány hatásait szeretné felmérni egy bi-zonyos részvény árának változékonyságában. Az illető adatokat gyűjt abotrány előtti és utáni árakról és él a feltételezéssel, hogy az árak normá-lis eloszlásúak voltak a botrány előtt és után is, továbbá, hogy a botrányelőtti és utáni árak függetlennek tekinthetők. A pénzügyi elméletek sze-rint az árak közel normális eloszlásúak. A közgazdász tesztelni szeretné,hogy a botrány növelte vagy csökkentette az árak varianciáját. Az ese-mény előtti 25 elemű realizált minta korrigált tapasztalati szórásnégyzetes2

1 = 9.3 (dollár2) és az esemény utáni 24 elemű minta korrigált tapasz-talati szórásnégyzete s2

2 = 3.0 (dollár2). Végezzük el a próbát α = 0.05mellett!

Megoldás. Egyolali F -próbát végzünk.

H0 : σ1 = σ2 versus H1 : σ1 > σ2

tesztelésére itt is az

F =s2

1

s22

=9.3

3= 3.1

próbastatisztikát használjuk, de a kritikus tartomány

Xk = {F ≥ F0.05(24, 23) = 2.01}.

Tehát elutasítjuk H0-t 0.05 szignifikanciával.

65. Egy közgazdász ellenőrizni szeretné, hogy a nyersolaj ára befolyásolja-ea fogyasztói árindexet (CPI). Kétféle adatot gyűjt össze; az egyik a CPI14 havi százalékos növekedéseit tartalmazza, amikor a nyersolaj ára 66$volt, a másik a CPI 9 havi százalékos növekedéseit tartalmazza, amikora nyersolaj ára 58$ volt. Az adatok: x1 = 0.317%, s1 = 0.12%, n1 =14; x2 = 0.210%, s2 = 0.11%, n2 = 9. Teszteljük a két mintához tartozóvárható értékek egyenlőségét, feltéve, hogy a CPI varianciák megegyeznek!

40

Page 41: STATISZTIKA1 FELADATOK

9. feladatsor

A mintaelemszám választása, konfidenciaintervallum a szórásraés egyéb tesztek a korrelációra

66. Hány elemű mintát kell vennünk ahhoz, hogy ε pontosságú becslést adjunka háttéreloszlás ismeretlen (de létező) µ várható értékére 1−α biztonság-gal? (Tegyük fel, hogy az eloszlás szórás σ0 adott.)

Megoldás. Ha mintánk normális eloszlásból származik, vagy n „nagy”, ak-kor az X körüli ε sugarú konfidenciainervallum sugarára zα/2σ0√

n≤ ε kell,

hogy teljesüljön. Innen n ≥ (zα/2σ0

ε )2.

Megjegyezzük, hogy ez az alsó korlát n-re sokkal kisebb, mint az, amit aCsebisev-egyenlötlenséggel kapnánk:

P(|X − µ| ≤ ε) ≥ 1− Var(X)

ε2= 1− σ2

0

nε2≥ 1− α,

ahonnan n ≥ σ20

αε2 .

Nagy mintaelemszám esetén a becsült szórással dolgozhatunk.

67. Szerkesszünk 1−α szintű konfidenciaintervallumot a normális háttérelosz-lás ismeretlen (de létező) σ szórására!

Megoldás. Lukács tételéből tudjuk, hogy (n−1)S∗n2

σ2 ∼ χ2(n− 1), így

P(χ2

1−α/2(n− 1) <(n− 1)S∗n

2

σ2< χ2

α/2(n− 1)

)= 1− α,

ahol χ2α(n) az n szabadsági fokú χ2-eloszlás (1− α)-kvantilise. Innen

P

((n− 1)S∗n

2

χ2α/2

< σ2 <(n− 1)S∗n

2

χ21−α/2

)= 1− α

és

P

(√(n− 1)S∗n

2

χ2α/2

< σ <

√(n− 1)S∗n

2

χ21−α/2

)= 1− α,

ahonnan a határok kiolvashatók.

68. Az X1, . . . , Xn ∼ N (µ, σ2) fae. minta alapján teszteljük a

H0 : σ2 = σ20 versus σ2 6= σ2

0

alternatívát!

41

Page 42: STATISZTIKA1 FELADATOK

Megoldás. H0 elfogadása ekvivalens azzal, hogy a hipotetikus σ20 benne

van a 67. feladatban konstruált 1 − α szintű konfidenciaintervallumban.Ïgy az α szignifikanciájú próba próbastatisztikája d =

(n−1)S∗n2

σ20

, kritikustartománya pedig:

Xk = {d ≤ χ21−α/2 vagy d ≥ χ2

α/2}.

69. Az X1, . . . , Xn ∼ N (µ1, σ21) és Y1, . . . , Ym ∼ N (µ2, σ

22) egymástól is füg-

getlen minták alapján teszteljük a

H0 : σ21 = σ2

2 versus σ21 6= σ2

2

alternatívát α szignifikanciával! Erre ismerjük az F -próbát, de magyaráz-zuk meg a feleződést!

Megoldás. Tudjuk, hogy H0 fennállásakor az

F =S∗X

2

S∗Y2

statisztika F(n − 1,m − 1) Fisher-eloszlást követ. Ahhoz, hogy α I. fajúhibát produkáljunk, F -et ezen eloszlás (1−α)-kvantiliséhez kellene viszo-nyítani. Azonban a táblázat csak 1-nél nagyobb F -értékeket tartalmaz.Ezért az X–Y szereposztást úgy választjuk meg, hogy S∗X

2

S∗Y2 ≥ 1 legyen.

Így valójában az F ∗ = max{S∗X

2

S∗Y2 ,

S∗Y2

S∗X2 } próbastatisztikát használjuk.

Ha F ∗ = F , akkor P(F ≥ Fα/2(n− 1,m− 1)) = α/2. Ha F ∗ = 1F , akkor

P(1

F≥ Fα/2(m− 1, n− 1)) = P(F ≤ 1

Fα/2(m− 1, n− 1))

= P(F ≤ F1−α/2(n− 1,m− 1)) = α/2.

Ezért a kritikus tartomány:

Xk = {F ∗ ≥ Fα/2(f1 − 1, f2 − 1)},

ahol f1 a nagyobbik, f2 pedig a kisebbik empirikus varianciájú mintamintaelemszáma.

F -próbát a független mintás t-próba elvégzśe elött kell végrehajtani. Haelutasítjuk H0-t, akkor a szokásos kétmintás t-próba helyett Welch-próbátkell használni (l. tankönyv).

70. A korrelációs együtthatóra vonatkozó hipotézisvizsgálat alapja, hogy tet-szőleges második momentummal rendelkező eloszlásra igazak az alábbiközelítő összefüggések:

E(Rn) = r +O(1/n) és Var(Rn) =(1 + r2)2

n+O(

1

n3/2) ,

42

Page 43: STATISZTIKA1 FELADATOK

ahol r, illetve Rn jelöli a valódi, illetve az empirikus korrelációs együttha-tót, és O(·) jelentése nagy ordó. Tehát Rn aszimptotikusan torzítatlan éskonzisztens becslése r-nek.

Fisher ennél többet bizonyított, nevezetesen azt, hogy

Z =1

2ln

1 +Rn1−Rn

→ N (1

2ln

1 + r

1− r+

r

2(n− 1),

1

n− 3)

eloszlásban, azaz az ún. Fisher-féle Z statisztika n→∞ esetén aszimpto-tikusan normális eloszlású a fenti paraméterekkel. Így a

H0 : r = r0 versus r 6= r0

alternatíva vizsgálatára a

Z − 12 ln 1+r0

1−r0 + r02(n−1)√

1n−3

statisztika segítségével z-próba végezhető.

Be lehet látni, hogy 2-dimenziós normális háttéreloszlás esetén a

t =√n− 2

Rn1−R2

n

statisztika aszimptotikusan n − 2 szabadsági fokú Student-eloszlású, han→∞ és r = 0. Így a

H0 : r = 0 versus r 6= 0

alternatíva vizsgálata történhet a t-próbáéhoz hasonló módszerrel is. IttH0 elfogadása egyben a függetlenség hipotézisének elfogadását is jelenti.

71. Nem-normális háttéreloszlás esetén szokták az ún. Spearman-féle rang-korrelációs együtthatóval tesztelni két valószínűségi változó függetlensé-gét. Annak a null-hipotézisnek a tesztelésére, hogy a háttérváltozó kétkomponense független, nagy n értékekre az

√n− 1 · rsp

statisztikát használjuk, mely a null-hipotézis fennállása esetén aszimpto-tikusan standard normális eloszlást követ (n → ∞), s mellyel z-próbáthajthatunk végre (rsp definícióját l. az előjel-próbáknál).

43

Page 44: STATISZTIKA1 FELADATOK

10. feladatsor

χ2-próba

72. Illeszkedésvizsgálat Szabályosnak tekinthető-e az alábbi dobókocka α =0.05 szignifikanciával?

(a) Feldobjuk 1200-szor és az egyes oldalak kijövetelének gyakorisága:ν1 = 184, ν2 = 212, ν3 = 190, ν4 = 208, ν5 = 212, ν6 = 194.

(b) Feldobjuk 12000-szer és az egyes oldalak kijövetelének gyakorisága:ν1 = 1840, ν2 = 2120, ν3 = 1900, ν4 = 2080, ν5 = 2120, ν6 = 1940.

Megoldás. (a) A kiszámolt χ2-statisztika értéke:

χ2 =6∑i=1

(νi − 200)2

200=

162 + 122 + 102 + 82 + 122 + 62

200= 3.72,

amely alapján α = 0.05 szignifikanciával elfogadjuk H0-t, hiszenχ2

0.05(5) = 11.1, sőt α = 0.01 szignifikanciával is elfogadnánk.

(b) A kiszámolt χ2-statisztika értéke most 37.2, amely alapján elutasítjukH0-t α = 0.05, sőt még kisebb szignifikanciával is. A tanulság, hogynagyobb mintaelemszám mellett ugyanazok a relatív gyakoriságokmár sokkal kevésbé bizonyító erejűek, mint kisebb mintaelemszámnál(a CHT-nek köszönhetően).

73. Homogenitásvizsgálat 80 ill. 70 gyermek egészségi állapotát vizsgálták kétkülönböző étrend mellett:

Kiváló Atlagos Gyenge összesenA étrend 37 24 19 80B étrend 17 33 20 70összes 54 57 39 150

Van-e szignifikáns külónbség a két étrend közt a gyermekek egészségi álla-potát illetően?

Megoldás. Homogenitásvizsgálatot végzünk, ahol

H0 : az egészségi állapot eloszlása ugyanolyan a kétféle étrend mellett.

Ha ez igaz, akkor az oszlopösszegek alapján becsülhetjük a három egészségiállapot valószínűségét:

p1 =54

150, p2 =

57

150, p3 =

39

150.

44

Page 45: STATISZTIKA1 FELADATOK

Így a H0 mellett várt cellagyakoriságok: pin ill. pim, (i = 1, . . . , r), aholr = 3, n = 80, m = 70 a képletgyűjtemény jelöléseivel. Ezekkel képezve a∑ (megfigyelt− várt)2

várt

összeget, a következőt kapjuk:

r∑i=1

(νi − pin)2

pin+

r∑i=1

(µi − pim)2

pim= · · · = nm

r∑i=1

(νin −µim )2

νi + µi.

Itt az átalakítások során kihasználtuk, hogy pi = νi+µin+m .

A χ2-statisztika H0 fennállása esetén aszimptotikusan (n,m „nagy”) χ2-eloszlást követ r− 1 szabadsági fokkal, ui. a 2(r− 1) szabad cellaszámbóllevonjuk a becsült paraméterek számát: ez r − 1, ui.

∑ri=1 pi = 1. Ese-

tünkben a statisztika értéke 8.224, ami nagyobb, mint χ20.025(2), így 0.025

szignifikanciával elutasítjuk H0-t, azaz alapos okunk van feltételezni, hogyaz étrendválasztás szignifikánsan befolyásolja a gyermekek egészségi álla-potát.

Megjegyezzük, hogy itt a vizsgálat PROSPEKTÍV volt, azaz előre ter-vezték a kísérletet. Elhatározták, hogy 80 ill. 70 gyermeket állítanak ráaz A ill. B étrendekre, amivel a kontingenciatábla egyik peremét rögzí-tették. Ezért a homogenitásvizsgálatot az EGYIK MARGINÁLIS FIXentartásával végzett vizsgálatnak is nevezik.

74. Függetlenségvizsgálat Az USA-ban megkérdeztek 500 embert politikai párt-állásáról és arról, hogy támogatna-e egy adóreformot. A következőt kap-ták:

Támogatja Közönbös Ellenzi összesDemokrata 138 83 64 285

Rupublikánus 64 67 84 215összes 202 150 148 500

Van-e ósszefüggés a politikai pártállás és az adóreformhoz való hozzáállásközt?

Megoldás. Most függetlenségvizsgálatot végzünk, ahol

H0 : a politikai pártállás és az adóreformhoz való hozzáállás függetlenek.

Ha ez igaz, akkor a képletgyűjtemény alapján gyártott χ2-statisztika aszimp-totikusan (n = 500 „nagy”) χ2-eloszlást követ rs− 1− (r − 1)− (s− 1) =(r − 1)(s − 1) szabadsági fokkal, ahol r = 2 és s = 3 a sorok ill. oszlo-pok száma. Esetünkben a statisztika értéke 22.153, ami nagyobb, mintχ2

0.005(2), így 0.005 szignifikanciával elutasítjuk H0-t, azaz alapos okunkvan feltételezni, hogy a politikai pártállás és az adóreformhoz való hozzá-állás messze nem függetlenek.

45

Page 46: STATISZTIKA1 FELADATOK

Megjegyezzük, hogy itt a vizsgálat RETROSPEKTÍV, azaz a kísérlet el-végzése után tudjuk csak kiszámolni a marginálisokat, melyek a véletlentőlfüggenek. Ezért a függetlenségvizsgálatot az EGYIK MARGINÁLIS SEMFIX feltétellel is szokás jellemezni.

Ugyanakkor, ha a fenti 2× 3-as táblázaton homogenitás- és függetlenség-vizsgálatot is végrehajtunk, formálisan ugyanazt a χ2 értéket kapjuk és aszabadsági fok is megegyezik, így döntésünk ugyanaz. Mégis, a két hipo-tézis különbözik. Itt homogenitásvizsgálatnak akkor lenne értelme, ha pl.a képviselőházban kérdeznénk meg a már ismert pártállású képviselőketaz adóeformról.

A biológiai kísérletek nagyrészt retrospektívek: pl. ha azt szeretnék bizo-nyítani, hogy a dohányzás növeli a tüdőrák kockázatát (a tüdőrák kiala-kulása nem független a dohányzástól), akkor ez úgy történik, hogy vissza-követik tüdőrákosok és kontroll személyek életútját, és megnézik, hogydohányoztak-e; nem pedig azt teszik, hogy kiválasztanak egy csoport do-hányost és egy másik csoport nemdohányost, majd figyelik, hogy kialakul-enáluk tüdőrák.

75. Egy klinikán 460 személyt vizsgáltak hipertónia és túlsúlyosság szempont-jából. Azt találták, hogy köztük 416 hipertóniás volt, aki túlsúlyos, és 5személy sem túlsúlyos, sem hipertóniás nem volt. Ugyanakkor 16 nem hi-pertóniás, de túlsúlyos személyt találtak köztük, míg 23 hipertóniás nemvolt túlsúlyos. 0.05 szignifikanciával döntse el, hogy a hipertónia és atúlsúlyosság függetlenek-e egymástól?

Megjegyezzük, hogy amennyiben 2×2-es kontingencatáblában a χ2-statisztikakiszámolása a

χ2 = n(ν11ν22 − ν12ν21)2

ν1.ν2.ν.1ν.2

képletre egyszerűsíthető, ahol

(ν11ν22 − ν12ν21)2

ν1.ν2.ν.1ν.2

a két bináris változó (igen=1, nem-0) közti korreláció empirikus megfe-lelőjének az n-szerese. Ennek alapján külnbözó mérőszámok (Pearson,Cramer) konstruálhatók a függetlenség mérésére és az ún. korrespondan-ciaanalízis szekvenciálisan vizsgálja ezeket a korrelációkat tetszőleges végesértékkészletű diszkrét véltozók esetén.

76. A 6. táblázat egy külföldi egészgégbiztossítási társaság adatait tartalmaz-za. 200 kétgyerekes család körében nézték, hogy az elmúlt periódusbanhány térítési igényt jelentettek be. Az igények száma követhet-e Poissoneloszlást?

Igények száma 0 1 2 3 4 5 6 7 teljes

Gyakoriság 22 53 58 39 20 5 2 1 200

6. táblázat. Biztosítóhoz benyújtott igények száma gyakorisággal

46

Page 47: STATISZTIKA1 FELADATOK

Megoldás. Illeszkedésvizsgálatot végzünk, ahol

H0 : az igények száma Poisson eloszlású.

Az alábbi táblázatban mellékeljük a számolásokat, melyekkel illeszkedés-vizsgálatot hajtunk végre. Megjegyezzük, hogy egy Poisson eloszlású va-lószínűségi változó értékkészlete a nemnegatív egészek halmaza, azonbanebben a véges mintában az előforduló legnagyobb érték a 7. Ráadásul a 6és 7 értékek gyakorisága olyan alacsony, hogy az utolsó három kategóriátössze kell vonnunk: ide a legalább 5 értékek tartoznak. Fontos, hogy teljeseseményrendszerrel dolgozzunk, így igaz csak, hogy a megfigyelt és vártcellagyakoriságok összege megegyezik (n = 200).

Igények száma 0 1 2 3 4 legalább 5 teljes

νi 22 53 58 39 20 8 200

npi 27.0 54.2 54.2 36.0 18.0 10.6 200

Itt a pi valószínűségeket Poisson eloszlás szerint számoltuk, melynek pa-raméterét a mintaátlaggal becsültük:

λ =0× 22 + 1× 53 + · · ·+ 7× 1

200= 2.05.

A próba-statisztika értéke χ2 = 2.33 és a szabadsági fok df = 6 − 1 −1 = 4. Mivel a 2.05 kisebb, mint a χ2

0.5(4) érték, csak 0.5-nél nagyobbszignifikanciával tudnánk elutasítani H0-t, azaz ilyen nagy lenne a téveselutasítás valószínűsége. Így természetesen elfogadjuk H0-t.

77. 500 ötgyermekes családban vizsgálták a fúk számát. 20 családban nemvolt fiú, 75-ben 1, 145-ben 2, 140-ben 3, 85-ben 4, és 35-ben 5 fiú volt.Döntse el, hogy ebben a populációban egy 5-gyerekes családban a fiúkszáma binomiális eloszlát követ-e (α = 0.05)?

78. 0.01 szignifikanciával vizsgálja meg, hogy az alábbi 100 elemű minta származ-hat-e

(a) 3 paraméterű Poisson eloszlásból? A mintában a 0,1,2,3,4 értékekfordultak elő a következő gyakoriságokkal:

12, 32, 25, 21, 10.

(Használja a Poisson- és χ2-eloszlások táblázatát!)(b) Egyáltalán származhat-e a minta Poisson eloszlásból?

79. Megkérdeztünk 1000 embert, hogy a kávét vagy a teát szeretik-e jobban.Egy háromfokozatú skálán választhattak: szereti, közömbös, nem szereti.Azt tapasztalták, hogy 300 ember válaszolt ugyanúgy a két kérdésre: 150-en egyiket sem szeretik, 100-an minkettőt szeretik, és 50-nek mindkettőközömbös. A kávét összesen 500-an szeretik, akik közül 200-an nem sze-retik a teát. 50 válaszadó nem szereti a teát és közömbös számára a kávé.A teát szeretők kávéra vonatkozó válaszai egyenlő arányban oszlanak mega három lehetőség közt. Döntse el ennek alapján, hogy a kávé és a teaszeretete független-e (α = 0.05)?

47

Page 48: STATISZTIKA1 FELADATOK

80. A Raymond Weil cég új karórával akar megjelenni a piacon és szeretnétudni a fogyasztók preferenciáit az óraszíj színét illetően. Négy szín kerültszóba és kérdés, hogy a négy színt egyformán értékelik-e a vásárlók. 80potenciális vásárlót megkérdeztek és az alábbi eredményeket kapták:

sárgásbarna barna gesztenyebarna fekete Teljes12 40 8 20 80

Vizsgáljuk meg azt a null-hipotézist, hogy az óraszíj preferenciák azonosak!Az alternatíva ennek a tagadása (nem szoktuk külön feltüntetni), csak azt,hogy

H0 : p1 = p2 = p3 = p4 = 0.25.

Megoldás. A számolt próba-statisztika:

χ2 =

4∑i=1

(νi − 20)2

20=

(−8)2 + 202 + (−12)2 + 02

20= 30.4.

A kritikus tartomány: Xk = {χ2 ≥ χ20.01(3) = 11.3}. Tehát elutasítjuk

H0-t 0.01 szignifikanciával.

81. Egy áruházlánc elemzője tesztelni szeretné, hogy az egyes fogyasztók vá-sárlásra fordított összege normális eloszlású-e. Ez fontos neki, mert - ha afeltételezése beigazolódik - varianciaanalízist végezhet arra vonatkozóan,hogy a fogyasztók egyforma mértékben költenek a lánc különböző áru-házaiban. 100 vásárló megkérdezése után az átlagra $125 és a korrigálttapasztalati szórásra $40 adódott.

(0 - 84.99) (85.00 - 107.39) (107.4 - 124.99) (125 - 142.59) (142.6 - 164.99) (165,∞)

14 20 16 19 16 15

7. táblázat. Vásárlási összegek és vásárlók száma kategóriák szerint

Megoldás. Illeszkedésvizsgálatot végzünk.

H0 : Az elköltött összeg normális eloszlású.

Ha H0 fennáll, akkor a 7. táblázatbeli adatokat standardizálva standardnormális eloszlásból származó adatokat kapunk. Ezért a megfigyelt ésvárt cellagyakoriságok a standard normális eloszlás szerinti kategóriákbana következők (itt pi-k a standard normális eloszlásfúggvény szerinti értékekés táblázatból kikereshetők).

Kategóriák (-3.125,-1) (-1,-0.44) (-0.44,0) (0,0.44) (0.44,1) (1,∞)

νi 14 20 16 19 16 15

npi 15.87 17.13 17.00 17.00 17.13 15.87

A számolt próba-statisztika:

48

Page 49: STATISZTIKA1 FELADATOK

χ2 =(14− 15.87)2

15.87+

(20− 17.13)2

17.13+

(16− 17.00)2

17.00+

+(19− 17.00)2

17.00+

(16− 17.13)2

17.13+

(15− 15.87)2

15.87= 1.12.

A számolt statisztika nem esik az elutasítási tartományba semmilyen αmellett a χ2 táblázatban (a szabadsági fok 6-1-2=3, hiszen a kategóriákszáma 6 és most két paramétert - a várható értéket és a szórást - becsül-tünk). Tehát elfogadjuk, hogy az adatok normális eloszlásúak.

82. A cégek nyereségeinek és veszteségeinek tanulványozása végett 100 cégetmegvizsgálunk. Azt is figyelembe vesszük, hogy az adott cég a szolgálta-tói szférába esik-e. Az adatok az 8. kontingenciatáblázatban találhatók.Kérdés, hogy a "veszteségesnek lenni" és a "szolgáltató iparba tartozni"tulajdonságok függetlenek-e?

szolgáltató nem szolgáltató összesen

nyereséges 42 18 60

veszteséges 6 34 40

összesen 48 52 100

8. táblázat

Megoldás. Függetlenságvizsgálatot végzünk. A számolt próba-statisztika:

χ2 =(42− 28.8)2

28.8+

(18− 31.2)2

31.2+

(6− 19.2)2

19.2+

(34− 20.8)2

20.8= 29.09,

ami nagyobb, mint a χ2α(1) kritikus érték (a szabadsági fok most (2−1)×

(2− 1) = 1) minden szokásos szignifikanciával (még α = 0.005 mellett is).Így elutasítjuk a függetlenséget.

83. Mendel egyik nevezetes kísérletében 556 kerek sárga magvú borsót ke-resztezett ráncos zöld magvúval. Mendel elmélete szerint négyféle borsókeletkezhetett: kerek sárga, kerek zöld, ráncos sárga és ráncos zöld magvú,továbbá ezek arányai az elmélet szerint kb.: 9 : 3 : 3 : 1.

Megoldás. Illeszkedésvizsgálatot végzünk.

A számolt próba-statisztika a táblázat alapján:

χ2 =(315− 312.75)2

312.75+

(108− 104.25)2

104.25+

(102− 104.25)2

104.25+

(31− 34.75)2

34.75= 0.618.

49

Page 50: STATISZTIKA1 FELADATOK

típus megfigyelt esetszám (νi) jósolt arány (pi) várható esetszám (npi)

kerek sárga 315 9/16 312.75

kerek zöld 108 3/16 104.25

ráncos sárga 102 3/16 104.25

ráncos zöld 31 1/16 34.75

9. táblázat. Mendel elméletének jóslatai és a megfelelő várt értékek

Ezt kell összevetnünk a χ2(3) eloszlás felső kvantiliseivel. Mivel χ20.1(3) =

6.251, . . . , χ20.75(3) = 1.20 felette vannak 0.618-nak, és χ2

0.9(3) = 0.584az első a táblázatban, ami alatta van, csak a drasztikusan nagy α = 0.9mellett tudnánk elutasítaniH0-t. Az adatok meglepően jó egyezést mutat-nak a jóslattal. Valójában azt várnánk, hogy a jegyzett adatok az esetek90%-ában nagyobb eltérést mutatnak. Az általános vélemény ezért az,hogy Mendel elmélete helyes, de valaki "megmasszírozta" az adatokat azelmélet kedvéért. Fisher szerint ez a valaki Mendel kertésze lehetett.

50

Page 51: STATISZTIKA1 FELADATOK

11. feladatsor

Előjel-próba és Wilcoxon-próba

84. Kétmintás előjel-próba.Szeretnénk tudni, hogy egy napvédő krém hatása megváltozik-e egy újalkotórśz hozzáadásával. Ezért 7 független személy hátának egyik felét azagyik, másik felét pedig a másik krémmel kenték be. A leégés fokát egyfolytonos skálán mérve a következőt kapták.

Személy sorszáma 1 2 3 4 5 6 7Régi készítmény (Xi ) 42 51 31 61 44 55 48Új készítmény (Yi ) 38 53 36 52 33 49 36

Különbség (Di = Xi − Yi ) 4 -2 -5 9 11 6 12

Ez egy páros mintás teszt, ahol

H0 : X − Y mediánja = 0,

azaz nincs különbség a két fényvédő krém hatása közt.H0 fennállásakor P(X ≥ Y ) = P(D ≥ 0) = 1

2 , azaz a ν7 = |{i : Di ≥0} valószínűségi változó binomiális eloszlást követ 7 és 1

2 paraméterekkel.Egyoldali alternatívával szemben, ha

H1 : X − Y mediánja > 0,

a legszűkebb kritikus tartomány, amibe a ν7 = 5 beletartozik, Xk = {ν7 ≥5}, melynek valószínűsége H0 fennállása esetén a 7, 1

2 paraméterű binomi-ális eloszlás táblázat szerint 0.2266. Ekkora p-érték nem elég bizonyítékaz elutasításra. Még kevésbé tudjuk elutasítani H0-t a kétoldali alterna-tívával szemben:

H1 : X − Y mediánja 6= 0,

ahol a legszűkebb kétoldali kritikus tartomány, amibe a ν7 = 5 beletarto-zik,

Xk = {ν7 ≤ 2 vagy ν7 ≥ 5}.Ennek valószínűsége H0 fennállása esetén a 7, 1

2 paraméterű binomiáliseloszlás táblázat szerint 2 × 0.2266. Ekkora p-érték mellett nem tudunkelutasítani.Vegyük észre, hogy itt a párba állított mérések konkrét értéke nem, csakkülónbségük előjele számított.Megjegyezzük, hogy más lenne a helyzet, hogy ha pl. 7 személy hátát azegyik, másik 7 vagy akár 10 személy hátát pedig a mśik krémmel kenik be,de egyszerre napoznak. Ebben az esetben két független mintát hasonlítunkössze és a Wilcoxon-próbát használjuk.Azt is megjegyezzük, hogy amennyiben n „nagy”, a binomiális eloszlástnormálissal közelíthetjük, és a H0 melletti n2 várható értékkel és

√n4 szó-

rással standardizálva z-statisztika használható.

51

Page 52: STATISZTIKA1 FELADATOK

85. Páciensek viselkedését vizsgálták teliholdkor, azzal a feltevéssel, hogy ilyen-kor agresszívabbakká válnak. Azt találták, hogy 15 páciensből 14-nél va-lóban megnőtt az agresszivitás teliholdkor. Mennyiben támasztják ezekaz adatok alá a feltételezést?

Megoldás. Ha nullhipotézisünk az, hogy a telihold megléte nem növeli megaz agresszívabb páciensek átlagos számát, akkor az agresszívek ν15 számabinomiális eloszlású 15 és 1

2 paraméterrel. Emellett a legszűkebb kritikustartomány, amibe 14 beletartozik: Xk = {ν15 ≥ 14}, melynek valószínű-sége H0 fennállásakor a p-érték:

p = P(ν15 ≥ 14) =

(15

14

)1

215+

1

215= 0.00049.

Ez nagyon kicsiny, így elvetjük a nullhipotézist (hisz ilyen kicsi a valószí-nűsége, hogy alaptalanul vetnénk el).

86. Egy kutatási projekt keretében a magzatiból az újszülötti korba történőátmenet során vizsgálták keringési rendszert. A projekt részeként meg-mérték 19 újszülöttnek a légzésfunkcióját 15 napos kora előtt és 25 naposkora után is. Az adatok a 10. táblázatban találhatók.

sorszám 1 2 3 4 5 6 7 8 9 1015 nap előtt 48 38 43 48 35 52 48 27 26 6225 nap után 47 40 46 42 42 44 36 40 40 46

sorszám 11 12 13 14 15 16 17 18 1915 nap előtt 68 67 80 88 84 75 67 45 7025 nap után 45 31 42 48 45 38 44 45 35

10. táblázat. Újszülöttek légzésfunkciója két időszakban

(a) Végezzen χ2-próbát a két változó különbségének normalitására vo-natkozóan!

(b) Végezzen Mann-Whitney-féle próbát a különbség mediánjára α =0.05 szignifikanciával!

87. Wilcoxon-féle rangösszeg próba.

Legyen X1, . . . , Xn fae. és Y1, . . . , Ym fae. minták, melyek egymást köztfüggetlenek, és eloszlásuk abszolút folytonos. Ebben a kétmintás pró-bában azt szeretnénk vizsgálni, hogy az X és Y háttérváltozók azonoseloszlásúak-e. Ez a próba eltolásparaméteres eloszláscsaládoknál használ-ható, ha tudjuk valahonnan, hogy FX(x) = FY (x + θ), ∀x ∈ R, ahol θeltolási paraméter, azonban nem ennek konkrét értékét, hanem csak elő-jelét teszteljük. Ezért a

H0 : FX = FY (X és Y azonos eloszlású) (4)

null-hipotézis megfelel θ = 0-nak és annak, hogy X és Y mediánja meg-egyezik, azaz P(X > Y ) = 1

2 .

52

Page 53: STATISZTIKA1 FELADATOK

Ha az egyoldali alternatíva

H1 : θ > 0 (5)

alakú, az azt jelenti, hogy X eloszlása pozitív eltoltja Y -énak, azaz Xmediánja nagyobb, mint Y -é: P(X > Y ) > 1

2 . Ha az egyoldali alternatíva

H1 : θ < 0

alakú, az azt jelenti, hogy X eloszlása negatív eltoltja Y -énak, azaz Xmediánja kisebb, mint Y -é: P(X > Y ) < 1

2 . A kétoldali alternatíva

H1 : θ 6= 0

lenne.

A konkrét feladatban x1 = 31.8 és x2 = 39.1 két új hibrid növény virágjá-nak a kerülete, míg a régi fajtájúakból három kerület y1 = 21.3, y2 = 27.6,y3 = 35.5 volt. A kérdés az, hogy a két típus virágjának kerülete azonos-e. A biometriai szóhasználattal élve, a kétféle kezelśt (A és B) szeretnénkösszehasonlítani. Itt is csak a nagyságrend számít. Vizsgáljuk meg az (4)null-hipotézist a (5) alternatívával szemben (ez fejezi ki azt, hogy az újhibridek nagyobb virágot növesztenek).

Tekintsük az egyesített rendezett mintát (előtte külön-külön akár rendez-hetjük is őket). Legyen

ri := rang(Xi) = Xi sorszáma az egyesített rendezett mintában,sj := rang(Yj) = Yj sorszáma az egyesített rendezett mintában.

Nyilván r1 < r2 < · · · < rn és s1 < s2 < · · · < sm különböző egészek, amikegyütt kiteszik az {1, . . . , n + m} halmazt (az egyenlőség valószínűségeabszolút folytonos eloszlások esetén 0, de tört rangszámokkal ezt az esetetis kezelni tdjuk).

H0 fennállása esetén az összes sorrend egyformán valószínű, és ez a való-színűség 1

(n+mn )

.

A próbastatisztika WA =∑ni=1 ri. Ennek párja a WB =

∑nj=1 sj statisz-

tika, azonban a fent mondottak miatt köztük a WA + WB =∑n+mi=1 =

12 (n + m)(n + m + 1) összefüggés áll fenn, így elég csak WA-t tekinte-ni (amelyikhez a kisebb mintaelemszám tartozik). Esetünkben r1 = 3,r2 = 5, ezért WA = 8.

Mivel az A-kezelések rangjai az összes(

52

)= 10 lehetőségen egyenletes

eloszlásúak, a következőt kapjuk:

53

Page 54: STATISZTIKA1 FELADATOK

A-rangok WA valószínűség1,2 3 0.11,3 4 0.11,4 5 0.11,5 6 0.12,3 5 0.12,4 6 0.12,5 7 0.13,4 7 0.13,5 8 0.14,5 9 0.1

AH1 : P(X > Y ) >

1

2

alternatívával szemben a legszűkebb egyoldali kritikus tartomány, mely aWA = 8 evidenciát tartalmazza, az utolsó két sor, melynek valószínűségeH0 fennállása esetén 0.2. Ilyen p-érték mellett nehéz elutasítani H0-t. A

H1 : P(X > Y ) 6= 1

2

kétoldali alternatívával szemben a legszűkebb kétoldali kritikus tartomány,mely a WA = 8 evidenciát tartalmazza, az első kettő és az utolsó kettősor, melyek valószínűségének összege H0 fennállása esetén 0.4. Ilyen p-érték mellett még kevésbé tudjuk elutasítaniH0-t a kétoldali alternatívávalszemben. Azaz ez az 5 mérés nem bizonyítja azt, hogy az új hibrideknagyobbak vagy különbözőek, mint a régiek.

Diszkrét egyenletes eloszláson alapuló táblázatok találhatók a Wilcoxon-próba kritikus értékeire „kis” n és m esetén. Amennyiben n és m „nagy”,a Mann–Whitney próbát használhatjuk, mely WA aszimptotikus normali-tásán alapul, így standardizálás után z-statisztika használható a szokásosegy- és kétoldali kritikus tartományokkal (l. tankönyv, 187-188. old).

88. Hasonló fizikai állapotú felnőttek napi fajlagos kalóriabevitelét (kcal/testsúly)jegyezték fel 23 bulimiás és 15 egészséges esetben (11. táblázat).

bulimiások15.9 19.6 25.616 21.5 2816.5 21.6 28.717 22.9 29.217.6 23.6 30.918.1 24.118.4 24.518.9 25.118.9 25.2

egészségesek20.7 33.222.4 33.723.1 36.623.8 37.124.5 37.425.3 40.825.730.630.6

11. táblázat

54

Page 55: STATISZTIKA1 FELADATOK

Feltéve, hogy a bulimiás betegek és az egészségesek kalóriabevitelének el-oszlásai egymás eltoltjai, végezzen Wilcoxon-féle rangpróbát a

H0 : P(X > Y ) =1

2versus P(X > Y ) <

1

2

alternatívára, ahol X : egy véletlenszerű bulimiás (B) kalóriabevitele, Y :egy véletlenszerű egészséges (E) kalóriabevitele.

Megoldás. Összefésülve az adatokat és beírva a rangokat (az egyenlő meg-figyelések közt megosztjuk a rangot) a 12. táblázatot kapjuk:

bevitel rang15.9 1B16 2B

16.5 3B17 4B

17.6 5B18.1 6B18.4 7B18.9 8.5B18.9 8.5B19.6 10B20.7 11E21.5 12B21.6 13B

bevitel rang22.4 14E22.9 15B23.1 16E23.6 17B23.8 18E24.1 19B24.5 20.5B24.5 20.5E25.1 22B25.2 23B25.3 24E25.6 25B25.7 26E

bevitel rang28 27B

28.7 28B29.2 29B30.6 30.5E30.6 30.5E30.9 32B33.2 33E33.7 34E36.6 35E37.1 36E37.4 37E40.8 38E

12. táblázat. rangszámok

Ebbből az X-nek megfelelő rangösszeg: WA = 337.5 (mivel aszimptotikusnormalitással dolgozunk, nem baj, hogy a bulimiásokhoz tartozik a na-gyobb mintaelemszám, és ekkora n,m elég nagynak számít). A számoltMann–Whitney -statisztika:

z =337.5− 23·(23+15+1)

2√23·15·(23+15+1)

12

= −3.315,

mely annak az Xk = {z ≤ −zα} kritikus tartománynak van a határán,melyre α = 0.0005. Ezért elvetjükH0-t, s döntésünk: P(X > Y ) < 1

2 , azaza bulimiások kalóriabevitele szignifikánsan kisebb, mint az egészségeseké.

89. Egy kutató azt vizsgálja, hogy egy adott városra hogyan hat az ENSOjelenség (az El Nino South Oscillation a déli féltekén hat és az északifélteke Golf-áramlatához hasonlít). Ezért a kutató megfigyelt 5 pozitív és5 negatív ENSO időszakot, és feljegyezte az átlagos téli hőmérsékleteket(lásd 13. táblázat).

Alátámasztják-e ezek az adatok, hogy a pozitív ENSO időszakokhoz ma-gasabb átlaghőmérséklet tartozik?

55

Page 56: STATISZTIKA1 FELADATOK

poz. neg.0.23 -1.20.18 1.20.86 -0.0180.72 -0.251.4 -0.36

13. táblázat. Átlagos téli hőmérsékletek pozitív és negatív ENSO időszakokban

sorsz. mat. műv.1 22 532 37 683 36 424 38 495 42 516 58 657 58 51

sorsz. mat. műv.8 60 719 62 5510 65 7411 66 6812 56 6413 66 6714 67 7315 62 65

14. táblázat. Matematikai és művészeti teszt eredmények

90. Megmérték 15 véletlenszerűen kiválasztott diák matematikai és művészetiképességeit. A kapott pontszámokat a 14. táblázat tartalmazza.

A Spearman-féle rangkorreláció segítségével döntsön a kapcsolat szorossá-gáról!

Megoldás. A megfelelő rangokat a 15. táblázat tartalmazza (1-15 közt,tört rangok is vannak):

mat. műv.rang rang1 53 11.52 14 25 3.57.5 8.57.5 3.5

mat. műv.rang rang9 13

10.5 612 1513 11.56 714 1015 1410.5 8.5

15. táblázat. Matematikai és művészeti teszt rangszámai

A Spearman-féle rangkorreláció:

rsp =

∑ni=1

(ri − n+1

2

) (si − n+1

2

)n(n2 − 1)/12

= 0.697,

ami elég magas, mutatja a pozitív kapcsolatot. A tankönyv végén ta-lálható táblázat alapján ez nagyobb, mint az n = 15 sorban található

56

Page 57: STATISZTIKA1 FELADATOK

α = 0.01-hez tartozó kritikus érték, ami 0.6500. Így a matematikai ésművészeti képességek közti kapcsolat szignifikáns α = 0.01 szinnifikan-ciával. A rangkorreláció pozitív előjele azt is mutatja, hogy magasabbmatematikai képességekhez magasabb művészeti képességek társulnak, ésmegfordítva.

91. Megmérték tíz személy IQ-ját és megkérdezték tőlük, hogy hány órát ülneka tv előtt hetente. Az alábbi eredményeket kapták (16. táblázat):

IQ óra106 786 0100 27101 5099 28103 2997 20113 12112 6110 17

16. táblázat. IQ és tv-nézés időtartama

A Spearman-féle rangkorreláció segítségével döntsön a kapcsolat szorossá-gáról!

Megoldás. Mivel egyik változó értékei között sincsenek egyezések, ezért avalamivel egyszerűbb

rsp = 1−6∑ni=1 d

2i

n(n2 − 1)

képletet is használhatjuk, ahol di = ri−si. A következő (17.) táblázat tar-talmazza a változók értékeinek rangját, azok különbségét, valamint azoknégyzetét is:

IQ óra IQ rang óra rang diff diff2

86 0 1 1 0 097 20 2 6 -4 1699 28 3 8 -5 25100 27 4 7 -3 9101 50 5 10 -5 25103 29 6 9 -3 9106 7 7 3 4 16110 17 8 5 3 9112 6 9 2 7 49113 12 10 4 6 36

17. táblázat. IQ és tv-nézés időtartama rangokkal

57

Page 58: STATISZTIKA1 FELADATOK

Kapjuk, hogy rsp = −0.18, ami nagyon alacsony, de negatív korrelációrautal.

92. Az alábbi pontszámok 10 véletlenszerűen kiválasztott főiskolás hallgatókézügyességének és agresszivitásának szintjét mérik:

Kézügyesség 23 29 45 36 49 41 30 15 42 38Agresszivitás 45 48 16 28 38 21 36 18 31 37

Ennek alapján számolja ki a kézügyesség és agresszivitás Spearman-félerangkorrelációs együtthatóját és vonjon le következtetéseket!

58

Page 59: STATISZTIKA1 FELADATOK

12. feladatsor

Lineáris regresszió

93. Egy allergiaellenes gyógyszer egy kutatási fázisában azt vizsgálták, hogyanfügg a szer beadott mennyiségétől a tünetmentes időszak hossza. Tízpácienst kértek meg, hogy a szer bevétele után jelezzék, ha a tünetekkezdenek visszatérni. Az adatokat a 18. táblázat tartalmazza. Határozzukmeg a regressziós egyenest és becsüljük meg a szórásnégyezetet!

Adag Tünetmentes időszak(mg) (óra)x y3 93 54 125 96 146 167 228 188 249 22

18. táblázat. Allergiaellenes gyógyszer adagja és a tünetek enyhülése 10 páciensesetén

Megoldás. Az

Sxy =

n∑i=1

(xi − x)(yi − y) =

n∑i=1

xiyi −(∑i xi) (

∑i yi)

n

Sxx =

n∑i=1

(xi − x)2 =

n∑i=1

x2i − nx2

Syy =

n∑i=1

(yi − y)2 =

n∑i=1

y2i − ny2

összefüggések miatt elegendő a∑i xi,

∑i yi,

∑i x

2i ,∑i y

2i ,∑i xiyi mennyi-

ségeket kiszámolni. A 19. táblázat alapján: Sxx = 389 − 592

10 = 40.9,Syy = 2651− 1512

10 = 370.9, Sxy = 1003− 59·5110 = 112.1.

Az Y = ax+ b+ ε lineáris modellben, ahol Var(ε) = σ2, az

SST = SSR+ SSE

szórásfelbontást alkalmazzuk, ahol SST = Syy, SSR =S2xy

Sxx, SSE =

59

Page 60: STATISZTIKA1 FELADATOK

xi yi x2i y2

i xiyi3 9 9 81 273 5 9 25 154 12 16 144 485 9 25 81 456 14 36 194 846 16 36 256 967 22 49 484 1548 18 64 324 1448 24 64 576 1929 22 81 484 198

Σi 59 151 389 2651 1003

19. táblázat

Syy −S2xy

Sxx=∑ni=1(Yi − axi − b)2 és a paraméterek torzítatlan becslései:

a =SxySxx

, b = Y − ax, σ2 =SSE

n− 2=: s2.

A feladatban SSE = Syy −S2xy

Sxx= 370.9 − 112.12

40.9 = 63.6528, s innena =

SxySxx

= 112.140ds.9 = 2.74, b = y − ax = 15.1 − 2.74 · 5.9 = −1.07,

σ2 = SSEn−2 = 63.6528

8 = 7.9566.

94. Egy hallgató adatokat gyűjtött a futballmeccsek alatt elfogyasztott nagykerek pizzák y számáról és azt is feljegyezte, hogy ilyenkor hány hallgatóvolt jelen. A következőket kapta (20. táblázat).

nézők száma pizzák száma2 15 66 103 34 5

20. táblázat

(a) Ábrázolja az adatokat az x–y koordináta rendszerben!

(b) Számolja ki a és b legkisebb négyzetes becslését!

(c) Rajzolja be az egyenest a (94.a) pontban kapott ábrába!

(d) Ellenőrizze, hogy a maradéktagok összege 0!

(e) Mennyi lesz σ2 becsült értéke?

Megoldás. (a) L. ay 5. ábrát.

(b) A 21. táblázat alapján: Sxx = 90 − 80 = 10, Syy = 171 − 125 = 46,Sxy = 121− 100 = 21, ezért a = 2.1, b = −3.4.

60

Page 61: STATISZTIKA1 FELADATOK

2 3 4 5 6

1

3

56

10

nézők száma (x)

pizzák száma (y)

5. ábra. Pizza adatok plotja

xi yi x2i y2

i xiyi yi − yi2 1 4 1 2 0.25 6 25 36 30 -1.16 10 36 100 60 0.83 3 9 9 9 0.14 5 16 25 20 0

Σi 20 25 90 171 121 0

21. táblázat

2 3 4 5 6

1

3

56

10

nézők száma (x)

pizzák száma (y)

6. ábra. Regressziós egyenes a pizza adatokhoz

(c) L. a 6. ábrát.(d) A 21. táblázatból látszik, hogy az utolsó oszlopbeli összeg 0.(e) SSE = 46− 212/10 = 1.9, σ2 = SSE

n−2 = 1.93 = 0.633.

95. Egy ország fejlettségének egyik mérőszáma az ú.n. Emberi FejlettségiIndex (EFI) vagy angolul a Human Development Index (HDI). Várhatóélettartam, írni-olvasni tudás, iskolázottság, az egy főre eső bruttó hazaitermék számértékeiből kapható a fenti EFI, ami egy 0 és 1 közötti szám,

61

Page 62: STATISZTIKA1 FELADATOK

ahol 1 jelenti a legmagasabb fejlettséget. Az ENSZ Fejlesztési programja177 ország EFI-jét közli. Véletlenszerűen kiválasztottunk ezek közül 15-öt(az első 25-öt nem számítva), az ezekhez tartozó EFI-t az 22. táblázat tar-talmazza. Az x prediktor változó legyen a száz főre eső internet használókszáma.

Ország Internet/100 EFIBahrain 21.3 0.866

Lengyelország 26.2 0.870Uruguay 14.3 0.852Bulgária 20.6 0.824Brazília 19.5 0.800Ukrajna 9.7 0.788

Dominikai Köztársaság 16.9 0.799Moldovai Köztársaság 9.6 0.708

India 5.5 0.619Madagaszkár 0.5 0.533

Nepát 0.4 0,534Tanzánia 0.9 0.467Uganda 1.7 0.505Zambia 2 0.434Etiópia 0.2 0.406

22. táblázat

A fenti adatokból adódnak a következő értékek: x = 9.953, y = 0.6670,Sxx = 1173.46, Syy = 0.41772, Sxy = 20.471.

(a) Határozza meg a lineáris kapcsolat szorosságát!

(b) Adjon 95%-os konfidenciaintervallumot a-ra!

(c) Döntsön 0.05 szignifikanciával a

H0 : a = 0 versus H1 : a 6= 0

alternatíváról!

(d) Az olyan országok körében, ahol az internet használóinak száma át-lagosan x∗ = 22, adjon 95%-os konfidenciaintervallumot az EFI-re!

(e) Feltételezve, hogy egy ország internet használóinak száma x∗ = 22,adjon 95%-os konfidenciaintervallumot az EFI-re!

Megoldás. a = 0.017, hatb = 0.493, SSE = 0.061.

(a) R =Sxy√SxxSyy

= 0.925.

(b) A konfidenciaintervallum szerkesztését a következő eloszlások tesziklehetővé. Tudjuk, hogy

E(a) = a, Var(a) =σ2

Sxx

62

Page 63: STATISZTIKA1 FELADATOK

és

E(b) = b, Var(b) = σ2

(1

n+

x2

Sxx

).

MivelSSE

σ2=

(n− 2)s2

σ2∼ χ2(n− 2)

és (normális alapeloszlás esetén) független a-tól és b-tól, ezért a kö-vetkező Student-eloszlású statisztikák konstruálhatók:

a−a√σ2

Sxx√(n−2)s2

σ2 /(n− 2)=

(a− a)√Sxx

s∼ t(n− 2)

ésb−b√

σ2(

1n+ x2

Sxx

)√(n−2)s2

σ2 /(n− 2)=

b− b

s√

1n + x2

Sxx

∼ t(n− 2).

Így 1− α szintő konfidenciaintervallum a-ra:(a− tα/2(n− 2)

s√Sxx

, a+ tα/2(n− 2)s√Sxx

)= (0.013, 0.022).

(c) Mivel a 0 nincs az 95.b feladat megoldásában kapott konfidenciain-tervalumban, ezért elvetjük H0 t α = 0.05 szignifikanciával.

(d) Az 1 − α szintű konfidenciaintervallum a jósolt ax∗ + b válaszra afüggetlen változó átlagos x∗ értéke esetén:

ax∗ + b± tα/2s

√1

n+

(x∗ − x)2

Sxx,

tehát az adatokkal: (0.716, 1.038).

(e) Az 1 − α szintű konfidenciaintervallum a jósolt ax∗ + b válaszra afüggetlen változó egyetlen x∗ értéke esetén:

ax∗ + b± tα/2s

√1 +

1

n+

(x∗ − x)2

Sxx,

tehát az adatokkal:(0.8127, 0.9415).

96. Egy mérnök azt találta, hogy ha a feltölthető elemekhez a gyártás folya-mán egy bizonyos anyagot hozzáad, akkor az megnöveli azok élettartamát.A mérnök megmérte, hogy mennyi adalékanyag mennyivel növeli meg azelemek élettartamát, ha azokat laptopban használják (23. táblázat).

(a) Adja meg a a, b, σ2 legkisebb négyzetes becslését!

63

Page 64: STATISZTIKA1 FELADATOK

Adag Élettartam(óra)

x y0 1.91 2.02 2.53 2.64 3

23. táblázat. Elemek élettartama

(b) Tesztelje a H0 : a = 1 versus H1 : a 6= 1 alternatívát 0.05 szignifi-kanciával!

(c) Adjon előrejelzést y-ra x∗ = 3.5 mellett, és konstruáljon rá 95%-oskonfidenciaintervallumot!

97. Hét eladott lakás esetében feljegyezték, hogy mennyi volt az előre becsültár és a tényleges eladási ár (1000 USD-ban), l. a 24. táblázatot.

Becsült Eladásiár árx y

283.5 288.0290 291.2270.5 276.2300.8 307.0310.2 311.0294.6 299.0320.0 318.0

24. táblázat. Lakáspiac

(a) Ábrázolja a pontokat az x–y koordinátarendszerben!

(b) Határozza meg az regressziós egyenes egyenletét és rajzolja be a fentiábrába!

(c) Adjon 95%-os konfidenciaintervallumot az egyenes meredekségére!

(d) Határozza meg a kapcsolat szorosságát!

(e) Adjon előrejelzést és konfidenciaintervallumot az eladási árra egyolyan lakásnál, ahol az előzetes értékbecslés x∗ = 290 volt!

98. Hogyan tudná visszavezetni lineáris regresszióra a következő görbeillesztésifeladatokat az (xi, yi), i = 1, . . . , n adatok alapján?

(a) y = bxa

(b) y = 2ax+b

(c) y = 1ax+b

64

Page 65: STATISZTIKA1 FELADATOK

13. feladatsor

Egyszempontos varianciaanalízis

99. Hogy egy kompakt lemez minőségét javítsák, négy külónböző bevonat(A,B,C,D) hatását vizsgálják a lejátszás minőségére. A következő ada-tokat kapták:

A : 10, 15, 8, 12, 15

B : 14, 18, 21, 15

C : 17, 16, 14, 15, 17, 15, 18

D : 12, 15, 17, 15, 16, 15

Kérdés: szignifikáns-e a különbség a négyféle kezelés közt a lejátszás mi-nőségének tekintetében (α = 0.05)?

Megoldás. Az egyszempontos ANOVA táblázat jelöléseivel: k = 4, n1 = 5,n2 = 4, n3 = 7, n4 = 6, n = 22; x1. = 12, x2. = 17, x3. = 16, x4. = 15 ésx.. = 15. Továbbá Qa = 68, Qe = 94. Ezért a próbastatisztika:

F =68/3

94/18= 4.34.

Mivel 4.34 > 3.16 = F0.05(3, 18), ezért 0.05 szignifikanciával elutasítjukH0-t, azaz szignifikáns a különbség a négyféle kezelés kózt.

100. Sandgrund et al., Americal Journal of Mental Deficiency 79(3) (1974),327-330 cikkében azt vizsgálta, hogy a gyerekkori bántalmazás ill. elha-nyagoltság befolyásolja-e a gyerekek IQ-ját. Ebből a célból 3 csoportottekintettek: az A ill. B csoportba olyan szociális gondozásban részesülőcsaládok gyerekei tartoztak, akiket bizonyíthatóan bántalmaztak ill. el-hanyagoltak. A C kontroll csoportba normál családi kórúlmények közöttélő gyerekek tartoztak, akik nem részesúltek szociális gondozásban. AzIQ-kra a következő adatokat kapták:

A : n1 = 32, x1. = 81.06, s1 = 17.05

B : n2 = 16, x2. = 78.56, s2 = 15.43

C : n3 = 16, x3. = 87.81, s3 = 14.36,

ahol

si =

∑nij=1(xij − xi.)2

ni − 1.

Kérdés: szignifikáns-e a különbség a három csoport közt az IQ tekintetében(α = 0.05)?

65