21
Porovnání dvou vzorků F-test a dvouvýběrový t-test (oba testy předpokládají normalitu dat)

Porovn ání dvou vzorků

  • Upload
    aoife

  • View
    37

  • Download
    4

Embed Size (px)

DESCRIPTION

Porovn ání dvou vzorků. F-test a dvouvýběrový t-test (oba testy předpokládají normalitu dat). Mám dva vzorky, a chci vědět, jestli se liší. Deset krys krmených standardní a deset krmených obohacenou stravou, na jednom roce zjišťuji váhu (nebo počet červených krvinek) - PowerPoint PPT Presentation

Citation preview

Page 1: Porovn ání dvou vzorků

Porovnání dvou vzorků

F-test a dvouvýběrový t-test

(oba testy předpokládají normalitu dat)

Page 2: Porovn ání dvou vzorků

Mám dva vzorky, a chci vědět, jestli se liší

• Deset krys krmených standardní a deset krmených obohacenou stravou, na jednom roce zjišťuji váhu (nebo počet červených krvinek)

• Mám x individuí jednoho a y individuí druhého druhu, a chci vědět, jestli se liší druhy délkami zobáků (a věřím, že jsou to náhodné výběry individuí daných druhů)

Page 3: Porovn ání dvou vzorků

Mám dva vzorky• Ty (jejich mateřská rozdělení) se mohou

lišit buď variancí nebo střední hodnotou

nebo obojím...I dva vzorky z téhož základního souboru se mi vždy budou lišit jak variancí, tak průměrem. Proto mě zajímá, jestli se dva vzorky liší tak moc, že je nepravděpodobné, že by byly vzaty z téhož základního souboru

Page 4: Porovn ání dvou vzorků

F-test - test shody variancí

H0: 12 = 2

2, alternativa HA: 12 2

2

Předpokládáme

(tj. určíme, který je vzorek 1, aby:

Kritická hodnota pro test na 5% je tedy 97.5% kvantil

numerator

denominator

d.f.

d.f.

POZOR – při prezentaci jakéhokoliv F-testu uvádím vždy df čitatele i df jmenovatele

Page 5: Porovn ání dvou vzorků

Hodnotu této plochy musím násobit dvěma, abych dostal dosaženou hladinu významnosti

Page 6: Porovn ání dvou vzorků

Příklad:

Kritická hodnota, závisí na dvojích stupních volnosti

Dvoustranný test na poměr variancí pro hypotézy H0: 1

2=22 a HA: 1

222

Data jsou počty můr chycených během noci jedenácti lapači jednoho nebo osmi lapači druhého typu.H0: 1

2=22

HA: 122

2

=0.05Lapač typu 1: 41, 34, 33, 36, 40, 25, 31, 37, 34, 30, 38Lapač typu 2: 52, 57, 62, 55, 64, 57, 56, 55n1 = 11, df1 = 10n2 = 8, df2 = 7s1

2 = 21.87 můr2 s22 = 15.36 můr2

F = 1.42F0.05(2),10,7 = 4.76Nezamítáme proto H0.P(F 1.42) > 0.50

Page 7: Porovn ání dvou vzorků

Pokud dojdu k názoru, že se variance neliší, můžu odhadnout

společnou varianci

21

21

21

222

2112

dfdfSSSS

dfdfsdfsdf

sp

Pro můry

sp2=(218.73 + 107.50) / (10 + 7) = 19.19 můr2.

Pozor, neprůkazný výsledek mohl ale být i slabým testem (když je málo pozorování)!

Page 8: Porovn ání dvou vzorků

Častěji než variance ale porovnáváme střední hodnoty

Testujeme nulovou hypotézu H0: 1 = 2 proti

alternativní HA: 1 2.

2

21

1 XXsXX

t

Klasický t-test

Rozdíl průměrů

Střední chyba rozdílu průměrů

Page 9: Porovn ání dvou vzorků

Střední chybu rozdílu průměrů spočítám pomocí odhadu společné variance s2

p

2

2

1

2

21 ns

ns

spp

XX

Předpokládám tedy homogenitu variancí

Výsledný vzorec potom je

2

2

1

2

21

ns

ns

XXt

pp

Page 10: Porovn ání dvou vzorků

Předpoklady t-testu tedy jsou

• Normalita dat (tj.data mají normální rozdělení v rámci každé skupiny)

• Homogenita variancí

• Pozor, nezávislost pozorovnání je předpokladem prakticky pro všechno (nebo ji musím v testu zohlednit), takže i tady

Page 11: Porovn ání dvou vzorků

Všimněte si, že velikost střední chyby klesá (a síla testu tak stoupá) s počty pozorování ve skupinách; máme-li konstantní celkový počet pozorování, pak je chyba nejmenší při stejné velikosti skupin. Na druhou stranu, stejná velikost skupin je výhodná, ale vůbec není nutná!!!

2

2

1

2

21 ns

ns

spp

XX

Page 12: Porovn ání dvou vzorků

Počet stupňů volnosti je součtem počtu stupňů volnosti pro oba výběry, tedy (n1-1) + (n2-1) = n1 + n2 - 2.

Page 13: Porovn ání dvou vzorků

Dvouvýběrový t-test pro oboustranné hypotézy H0: 1 = 2 a HA: 1 2 (které lze také vyjádřit jako H0: 1 - 2 = 0 a HA: 1 - 2 0). Data jsou sedimentační časy (v minutách) lidské krve po podání dvou různých léků (B, G).

Podán lék B: 8.8, 8.4, 7.9, 8.7, 9.1, 9.6Podán lék G: 9.9, 9.0, 11.1, 9.6, 8.7, 10.4, 9.5

n1 = 6 n2 = 7df1 = 5 df2 = 6X1= 8.75 min X2 = 9.74 minSS1= 1.6950 min SS2 = 4.0171 minsp

2 = 0.5193 min2

t0.05(2),=t0.05(2),11 = 2.201 Zamítáme proto H0.0.02 < P(t 2.475) < 0.05

Page 14: Porovn ání dvou vzorků

Dnes spíše najdeme plochu “ocásku” a (protože se jedná o dvoustranný test),

výsledek znásobíme dvěma.

tato plocha má velikost 0,0154 - platí tedy že

P=0.0308

Page 15: Porovn ání dvou vzorků

Pokud je narušena homogenita variancí, lze užít aproximaci

Welchovo přibližné t

tX X

s

n

s

n

1 2

21

1

22

2

s přibližným počtem stupňů volnosti

1

)(

1

)(

2

2

22

22

1

21

21

2

22

1

21 )(

nn

ns

ns

ns

ns

df

Existují i jiné aproximace t-testu pro různé variance

Page 16: Porovn ání dvou vzorků

Stejný počet pozorování v obou skupinách není předpokladem t-

testu• Ale robustnost testu vůči narušení

homogenity variancí klesá při výrazně nevyváženém počtu pozorování (a test na homogenitu bude zoufale slabý)

21

21

21

222

2112

dfdfSSSS

dfdfsdfsdf

sp

Page 17: Porovn ání dvou vzorků

Stejný počet pozorování v obou skupinách není předpokladem t-

testu• Také síla testu klesá s nevyvážeností skupin

2

2

1

2

21 ns

ns

spp

XX

Page 18: Porovn ání dvou vzorků

Narušení normality dat

• Do vzorce pro t-test vstupují průměry - tedy ony musí mít normální rozdělení

• Centrální limitní věta – průměry budou mít normální rozdělení, pokud budou založeny na velkém počtu pozorování

• S vzrůstajícím počtem pozorování roste nejen síla testu, ale i robustnost

Page 19: Porovn ání dvou vzorků

Podobně jako pro jednovýběrový (párový) t-test, i tady můžeme

provést jednostranný test

• Oboustranný test - testuji nulovou hypotézu H0: 1 = 2 proti alternativní HA: 1 2.

• Jednostranný test - testuji nulovou hypotézu H0: 1 > 2 proti alternativní HA: 1 < 2 (nebo opačným směrem)

Page 20: Porovn ání dvou vzorků

ROZLIŠUJ

• test jednostranný - oboustranný - jak formuluji nulovou hypotézu

• t-test jednovýběrový (párový) a dvouvýběrový - jaké je uspořádání pokusu nebo pozorování

Page 21: Porovn ání dvou vzorků

Párový vs. dvouvýběrový test