Testování neparametrických hypotéz

Testování neparametrických hypotéz

Neparemetrické hypotézy

Hypotézy o vlastnostech populace (typ rozdělení, závislosti, …)

Testy dobré shody(testy o shodě mezi výb. a teoret. rozdělením)

Χ2 – test dobré shodyKolmogorovův – Smirnovův test pro jeden výběr

Χ2 – test dobré shody

Volba H0

a) H0: Výběr pochází z populace, v níž jsou relativní četnosti jednotlivých variant rovny číslům, populace musí být roztříditelná podle nějakého znaku do k skupin.

a) H0: Výběr pochází z rozdělení určitého typu, jehož parametry jsou dány (úplně specifikovaný model).

b) H0: Výběr pochází z rozdělení určitého typu, přičemž neověřujeme informace o parametrech rozdělení, parametry modelu odhadujeme (neúplně specifikovaný model).


Volba testové statistiky

n … rozsah výběru k … počet variant h … počet odhadovaných parametrů modelu ni … empirické četnosti jednotlivých variant π0,i … očekávané rel. četnosti jednotlivých variant

k

ihk

i

ii

n

nnGXT

1

21

,0

2,0


Předpoklad testu

Očekávané četnosti musí být větší než 5 (alespoň 80% očekávaných četností musí být větších než 5)

k ..., 2, 1,i5,,0 in


Výpočet p – value

)(1 0 OBSxFvaluep

Příklady

Litschmannová M., Statistika I. – cvičení,Testování neparam. hypotéz: 12.1 -12.3

Kolmogorovův-Smirnovův test pro jeden výběr

Používá se pro ověření hypotézy, zda pořízený výběr pochází z rozdělení se spojitou distribuční funkcí F(x).

F(x) musí být úplně specifikovaná.


Výhody oproti X2 -testu dobré shody:

• větší síla testu • nemá omezující podmínky (lze použít při výběrech

malého rozsahu)• vychází z jednotlivých pozorování a nikoliv z údajů

setříděných do skupin


H0 a HA:H0:

HA:

Testová statistika:

xFxF 0

0H

**2

*10 ,,,maxsup nn

xn DDDxFxFDXT

niproxFn

i

n

ixFD iii ,,2,1,

1max 00

*


**2

*10 ,,,maxsup nn

xn DDDxFxFDXT

Stanovení Dn

-0,20

0,00

0,20

0,40

0,60

0,80

1,00

1,20

16 17 18 19 20 21 22 23

x

Fn(x

), Fo

(x)

Dn


Nulové rozdělení: Speciální rozdělení pro tento test, kvantily tabelovány – viz. Tab. 5

Výpočet p-value

)(1 0 OBSxFvaluep

Příklady

Litschmannová M., Statistika I. – cvičení,Testování neparam. hypotéz: 12.4

Testy v kontingenční tabulce

X2 -test nezávislosti v kontingenční tabulce

(Testování závislosti dvou kategoriálních proměnných)

Co je to kontingenční tabulka?

Dvourozměrná tabulka četností, z jejichž hodnot můžeme usoudit na závislost či nezávislost mezi dvěma kategoriálními proměnnými

Grafický výstup pro analýzu závislosti dvou kategoriálních proměnných

• Shlukový sloupcový graf• Kumulativní sloupcový graf

• Mozaikový graf• 100% skládaný pruhový graf

(Lze použít k explorační analýze závislosti)

Shlukový sloupcový graf(Statgraphics)

Shlukový sloupcový graf(Excel)

Kumulativní sloupcový graf(Excel)

Mozaikový graf (Statgraphics)

100% skládaný pruhový graf(Excel)

Pojmy:

Pozorované (empirické) četnosti Oij (Observed frequency) – zjištěné sdružené četnosti

Očekávané (teoretické) četnosti Eij (Expected frequency) – sdružené četnosti očekávané za předpokladu nezávislosti proměnných (aneb platí-li H0)

Odchylky, rezidua (Deviation) – rozdíly mezi očekávanými a pozorovanými četnostmi = Eij-Oij

n

nnn

n

n

n

nnE jijiijij

....

Chí-kvadrát test nezávislosti v kontingenční tabulce

Ideální případ nezávislosti

Oij=Eij

aneb

Oij-Eij=0

i=1, …, m; j=1, …, n

:, ji

H0 a HA:

H0: Proměnné v kontingenční tabulce jsou nezávislé.

HA: Proměnné v kontingenční tabulce jsou závislé.

Testová statistika (Pearsonova statistika chí-kvadrát):

m … počet řádků kont. tabulkyn … počet sloupců kont. tabulky


2

111

n

1 ij

2ijij

E

EO

nm

m

i j

G)X(T


Předpoklady testu:

• Žádná očekávaná četnost nesmí klesnout pod 2• Alespoň 80% četností musí být větších než 5

Výpočet p-value

)x(Fvaluep OBS01

Rozšířená kontingenční tabulkaIntenzivní Standardní Celkem Vysvětlivky

Nezletilý 17764%63%155,521,53,0

9936%46%120,5-21,53,8

276 Empirické četnosti Eij

Řádkové rel. četnostiSloupcové rel. četnosti

Očekávané četnosti Oij

Odchylky (Eij-Oij)

(Eij-Oij)2/Oij

Zletilý 10347%37%124,5-21,53,7

11853%54%96,521,54,8

221 Empirické četnosti Eij

Řádkové rel.četnostiSloupcové rel. četnosti

Očekávané četnosti Oij

Odchylky (Eij-Oij)

(Eij-Oij)2/Oij

Celkem 280 217 497

Příklady


Yatesova korekce• Lze provést v případě, kdy nejsou splněny předpoklady chí-kvadrát

testu nezávislosti (extrémně nízké očekávané četnosti).• Snižuje pravděpodobnost chyby I. druhu, tím však snižuje sílu testu.

Testová statistika (Pearsonova statistika chí-kvadrát):

m, n … počet řádků (sloupců) kont. tabulky

Výpočet p-value:

2

111

n

1 ij

2ijij

E

50EO

nm

m

i j

,G)X(T

)x(Fvaluep OBS01

Fisherův exaktní test

• Užívá se v případě extrémně nízkých očekávaných četností.

• Lze použít pouze pro čtyřpolní tabulky.

• Určují se pravděpodobnosti výskytu všech možných obměn četností v kontingenční tabulce, které dávají stejné marginální četnosti jako tabulka zjištěných četností…

McNemarův test• Pouze pro čtyřpolní tabulky.• Test shody rozdělení pro závislé alternativní proměnné se stejnými

kódy.

Nulová a alternativní hypotéza:H0: Procenta „úspěšností“ jsou u obou veličin stejná.HA: Procenta „úspěšností“ nejsou u obou veličin stejná.

Testové kritérium:

Předpoklad testu:

Výpočet p-value:

21

2112

22112

nn

nn)X(T

4

22112

nn

OBSxFvaluep 1

Příklady


Documents

Testování neparametrických hypotéz