Upload
jeslyn
View
51
Download
1
Embed Size (px)
DESCRIPTION
Testování neparametrických hypotéz. Neparemetrické hypotézy. Hypotézy o vlastnostech populace (typ rozdělení, závislosti, …). Testy dobré shody (testy o shodě mezi výb . a teoret . rozdělením) Χ 2 – test dobré shody Kolmogorovův – Smirnovův test pro jeden výběr. - PowerPoint PPT Presentation
Citation preview
Testování neparametrických hypotéz
Neparemetrické hypotézy
Hypotézy o vlastnostech populace (typ rozdělení, závislosti, …)
Testy dobré shody(testy o shodě mezi výb. a teoret. rozdělením)
Χ2 – test dobré shodyKolmogorovův – Smirnovův test pro jeden výběr
Χ2 – test dobré shody
Volba H0
a) H0: Výběr pochází z populace, v níž jsou relativní četnosti jednotlivých variant rovny číslům, populace musí být roztříditelná podle nějakého znaku do k skupin.
a) H0: Výběr pochází z rozdělení určitého typu, jehož parametry jsou dány (úplně specifikovaný model).
b) H0: Výběr pochází z rozdělení určitého typu, přičemž neověřujeme informace o parametrech rozdělení, parametry modelu odhadujeme (neúplně specifikovaný model).
Χ2 – test dobré shody
Volba testové statistiky
n … rozsah výběru k … počet variant h … počet odhadovaných parametrů modelu ni … empirické četnosti jednotlivých variant π0,i … očekávané rel. četnosti jednotlivých variant
k
ihk
i
ii
n
nnGXT
1
21
,0
2,0
Χ2 – test dobré shody
Předpoklad testu
Očekávané četnosti musí být větší než 5 (alespoň 80% očekávaných četností musí být větších než 5)
k ..., 2, 1,i5,,0 in
Χ2 – test dobré shody
Výpočet p – value
)(1 0 OBSxFvaluep
Příklady
Litschmannová M., Statistika I. – cvičení,Testování neparam. hypotéz: 12.1 -12.3
Kolmogorovův-Smirnovův test pro jeden výběr
Používá se pro ověření hypotézy, zda pořízený výběr pochází z rozdělení se spojitou distribuční funkcí F(x).
F(x) musí být úplně specifikovaná.
Kolmogorovův-Smirnovův test pro jeden výběr
Výhody oproti X2 -testu dobré shody:
• větší síla testu • nemá omezující podmínky (lze použít při výběrech
malého rozsahu)• vychází z jednotlivých pozorování a nikoliv z údajů
setříděných do skupin
Kolmogorovův-Smirnovův test pro jeden výběr
H0 a HA:H0:
HA:
Testová statistika:
xFxF 0
0H
**2
*10 ,,,maxsup nn
xn DDDxFxFDXT
niproxFn
i
n
ixFD iii ,,2,1,
1max 00
*
Kolmogorovův-Smirnovův test pro jeden výběr
**2
*10 ,,,maxsup nn
xn DDDxFxFDXT
Stanovení Dn
-0,20
0,00
0,20
0,40
0,60
0,80
1,00
1,20
16 17 18 19 20 21 22 23
x
Fn(x
), Fo
(x)
Dn
Kolmogorovův-Smirnovův test pro jeden výběr
Nulové rozdělení: Speciální rozdělení pro tento test, kvantily tabelovány – viz. Tab. 5
Výpočet p-value
)(1 0 OBSxFvaluep
Příklady
Litschmannová M., Statistika I. – cvičení,Testování neparam. hypotéz: 12.4
Testy v kontingenční tabulce
X2 -test nezávislosti v kontingenční tabulce
(Testování závislosti dvou kategoriálních proměnných)
Co je to kontingenční tabulka?
Dvourozměrná tabulka četností, z jejichž hodnot můžeme usoudit na závislost či nezávislost mezi dvěma kategoriálními proměnnými
Grafický výstup pro analýzu závislosti dvou kategoriálních proměnných
• Shlukový sloupcový graf• Kumulativní sloupcový graf
• Mozaikový graf• 100% skládaný pruhový graf
(Lze použít k explorační analýze závislosti)
Shlukový sloupcový graf(Statgraphics)
Shlukový sloupcový graf(Excel)
Kumulativní sloupcový graf(Excel)
Mozaikový graf (Statgraphics)
100% skládaný pruhový graf(Excel)
Pojmy:
Pozorované (empirické) četnosti Oij (Observed frequency) – zjištěné sdružené četnosti
Očekávané (teoretické) četnosti Eij (Expected frequency) – sdružené četnosti očekávané za předpokladu nezávislosti proměnných (aneb platí-li H0)
Odchylky, rezidua (Deviation) – rozdíly mezi očekávanými a pozorovanými četnostmi = Eij-Oij
n
nnn
n
n
n
nnE jijiijij
....
Chí-kvadrát test nezávislosti v kontingenční tabulce
Ideální případ nezávislosti
Oij=Eij
aneb
Oij-Eij=0
i=1, …, m; j=1, …, n
:, ji
H0 a HA:
H0: Proměnné v kontingenční tabulce jsou nezávislé.
HA: Proměnné v kontingenční tabulce jsou závislé.
Testová statistika (Pearsonova statistika chí-kvadrát):
m … počet řádků kont. tabulkyn … počet sloupců kont. tabulky
Chí-kvadrát test nezávislosti v kontingenční tabulce
2
111
n
1 ij
2ijij
E
EO
nm
m
i j
G)X(T
Chí-kvadrát test nezávislosti v kontingenční tabulce
Předpoklady testu:
• Žádná očekávaná četnost nesmí klesnout pod 2• Alespoň 80% četností musí být větších než 5
Výpočet p-value
)x(Fvaluep OBS01
Rozšířená kontingenční tabulkaIntenzivní Standardní Celkem Vysvětlivky
Nezletilý 17764%63%155,521,53,0
9936%46%120,5-21,53,8
276 Empirické četnosti Eij
Řádkové rel. četnostiSloupcové rel. četnosti
Očekávané četnosti Oij
Odchylky (Eij-Oij)
(Eij-Oij)2/Oij
Zletilý 10347%37%124,5-21,53,7
11853%54%96,521,54,8
221 Empirické četnosti Eij
Řádkové rel.četnostiSloupcové rel. četnosti
Očekávané četnosti Oij
Odchylky (Eij-Oij)
(Eij-Oij)2/Oij
Celkem 280 217 497
Příklady
Litschmannová M., Statistika I. – cvičení,Testování neparam. hypotéz: 12.5
Yatesova korekce• Lze provést v případě, kdy nejsou splněny předpoklady chí-kvadrát
testu nezávislosti (extrémně nízké očekávané četnosti).• Snižuje pravděpodobnost chyby I. druhu, tím však snižuje sílu testu.
Testová statistika (Pearsonova statistika chí-kvadrát):
m, n … počet řádků (sloupců) kont. tabulky
Výpočet p-value:
2
111
n
1 ij
2ijij
E
50EO
nm
m
i j
,G)X(T
)x(Fvaluep OBS01
Fisherův exaktní test
• Užívá se v případě extrémně nízkých očekávaných četností.
• Lze použít pouze pro čtyřpolní tabulky.
• Určují se pravděpodobnosti výskytu všech možných obměn četností v kontingenční tabulce, které dávají stejné marginální četnosti jako tabulka zjištěných četností…
McNemarův test• Pouze pro čtyřpolní tabulky.• Test shody rozdělení pro závislé alternativní proměnné se stejnými
kódy.
Nulová a alternativní hypotéza:H0: Procenta „úspěšností“ jsou u obou veličin stejná.HA: Procenta „úspěšností“ nejsou u obou veličin stejná.
Testové kritérium:
Předpoklad testu:
Výpočet p-value:
21
2112
22112
nn
nn)X(T
4
22112
nn
OBSxFvaluep 1
Příklady
Litschmannová M., Statistika I. – cvičení,Testování neparam. hypotéz: 12.6