View
269
Download
10
Category
Preview:
Citation preview
Katedra za medicinsku
statistiku i informatiku ∑
Statističko zaključivanje -testiranje hipoteza
Katedra za medicinsku
statistiku i informatiku ∑
Statističko zaključivanje
• Ideja moderne statistike je da na osnovu uzorka (dobijenog uzorkovanjem iz osnovnog skupa) donosimo zaključke o populaciji (statističko zaključivanje).
1. Kako da korišćenjem podataka iz uzorka ocenimo vrednost populacionog parametra? i
2. Kako da korišćenjem uzoračkih statistika testiramo (proverimo) iskaz o populaciji (populacionim parametrima)?
Katedra za medicinsku
statistiku i informatiku ∑
Testiranje hipoteza / osnovni pojmovi i
procedura Statistička hipoteza je
iskaz ili pretpostavka o populaciji.
• Primeri hipoteza: Iskustvo govori da je verovatnoća da je pod određenim uslovima broj novorođenih devojčica i dečaka isti; Lekari tvrde da prosečna telesna temperatura zdravih osoba nije 37%C; …
• Testiranje hipoteza je standardni statistički metod kojim se ispituje neki iskaz / tvrdnja / pretpostavka o populaciji.
Katedra za medicinsku
statistiku i informatiku ∑
Koraci
1. Hipoteze
2. Izbor nivoa značajnosti
3. Izbor test statistike
4. Izračunavanje statistike testa
5. Statistički zaključak
Katedra za medicinsku
statistiku i informatiku ∑
Hipoteze
Nulta hipoteza ili hipoteza koja se ovim procesom testira (Ho) - hipoteza o nepostojanju razlike
• H0: 1= 2
• H1: 1 2
Alternativna hipoteza – iskaz o onome što istraživač veruje da je tačno u slučaju da su uzorački podaci doveli do odbacivanja nulte hipoteze (H1)
• Jednosmerna (>, <)
• Dvosmerna ()
Katedra za medicinsku
statistiku i informatiku ∑
Izbor nivoa značajnosti
• nivo značajnosti (α nivo) -
maksimalno dozvoljena verovatnoća greške prvog tipa - odbacivanje tačne nulte hipoteze
• verovatnoća greške prvog tipa je pod direktnom kontrolom istraživača
• najčešće:
α =0.05 i 0.01
Katedra za medicinsku
statistiku i informatiku ∑
Izbor Test statistike
• bilo koja statistika koja može biti izračunata iz dostupnih podataka u uzorku
• Služi kao kriterijum za donošenje odluke (odluka o odbacivanju ili neodbacivanju nulte hipoteze zavisi od veličine izračunate statistike)
• tip podataka
• iskazi o populacionim parametrima i
• broj grupa / uzoraka
• Parametarski testovi
• Neparametarski testovi
Katedra za medicinsku
statistiku i informatiku ∑
Izračunavanje statistike testa
• Izračunavanje vrednosti test statistike iz dostupnih podataka i poredjenje sa regionom prihvatanja i odbacivanja koji su već definisani
Katedra za medicinsku
statistiku i informatiku ∑
Statistički zaključak
• Ključ statističkog zaključivanja je uzoračka raspodela: – Vrednosti test statistike koje
imaju manju šansu pojavljivanja kada je nulta hipoteza tačna – region odbacivanja
– Vrednosti test statistike koje imaju veću šansu pojavljivanja kada je nulta hipoteza tačna – region prihvatanja
• Odluka o tome koje vrednosti pripadaju jednom, a koje drugom regionu, donosi se na osnovu izabranog nivoa značajnosti (α)
Katedra za medicinsku
statistiku i informatiku ∑
Statistički zaključak
• Nulta hipoteza se odbacuje ako je izračunata vrednost test statistike u regionu odbacivanja. U suprotnom, ne odbacuje se.
• poređenje izračunate (empirijske) statistike testa i kritične (teorijske) vrednosti
• ako je p-vrednost jednaka ili manja od α, odbacujemo nultu hipotezu. Ako je p vrednost veća od α, ne odbacujemo nultu hipotezu.
• p-vrednost predstavlja verovatnoću opserviranih, ili ekstremnijih, razlika uzoračkih statistika, pod pretpostavkom važenja nulte hipoteze
Katedra za medicinsku
statistiku i informatiku ∑
0.95
Kritična vrednost
Kritična vrednost
2 2
Testiranje hipoteza
Katedra za medicinsku
statistiku i informatiku ∑
Greške • Greška I tipa (α) je verovatnoća odbacivanja tačne
nulte hipoteze
• Greška II tipa (β) – neodbacivanje netačne nulte hipoteze
Istina (populacija)
Odluka na osnovu analize uzoračkih podataka
Nulta hipoteza tačna Nulta hipoteza netačna
Prihvatanje nulte hipoteze
1-
greška drugog tipa
Odbacivanje nulte hipoteze
greška prvog tipa
1-
Katedra za medicinsku
statistiku i informatiku ∑
Greške u zaključivanju
• Greška prvog tipa – odbacivanje tačne nulte hipoteze.
• Greška drugog tipa – neodbacivanje pogrešne nulte hipoteze.
• Istovremeno se može napraviti samo jedan tip greške.
• Greške prvog i drugog tipa su zavisne. Smanjenje verovatnoće greške prvog tipa dovodi do povećanja verovatnoće greške drugog tipa, i obrnuto.
• Verovatnoća greške prvog tipa je pod direktnom kontrolom istraživača tako što unapred određuje maksimalno dozvoljenu verovatnoću greške prvog tipa - nivo značajnosti (α nivo).
• Povećanje uzorka uopšteno smanjuje verovatnoću oba tipa grešaka.
• Verovatnoća greške drugog tipa se smanjuje sa povećanjem razlike aritmetičkih sredina koju treba otkriti.
• Snaga ili moć (1-) statističkog testa je verovatnoća odbacivanja nulte hipoteze kada je alternativna hipoteza tačna.
Katedra za medicinsku
statistiku i informatiku ∑
Parametarski statistički testovi
• Bazirani su na ocenama jednog ili više populacionih parametara (npr. aritmetička sredina i standardna devijacija) dobijenih na osnovu uzoračkih podataka.
• Koriste se za testiranje hipoteza o populacionim parametrima (npr. o jednakosti aritmetičkih sredina dve populacije μ1=μ2).
• Pretpostavljaju normalnost raspodele u osnovnom skupu.
• z-test • t-test
Katedra za medicinsku
statistiku i informatiku ∑
Provera normalnosti raspodele
1. CV>30% ukazuje na odstupanje od normalne raspodele
2. Vrednosti skjunisa i kurtosisa od -1 do 1 ukazuju na normalnu raspodelu. Vrednosti skjunisa i kurtosisa veće od 3 i manje od -3 ukazuju na odstupanje od normalne raspodele.
3. Statističko testiranje normalnosti npr. Kolmogorov-Smirnov test, Shapiro-Wilk test ili D'Agostino-Pearson test. Ako je p<0.05 u ovim testovima, empirijska raspodela statistički značajno odstupa od normalne raspodele
Grafičke metode: 4. Histogram – vizuelna procena da li je
empirijska raspodela slična zvonastoj simetričnoj raspodeli
5. Normalni Q–Q grafikon. Ako je raspodela normalna tačke će biti na pravoj liniji. Odstupanje tačaka od prave linije ukazuje na odstupanje raspodele od normalne.
6. Detrendovan normalni Q–Q grafikon. Ako je raspodela normalna tačke će biti ravnomerno raspoređene iznad i ispod horizontalne linije. Ako raspodela nije normalna raspored tačaka će imati neki oblik kao npr. slovo J
7. Grafikon kutije (“boxplot”). Ako postoji nekoliko ekstremnih vrednosti ili neobičnih vrednosti na bilo kom kraju raspodele to ukazuje na odstupanje od normalne raspodele. Ako medijana nije u centru grafikona kutije već je znatno bliža jednom od krajeva kutije, to ukazuje na odstupanje od normalne raspodele
Katedra za medicinsku
statistiku i informatiku ∑
Oblik empirijske raspodele
• Osnovne informacije o obliku empirijske raspodele se mogu dobiti iz grafičkih prikaza (histogram, poligon frekvencija, štapićasti dijagrm, stubičasti dijagram)
• Oblik se obično klasifikuje kao unimodalan, bimodalan ili multimodalan. Unimodalan oblik može biti simetričan ili asimetričan (pozitivno ili desno iskošen, negativno ili levo iskošen).
1
34
56
911
12
16
1817
14
11
8
54
32 2
1
0
5
10
15
20
1 2 3 4 5 6 7 8 910
11
12
13
14
15
16
17
18
19
20
Učestalost
1
3
7
12
18
13
9
4
21 1
3
6
11
18
1210
4
21
0
5
10
15
20
1 2 3 4 5 6 7 8 910
11
12
13
14
15
16
17
18
19
20
Učestalost
Unimodalna raspodela Bimodalna raspodela
Katedra za medicinsku
statistiku i informatiku ∑
Asimetričan oblik raspodele
Vrednost skjunisa veća od 1 ukazuje na desnu iskošenost, a vrednost manja od -1 na levu iskošenost
Desna iskošenost Leva iskošenost
Katedra za medicinsku
statistiku i informatiku ∑
“Zašiljenost” / “zaravnjenost” raspodele
• Vrednosti kurtosisa veće od 1 ukazuju na šiljatu raspodelu, a manje od -1 ukazuju na zaravnjenu raspodelu
Mezokurtična Leptokurtična Platikurtična
“Zašiljena” “Zaravnjena”
Katedra za medicinsku
statistiku i informatiku ∑
Testiranje hipoteza o populacionim prosečnim vrednostima i proporcijama
• z-test • Varijanse osnovnih
skupova poznate, ili
• Varijanse osnovnih skupova nepoznate, uzorci veliki (n1>30, n2>30)
• z statistika
• standardna normalna raspodela
• t-test • Varijanse osnovnih
skupova nepoznate, uzorci mali (n130, n230)
• t-statistika
• t-raspodela
Katedra za medicinsku
statistiku i informatiku ∑
Z-test
• Testiranje značajnosti razlike uzoračke i populacione aritmetičke sredine i proporcije (jedan uzorak)
n
xz
0
n
pz
0
Katedra za medicinsku
statistiku i informatiku ∑
Z-test
• Testiranje hipoteza o populacionim prosečnim vrednostima i proporcijama dva nezavisna uzorka
• Testiranje hipoteza o populacionim prosečnim vrednostima i proporcijama, zavisni uzorci
1 2
2 2
1 2
1 2
x xz
sd sd
n n
1 2
1 1 2 2
1 2
(1 ) (1 )
p pz
p p p p
n n
n
dz
d
d
Katedra za medicinsku
statistiku i informatiku ∑
1 2
1 1 2 2
1 2
(1 ) (1 )
p pz
p p p p
n n
Testiranje razlike dve uzoračke proporcije
p – proporcija posmatranog događaja
Primer: Registrovani su neželjeni efekti lekova A i B. U grupi od 107 pacijenta koji su primali lek A neželjeni efekti su registrovani kod 38. U grupi od 155 pacijenta koji su primali lek B neželjeni efekti su registrovani kod 73. Da li se lekovi značajno razlikuje prema učestanosti neželjenih efekata?
1
380.355
107p 2
730.470
155p
0.355 0.4701.88
0.355(1 0.355) 0.470(1 0.470)
107 155
z
Kritična vrednost z testa za nivo značajnosti od 0.05 je 1.96. Vrednost 1.88 je manja od kritične vrednosti pa se ne može odbaciti nulta hipoteza. Razlika nije statistički značajna (z=1.88, p>0.05)
Katedra za medicinsku
statistiku i informatiku ∑
t-test (Studentov t test)
• pretpostavka za primenu t-testa je da podaci potiču iz populacija sa normalnom raspodelom, robustan je na blagu narušenost ove pretpostavke
• Testiranje hipoteze o jednakosti aritmetičkih sredina (H0: μ1=μ2)
• Test je baziran na t raspodeli
Katedra za medicinsku
statistiku i informatiku ∑
t-test
• Testiranje značajnosti razlike uzoračke i populacione aritmetičke sredine (jedan uzorak)
broj stepena slobode: DF = n - 1
n
sd
x
sd
xt
x
00
Katedra za medicinsku
statistiku i informatiku ∑
t-test
• Primer: Aritmetička sredina broja
leukocita 9 bolesnika je 12.2109/L, a standardna devijacija sd=1.9109/L. Očekivalo se da će aritmetička sredina biti 9.1109/L. Da li se dobijene vrednosti razlikuju od očekivanih (H0:1=0, H1: 10)? Testirati na nivou značajnosti 0.05.
• Kritična vrednost u tablici t raspodele za DF = 8 i nivo značajnosti 0.05 je 2.306. Statistika testa (4.897) je veća od kritične vrednosti.
• Zaključak: Odbacuje se nulta hipoteza. Vrednosti leukocita su statistički značajno veće od očekivanih (t = 4.897, DF = 8, p 0.05)
1.90.633
9x
sdsd
n
12.2 9.14.897
0.633x
xt
sd
Katedra za medicinsku
statistiku i informatiku ∑
t-test
Primer : Aritmetička sredina sistolne arterijske tenzije 10
bolesnika sa akutnim koronarnim sindromom iznosi 139
mmHg, a standardna devijacija sd=11,9 mmHg. Na osnovu
prethodnih istraživanja očekivalo se da će aritmetička
sredina za tu populaciju bolesnika iznositi 145 mmHg. Da li
se može reći da populacija iz koje potiče aktuelni uzorak
ima aritmetičku sredinu jednaku očekivanoj? Testirati na
nivou značajnosti od 0.05.
Katedra za medicinsku
statistiku i informatiku ∑
Zaključak: Dobijena p-vrednost veća je od 0,05 pa zaključujemo da se vrednost aritmetičke sredine sistolne arterijske tenzije populacije iz koje potiče uzorak ne razlikuje od očekivanih vrednosti (t=1,585; DF=9, p=0,147).
Katedra za medicinsku
statistiku i informatiku ∑
t-test
• Testiranje hipoteza o populacionim prosečnim vrednostima dva nezavisna uzorka
1 2
1 22 2
1 1 2 2 1 2
1 2 1 2
, DF= 2( 1) ( 1)
2
x xt n n
n sd n sd n n
n n n n
Katedra za medicinsku
statistiku i informatiku ∑
x1 x12
x2 x22
15 225 16 256
17 289 14 196
20 400 17 289
14 196 15 225
19 361 18 324
17 289 17 289
18 324 16 256
19 361
139 2445 113 1835
Primer: Dve grupe ispitanika lečene su različitim tretmanima. Sedimentacija eritrocita (mm/h) iznosila je: prva grupa: 15, 17, 20, 14, 19, 17, 18, 19 druga grupa: 16, 14, 17, 15, 18, 17, 16 Da li je značajna razlika prosečnih vrednosti sedimentacije između ove dve grupe? Testirati na nivou značajnosti 0.05.
Katedra za medicinsku
statistiku i informatiku ∑
1
1
1
13917.38 mm/h
8
xx
n
2 2 2
1
2445 8 17.382.07
1 8 1
x n xsd
n
2 2 2
2
1835 7 16.141.35
1 7 1
x n xsd
n
2 2
17.38 16.14=1.35,
(8 1) 2.07 (7 1) 1.35 1 1
8 7 2 8 7
DF=8 7 2 13
t
Kritična vrednost u tabeli t raspodele za DF = 13, nivo značajnosti 0.05 i dvosmerno testiranje je 2.160. Statistika testa (1.35) je manja od kritične vrednosti. Ne odbacuje se nulta hipoteza. Zaključak: Razlika prosečnih vrednosti sedimentacije eritrocita nije statistički značajna (t=1.35, DF=13, p>0.05).
2
2
2
11316.14 mm/h
7
xx
n
Katedra za medicinsku
statistiku i informatiku ∑
Zaključak: Aritmetička sredina i standardna devijacija sedimentacije eritrocita u Tretmanu A iznosi 17,4±2,1 mm/h, a u Tretmanu B iznosi 16,1±1,3 mm/h. Ne postoji statistički značajna razlika prema sedimentaciji eritrocita između ispitivanih grupa (t=1.345, DF=13, p=0.201).
Katedra za medicinsku
statistiku i informatiku ∑
t-test
• Testiranje hipoteza o populacionim prosečnim vrednostima, zavisni uzorci • registrovanje vrednosti
jednog obeležja na istim jedinicama dva ili više puta
• mečovana kontrolna grupa
• H0: μd = 0
• H0: μd 0
DF=n – 1,
n - broj parova podataka
)1(
2
2
nn
n
dd
dt
Katedra za medicinsku
statistiku i informatiku ∑
Neparametarski statistički testovi • Ne zahtevaju poznavanje oblika
raspodele u osnovnom skupu i normalnost raspodele
• Ne zahtevaju homogenost u smislu varijabiliteta
• Neparametarski testovi mogu biti primenjeni u svim uslovima u kojima nisu ispunjene pretpostavke za primenu parametarskih testova. Takođe mogu biti primenjeni i u uslovima kada jesu ispunjene pretpostavke za primenu parametarskih testova, ali tada prednost treba dati parametarskim testovima jeru su oni snažniji.
• Za svaki parametarski test postoji najmanje jedan ekvivalentan neparametarski test
Katedra za medicinsku
statistiku i informatiku ∑
Testiranje hipoteza o učestalostima
• Hi – kvadrat test
• Test tačne verovatnoće
• McNemarov test
• broj uzoraka
• nezavisni/zavisni uzorci
Katedra za medicinsku
statistiku i informatiku ∑
Hi-kvadrat test
• najčešće korišćen statistički test
• procenjuje se značajnost razlike opaženih (empirijskih) i očekivanih (teorijskih) učestalosti
• baziran je na hi-kvadrat raspodeli
• apsolutne učestalosti (frekvencije)
• statistika hi-kvadrat testa
• f opažena,
• f' očekivana učestalost
f
ff 22 )(
Katedra za medicinsku
statistiku i informatiku ∑
Hi-kvadrat test
• Ukoliko je hi-kvadrat statistika jednaka ili veća od odgovarajuće granične vrednosti, odbacujemo nultu hipotezu i zaključujemo da je razlika opaženih i očekivanih učestalosti statistički značajna.
• test slaganja
• test nezavisnosti ili test homogenosti
Katedra za medicinsku
statistiku i informatiku ∑
hi-kvadrat test slaganja
• testiramo hipotezu da li se učestalosti u populaciji, opažene i predstavljene uzorkom, razlikuju od očekivanih učestalosti
• jedan uzorak, jedna varijabla • očekivane učestalosti određene
su na osnovu ranijih istraživanja, pretpostavljenog modela raspodele posmatrane varijable ili pretpostavljene na neki drugi način
• DF = r – 1, r- broj kategorija
• uslovi za primenu testa slaganja: • apsolutne učestalosti • uzorak čine nezavisne
opservacije, odnosno svaka opservacija može biti samo jednom pobrojana u učestalostima
• u slučaju postojanja samo dve kategorije (r=2), nijedna očekivana frekvencija ne sme biti manja od 5
• u slučaju postojanja više od dve kategorije (r>2), ne sme biti više od 20% očekivanih učestalosti manjih od 5. Ako nije zadovoljen ovaj uslov mora se izvršiti sažimanje susednih kategorija
Katedra za medicinsku
statistiku i informatiku ∑
Primer: Ispitivana je učestalost krvnih grupa u određenoj populaciji. Na slučajnom uzorku od 140 osoba, nađeno je da krvnu grupu O ima 55 osoba, krvnu grupu A 59 osoba, krvnu grupu B 19 osoba i krvnu grupu AB 7 osoba. Na osnovu ranijih istraživanja poznato je da je relativna učestalost tih krvnih grupa: O – 44.5%, A – 38.9%, B – 12.1%, AB – 4.5%. Da li se aktuelne učestalosti krvnih grupa razlikuju od očekivanih? Testirati na nivou značajnosti od 0.05.
Katedra za medicinsku
statistiku i informatiku ∑
krvna grupa f f'
O 55 140 0.445 = 62.30 (55 – 62.3)2/62.3 = 0.855
A 59 140 0.389 = 54.46 0.378
B 19 140 0.121 = 16.94 0.251
AB 7 140 0.045 = 6.30 0.078
Ukupno 140 140.00 2 = 1.562
Očekivane frekvencije (f') u ovom slučaju dobijamo tako što totalnu frekvenciju (140) množimo sa očekivanim proporcijama krvnih grupa. Radna tabela
f
ff
2)(
DF = 4 – 1 = 3. Hi-kvadrat statistika (1.56) manja je od granične vrednosti (7.82) za DF = 3 i nivo značajnosti 0.05, pa nema osnova za odbacivanje nulte hipoteze. Zaključak: učestalost krvnih grupa u našem istraživanju ne razlikuje se statistički značajno od očekivanih na osnovu prethodnih istraživanja (χ2= 1.562, DF = 3, p > 0.05).
Katedra za medicinsku
statistiku i informatiku ∑
Hi-kvadrat test za r x k tabele
• testiranje hipoteza kada su podaci organizovani u vidu tabela kontingencije
• tabela kontingencije je složena kombinovana tabela u kojoj raspodela zavisi od dve varijable
• Zavisno od cilja istraživanja i načina biranja uzorka, analizom tabela kontingencije možemo testirati
1. nezavisnost dve varijable ili
2. homogenost dve populacije
Katedra za medicinsku
statistiku i informatiku ∑
Hi-kvadrat test nezavisnosti
• ispitujemo da li u tabeli kontingencije raspodela po jednoj varijabli uslovno zavisi od raspodele po drugoj varijabli
• Nultom hipotezom tvrdimo da su varijable nezavisne, odnosno da raspodela po jednoj varijabli ne zavisi od raspodele po drugoj varijabli.
• U slučaju da nultu hipotezu odbacimo, zaključujemo da varijable nisu nezavisne, odnosno da između njih postoji povezanost (asocijacija, korelacija).
Katedra za medicinsku
statistiku i informatiku ∑
Patološki nalaz na jetri
Svega + –
Konzumiranje
alkohola
+ 10 16 26
– 13 79 92
Ukupno 23 95 118
Primer. Cilj u studiji preseka bio je ispitivanje odnosa konzumiranja alkohola i patološkog nalaza na jetri. Formiran je slučajan uzorak, veličine 118 ispitanika, iz opšte populacije odraslih osoba. Rezultati su prikazani u tabeli kontingencije:
U ovom istraživanju biran je samo jedan uzorak sa unapred predviđenom veličinom, pa je u tabeli kontingencije pod kontrolom bila samo totalna učestalost (118). Istraživač nije imao pod kontrolom marginalne učestalosti, jer pre istraživanja nije znao koliko će u uzorku biti konzumenata alkohola, niti koliko će biti osoba sa patološkim nalazom na jetri. Analizom ovakve tabele kontingencije istraživač može doći do zaključka o tome da li su ove dve varijable povezane na neki način, na primer da li postoji tendencija da oni koji konzumirju alkohol češće imaju patološki nalaz na jetri.
Katedra za medicinsku
statistiku i informatiku ∑
Hi-kvadrat test homogenosti
• Ispitujemo da li se dve ili više populacija razlikuju prema proporciji događaja od interesa.
• Nultom hipotezom tvrdimo da su proporcije u populacijama jednake.
• U slučaju da nultu hipotezu odbacimo, zaključujemo da populacije nisu homogene prema proporciji događaja od interesa.
• Istraživač kontroliše marginalne učestalosti, koje odgovaraju veličini uzorka iz svake od populacija, pa samim tim i totalnu učestalost.
Katedra za medicinsku
statistiku i informatiku ∑
Patološki nalaz na
jetri
Svega + –
Konzumiranje
alkohola
+ 31 36 67
– 29 68 97
Ukupno 60 104 164
Primer . Cilj u studiji slučaj-kontrola bio je ispitivanje konzimranja alkohola kao faktora rizika za patološke promene na jetri. Iz populacije osoba sa patološkim promenama na jetri formiran je slučajan uzorak veličine 60, a iz populacije uslovno zdravih slučajan uzorak veličine 104. Kod svih ispitanika zabeležen je anamnestički podataka o konzumiranju alkohola. Rezultati su prikazani u tabeli kontingencije:
U ovom istraživanju birana su dva uzorka, što znači da su u tabeli kontingencije pod kontrolom istraživača bile marginalne učestalosti koje odgovaraju uzorku osoba sa patološkim promenama (60) i uslovno zdravih (104), a samim tim pod kontrolom je bila i tolalna učestalost (164). Analizom ovakve tabele kontingencije istraživač može uporediti proporcije konzumenata alkohola u ispitivanim populacijama. Ukoliko nađe da populacije nisu homogene, na primer da je proporcija konzumenata alkohola veća u populaciji osoba sa patološkim promenama, može doneti zaključak da je konzumiranje alkohola faktor rizika za nastanak patoloških promena na jetri.
Katedra za medicinsku
statistiku i informatiku ∑
Testiranje nezavisnosti i homogenosti hi-kvadrat testom
• očekivane učestalosti izračunavaju se množenjem odgovarajućih marginalnih učestalosti i deljenjem sa totalnom učestalošću
• za tabelu kontingencije 2 x 2 očekivane učestalosti izračunavaju se pomoću formula:
f'a = (a + b) x (a + c) / N
f'b = (a + b) x (b + d) / N
f'c = (c + d) x (a + c) / N
f'd = (c + d) x (b + d) / N
• N je totalna učestalost u tabeli kontingencije
• broj stepena slobode DF = (r–1)(k–1)
a b a + b
c d c + d
a + c b + d N
f
ff 22 )(
Katedra za medicinsku
statistiku i informatiku ∑
Uslovi za primenu hi kvadrat testa su:
• Za tabelu 2 x 2:
• Kada je N > 40 test se može upotrebiti ako su sve očekivane frekvencije 1
• Kada je N od 20 do 40 test se može upotrebiti ako su sve očekivane frekvencije 5
• Kada je N < 20 test se ne može upotrebiti
• Za tabelu veću od 2 x 2:
• nijedna očekivana učestalost ne sme biti manja od 1, i ne sme biti više od 20% očekivanih učestalosti manjih od 5. Ako nije zadovoljen ovaj uslov mora se izvršiti sažimanje susednih kategorija
Katedra za medicinsku
statistiku i informatiku ∑
Akutna respiratorna
infekcija
Svega + –
Pušenje
(cigareta/d)
0 21 64 85
do 20 28 45 73
preko 20 31 37 68
Ukupno 80 148 226
Cilj u istraživanju bio je ocena povezanosti pušenja i oboljevanja od akutnih respiratornih infekcija u toku zime. Nađeno je: od 85 nepušača obolela je 21 (25%) osoba, od 73 pušača sa popušenih do 20 cigareta dnevno obolelo je 28 (38%) osoba, od 68 pušača sa popušenih preko 20 cigareta dnevno obolela je 31 (46%) osoba. Da li je pušenje povezano sa oboljevanjem od akutnih respiratornih infekcija? Testirati na nivou znašajnosti od 0.05. Tabela opaženih učestalosti
Katedra za medicinsku
statistiku i informatiku ∑
Polje tabele f f (f - f )2/ f
a
21 30.09 2.75
b 64
54.91 1.50
c 28
25.84 0.18
d 45
47.16 0.10
e 31
24.07 1.99
f 39
43.93 1.09
χ2 = 7.62
DF = (3 – 1) x (2 – 1) = 2 Dobijena hi-kvadrat statistika (7.65) veća je od granične vrednosti (5.99) za DF = 2 i nivo značajnosti od 0.05. Oboljevanje od akutnih respiratornih infekcija u toku zime je statistički značajno povezano sa pušenjem (hi-kvadrat = 7.65, DF = 2, p ≤ 0.05).
Katedra za medicinsku
statistiku i informatiku ∑
Akutna respiratorna
infekcija
Svega + –
Pušenje
(cigareta/d)
0 3 17 20
do 20 6 8 14
preko 20 5 4 9
Ukupno 14 29 43
Radi se o istom istraživanju, ali ovog puta sa manjim učestalostima zbog čega će biti izvršeno sažimanje susednih kategorija. Opažene učestalosti prikazane su u tabeli:
Katedra za medicinsku
statistiku i informatiku ∑
Akutna respiratorna
infekcija
Svega + –
Pušenje Nepušači 3 17 20
Pušači 11 12 23
Ukupno 14 29 43
U tabeli tri ćelije imaju očekivane učestalosti manje od 5. To su učestalosti 4.56, 2.93 i 6.07. Zbog toga što je broj tih ćelija veći od 20% (2 / 6 = 33,3%) moramo izvršiti sažimanje susednih kategorija. Sabraćemo redove sa pušačima. Tako umesto tabele 3 x 2 dobijamo tabelu kontingencije dimenzija 2 x 2:
Iz ove tabele izračunavanjem dobijamo hi-kvadrat statistiku od 5.25, koja je veća od granične vrednosti (3.84) za DF = 1 i nivo značajnosti od 0.05. Oboljevanje od akutnih respiratornih infekcija u toku zime je statistički značajno povezano sa pušenjem (hi-kvadrat = 5.25, DF = 1, p ≤ 0.05).
Katedra za medicinsku
statistiku i informatiku ∑
Fisherov test tačne verovatnoće
• alternativa hi-kvadrat testu za
tabele r k, može se koristiti uvek, bez obzira na učestalosti u tabelama kontingencije, pa i u slučajevima kada se ne može koristiti hi-kvadrat test zbog malih učestalosti
• procedura testa zahteva izračunavanje verovatnoće aktuelno opserviranih učestalosti u tabeli kontingencije, ali i svih drugih mogućih učestalosti uz uslov da marginalne učestalosti ostanu nepromenjene
• Za tabelu kontingencije 2 2:
verovatnoća datih učestalosti iznosi:
a b a + b
c d c + d
a + c b + d N
!!!!!
)!()!()!()!(
dcbaN
dbcadcbaP
Katedra za medicinsku
statistiku i informatiku ∑
Arterijska hipertenzija
Svega + –
Konzumiranje alkohola
+ 4 3 7
– 1 3 4
Ukupno 5 6 11
Primer. Cilj u studiji bio je ispitivanje konzumranja alkohola kao faktora rizika za arterijsku hipertenziju. Iz populacije osoba sa arterijskom hipertenzijom formiran je slučajan uzorak veličine 5, a iz populacije uslovno zdravih slučajan uzorak veličine 6. Kod svih ispitanika zabeležen je anamnestički podatak o konzumiranju alkohola. Rezultati su prikazani u tabeli kontingencije:
Katedra za medicinsku
statistiku i informatiku ∑
Testirati hipotezu o jednakosti populacija sa i bez arterijske hipertenzije prema proporciji konzumenata alkohola. Zbog malih učestalosti nije adekvatno primeniti hi-kvadrat test. Tačna verovatnoća aktuelno opserviranih podataka iznosi:
303.0!3!1!3!4!11
!6!5!4!7P
Dobijena verovatnoća nije jednaka ili manja od 0.05, tako da ne odbacujemo nultu hipotezu. Zaključak: Osobe sa i bez arterijske hipertenzije ne razlikuju se statistički značajno prema proporciji osoba koje konzumiraju alkohol (p > 0.05).
Katedra za medicinsku
statistiku i informatiku ∑
McNemarov test
• primenjuje se za ocenu
značajnosti razlike učestalosti dihotomnih podataka
• vezani uzorci • iste jedinice opservirane dva
ili više puta ili
• individualno mečovane jedinice dva uzorka
• podatke za McNemarov test treba organizovati u vidu tabele 2x2:
cb
cb
2
2
sledi hi-kvadrat raspodelu za 1 stepen slobode
Drugi uzorak (ili druga opservacija)
+ –
Prvi uzorak (ili prva opservacija)
+ a b a+b
– c d c+d
a+c b+d N
Statistika testa :
Katedra za medicinsku
statistiku i informatiku ∑
Primer. U istraživanju, sa ciljem ocene delovanja leka na simptom vrtoglavice, bilo je uključeno 210 ispitanika. Pre davanja leka vrtoglavicu je imalo 65 ispitanika. Posle davanja leka vrtoglavicu je imalo 43 ispitanika, od kojih je 36 vrtoglavicu imalo i pre terapije. Da li se posle davanja leka promenila učestalost vrtoglavice?
Katedra za medicinsku
statistiku i informatiku ∑
Posle davanja leka
+ –
Pre davanja leka
+ 36 29 65
– 7 138 145
43 167 210
44.13
729
7292
2
Donošenje odluke o nultoj hipotezi: hi-kvadrat statistika 13.44 veća je od graniče tablične vrednosti 3.84 (za DF = 1 i nivo značajnosti 0.05), pa odbacujemo nultu hipotezu. Zaključak: Učestalost vrtoglavice pre davanja leka iznosila je 31.0%, a posle davanja leka 20.5%. Učestalost vrtoglavice je statički značajno manja posle davanja leka (hi-kvadrat = 13.44, p 0.05).
Katedra za medicinsku
statistiku i informatiku ∑
• Test sume rangova
• Test ekvivalentnih parova
• nezavisni/zavisni uzorci
Testiranje hipoteza o rangovima
Katedra za medicinsku
statistiku i informatiku ∑
Test sume rangova (Mann-Whitney test,
Wilcoxon-Mann-Whitney test)
• testiranje nulte hipoteze o jednakosti raspodela ili jednakosti medijana dve populacije
• ordinalni ili numerički podaci, ili rangirani podaci
• koristi se umesto Studentovog t-testa za dva nezavisna uzorka kada nisu ispunjeni uslovi za primenu tog testa (raspodela numeričkih podataka nije normalna, ili se radi o ordinalnim ili rangiranim podacima)
Katedra za medicinsku
statistiku i informatiku ∑
Mann-Whitney test (Test sume
rangova) • U testu se, umesto originalnih
podataka, koriste rangovi • Rangirati opservacije zajedno za
obe grupe • Rangiranje može biti obavljeno
od najmanje do najveće vrednosti ili obrnuto
• Statistika testa je manja suma rangova manjeg uzorka – Za uzorak se mogu
izračunati dve sume rangova R i R’. Dovoljno je za manji uzorak izračunati R, a R’ se izračunava po formuli:
• Dve populacije se razlikuju statistčki značajno prema raspodelama ili medijanama ako je statistika testa jednaka ili manja od teorijske vrednosti
mmm RnnR 1
Katedra za medicinsku
statistiku i informatiku ∑
Primer. Ispitivan je odnos nadmorske visine prebivališta i koncentracije fibrinogena. Podaci o koncentraciji fibrinogena (g/L) dati su za ispitanike sa stalnim prebivalištem na nadmorskoj visini do 200 m, i preko 700 m. Ispitati da li se osobe sa različitim nadmorskim visinama prebivališta razlikuju prema koncentraciji fibrinogena.
Katedra za medicinsku
statistiku i informatiku ∑
Statistika testa (48.5) veća je od granične vrednosti (38) za nivo značajnosti od 0.05 i veličine uzoraka 7 i 8, pa ne odbacujemo nultu hipotezu. Zaključak: Osobe sa prebivalištem ispod 200 m i iznad 700 m nadmorske visine ne razlikuju se statistički značajno prema koncentraciji fibrinogena (p > 0.05).
Katedra za medicinsku
statistiku i informatiku ∑
Wilcoxonov test ekvivalentnih parova
• Dizajn: zavisni uzorci • Koristi se umesto
Studentovog t-testa za zavisne uzorke kada nisu ispunjeni uslovi za primenu tog testa
• Najmanje ordinalna skala merenja ili rangirani podaci
• testira se nulta hipoteza da vezani uzorci predstavljaju istu populaciju
Postupak • Formiranje parova podataka :
• U dizajnu pre-posle, par podataka se odnosi na iste statističke jedinice, ali opservirane u dva različita vremena
• U dizajnu mečovanih ispitanika, par podataka se odnosi na dva mečovana ispitanika
• Izračunavanje razlike vrednosti podataka za svaki par
• Objedinjeno rangiranje poretka razlika, nezavisno od toga koji predznak ta razlika ima, razlike koje su jednake nuli se ne rangiraju
• Sabiranje rangova posebno za pozitivne i negativne razlike
• Statistika testa je manja od dve sume rangova: sume rangova pozitivnih i sume rangova negativnih razlika
Katedra za medicinsku
statistiku i informatiku ∑
Redni
broj
Lp(a) pre
terapije
(mg/dL)
Lp(a) posle
terapije
(mg/dL)
Razlika (d) Rang
razlike (Rd)
1 20 8 12 6
2 36 9 27 9
3 13 30 -17 7.5
4 16 10 6 3
5 23 6 17 7.5
6 10 9 1 1
7 17 15 2 2
8 50 15 35 10
9 13 13 0
10 17 7 10 5
11 16 7 9 4
Suma rangova pozitivnih razlika
Suma rangova negativnih razlika
47.5
7.5
Primer. Date su vrednosti Lp(a) pre početka terapije i mesec dana posle tretmana u kojem su pacijenti osim antiaritmika dobijali i antilipemike. Cilj istraživača bio je da ispitaju da li dolazi do promene vrednosti Lp(a) posle davanja antilipemika.
Statistika testa (7.5) manja je od granične vrednosti (8) za nivo značajnosti od 0.05 i broj rangiranih parova n=10. Zaključak: Vrednosti Lp(a) posle terapije statistički značajno su niže u odnosu na vrednosti pre terapije (p ≤ 0.05).
Katedra za medicinsku
statistiku i informatiku ∑
Izbor statističkog testa
Tip podataka
Broj uzoraka Kontinuirani sa
normalnom
raspodelom
Kontinuirani bez
normalne
raspodele ili
ordinalni
Kategorijalni
2 nezavisna
uzorka
t test za
nezavisne
uzorke
Mann-Whitney
test
Hi-kvadrat test
2 zavisna (vezana)
uzorka
t test za zavisne
uzorke
Wilcoxonov test McNemarov test
>2 nezavisna
uzorka
ANOVA Kruskal-Wallis
test
Hi-kvadrat test
>2 zavisna
(vezana) uzorka
ANOVA
ponovljenih
merenja
Friedmanov test Cochranov test
Recommended