64
Katedra za medicinsku statistiku i informatiku Statističko zaključivanje - testiranje hipoteza

Statističko zaključivanje - testiranje hipoteza

Embed Size (px)

Citation preview

Page 1: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Statističko zaključivanje -testiranje hipoteza

Page 2: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Statističko zaključivanje

• Ideja moderne statistike je da na osnovu uzorka (dobijenog uzorkovanjem iz osnovnog skupa) donosimo zaključke o populaciji (statističko zaključivanje).

1. Kako da korišćenjem podataka iz uzorka ocenimo vrednost populacionog parametra? i

2. Kako da korišćenjem uzoračkih statistika testiramo (proverimo) iskaz o populaciji (populacionim parametrima)?

Page 3: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Testiranje hipoteza / osnovni pojmovi i

procedura Statistička hipoteza je

iskaz ili pretpostavka o populaciji.

• Primeri hipoteza: Iskustvo govori da je verovatnoća da je pod određenim uslovima broj novorođenih devojčica i dečaka isti; Lekari tvrde da prosečna telesna temperatura zdravih osoba nije 37%C; …

• Testiranje hipoteza je standardni statistički metod kojim se ispituje neki iskaz / tvrdnja / pretpostavka o populaciji.

Page 4: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Koraci

1. Hipoteze

2. Izbor nivoa značajnosti

3. Izbor test statistike

4. Izračunavanje statistike testa

5. Statistički zaključak

Page 5: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Hipoteze

Nulta hipoteza ili hipoteza koja se ovim procesom testira (Ho) - hipoteza o nepostojanju razlike

• H0: 1= 2

• H1: 1 2

Alternativna hipoteza – iskaz o onome što istraživač veruje da je tačno u slučaju da su uzorački podaci doveli do odbacivanja nulte hipoteze (H1)

• Jednosmerna (>, <)

• Dvosmerna ()

Page 6: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Izbor nivoa značajnosti

• nivo značajnosti (α nivo) -

maksimalno dozvoljena verovatnoća greške prvog tipa - odbacivanje tačne nulte hipoteze

• verovatnoća greške prvog tipa je pod direktnom kontrolom istraživača

• najčešće:

α =0.05 i 0.01

Page 7: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Izbor Test statistike

• bilo koja statistika koja može biti izračunata iz dostupnih podataka u uzorku

• Služi kao kriterijum za donošenje odluke (odluka o odbacivanju ili neodbacivanju nulte hipoteze zavisi od veličine izračunate statistike)

• tip podataka

• iskazi o populacionim parametrima i

• broj grupa / uzoraka

• Parametarski testovi

• Neparametarski testovi

Page 8: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Izračunavanje statistike testa

• Izračunavanje vrednosti test statistike iz dostupnih podataka i poredjenje sa regionom prihvatanja i odbacivanja koji su već definisani

Page 9: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Statistički zaključak

• Ključ statističkog zaključivanja je uzoračka raspodela: – Vrednosti test statistike koje

imaju manju šansu pojavljivanja kada je nulta hipoteza tačna – region odbacivanja

– Vrednosti test statistike koje imaju veću šansu pojavljivanja kada je nulta hipoteza tačna – region prihvatanja

• Odluka o tome koje vrednosti pripadaju jednom, a koje drugom regionu, donosi se na osnovu izabranog nivoa značajnosti (α)

Page 10: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Statistički zaključak

• Nulta hipoteza se odbacuje ako je izračunata vrednost test statistike u regionu odbacivanja. U suprotnom, ne odbacuje se.

• poređenje izračunate (empirijske) statistike testa i kritične (teorijske) vrednosti

• ako je p-vrednost jednaka ili manja od α, odbacujemo nultu hipotezu. Ako je p vrednost veća od α, ne odbacujemo nultu hipotezu.

• p-vrednost predstavlja verovatnoću opserviranih, ili ekstremnijih, razlika uzoračkih statistika, pod pretpostavkom važenja nulte hipoteze

Page 11: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

0.95

Kritična vrednost

Kritična vrednost

2 2

Testiranje hipoteza

Page 12: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Greške • Greška I tipa (α) je verovatnoća odbacivanja tačne

nulte hipoteze

• Greška II tipa (β) – neodbacivanje netačne nulte hipoteze

Istina (populacija)

Odluka na osnovu analize uzoračkih podataka

Nulta hipoteza tačna Nulta hipoteza netačna

Prihvatanje nulte hipoteze

1-

greška drugog tipa

Odbacivanje nulte hipoteze

greška prvog tipa

1-

Page 13: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Greške u zaključivanju

• Greška prvog tipa – odbacivanje tačne nulte hipoteze.

• Greška drugog tipa – neodbacivanje pogrešne nulte hipoteze.

• Istovremeno se može napraviti samo jedan tip greške.

• Greške prvog i drugog tipa su zavisne. Smanjenje verovatnoće greške prvog tipa dovodi do povećanja verovatnoće greške drugog tipa, i obrnuto.

• Verovatnoća greške prvog tipa je pod direktnom kontrolom istraživača tako što unapred određuje maksimalno dozvoljenu verovatnoću greške prvog tipa - nivo značajnosti (α nivo).

• Povećanje uzorka uopšteno smanjuje verovatnoću oba tipa grešaka.

• Verovatnoća greške drugog tipa se smanjuje sa povećanjem razlike aritmetičkih sredina koju treba otkriti.

• Snaga ili moć (1-) statističkog testa je verovatnoća odbacivanja nulte hipoteze kada je alternativna hipoteza tačna.

Page 14: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Parametarski statistički testovi

• Bazirani su na ocenama jednog ili više populacionih parametara (npr. aritmetička sredina i standardna devijacija) dobijenih na osnovu uzoračkih podataka.

• Koriste se za testiranje hipoteza o populacionim parametrima (npr. o jednakosti aritmetičkih sredina dve populacije μ1=μ2).

• Pretpostavljaju normalnost raspodele u osnovnom skupu.

• z-test • t-test

Page 15: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Provera normalnosti raspodele

1. CV>30% ukazuje na odstupanje od normalne raspodele

2. Vrednosti skjunisa i kurtosisa od -1 do 1 ukazuju na normalnu raspodelu. Vrednosti skjunisa i kurtosisa veće od 3 i manje od -3 ukazuju na odstupanje od normalne raspodele.

3. Statističko testiranje normalnosti npr. Kolmogorov-Smirnov test, Shapiro-Wilk test ili D'Agostino-Pearson test. Ako je p<0.05 u ovim testovima, empirijska raspodela statistički značajno odstupa od normalne raspodele

Grafičke metode: 4. Histogram – vizuelna procena da li je

empirijska raspodela slična zvonastoj simetričnoj raspodeli

5. Normalni Q–Q grafikon. Ako je raspodela normalna tačke će biti na pravoj liniji. Odstupanje tačaka od prave linije ukazuje na odstupanje raspodele od normalne.

6. Detrendovan normalni Q–Q grafikon. Ako je raspodela normalna tačke će biti ravnomerno raspoređene iznad i ispod horizontalne linije. Ako raspodela nije normalna raspored tačaka će imati neki oblik kao npr. slovo J

7. Grafikon kutije (“boxplot”). Ako postoji nekoliko ekstremnih vrednosti ili neobičnih vrednosti na bilo kom kraju raspodele to ukazuje na odstupanje od normalne raspodele. Ako medijana nije u centru grafikona kutije već je znatno bliža jednom od krajeva kutije, to ukazuje na odstupanje od normalne raspodele

Page 16: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Oblik empirijske raspodele

• Osnovne informacije o obliku empirijske raspodele se mogu dobiti iz grafičkih prikaza (histogram, poligon frekvencija, štapićasti dijagrm, stubičasti dijagram)

• Oblik se obično klasifikuje kao unimodalan, bimodalan ili multimodalan. Unimodalan oblik može biti simetričan ili asimetričan (pozitivno ili desno iskošen, negativno ili levo iskošen).

1

34

56

911

12

16

1817

14

11

8

54

32 2

1

0

5

10

15

20

1 2 3 4 5 6 7 8 910

11

12

13

14

15

16

17

18

19

20

Učestalost

1

3

7

12

18

13

9

4

21 1

3

6

11

18

1210

4

21

0

5

10

15

20

1 2 3 4 5 6 7 8 910

11

12

13

14

15

16

17

18

19

20

Učestalost

Unimodalna raspodela Bimodalna raspodela

Page 17: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Asimetričan oblik raspodele

Vrednost skjunisa veća od 1 ukazuje na desnu iskošenost, a vrednost manja od -1 na levu iskošenost

Desna iskošenost Leva iskošenost

Page 18: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

“Zašiljenost” / “zaravnjenost” raspodele

• Vrednosti kurtosisa veće od 1 ukazuju na šiljatu raspodelu, a manje od -1 ukazuju na zaravnjenu raspodelu

Mezokurtična Leptokurtična Platikurtična

“Zašiljena” “Zaravnjena”

Page 19: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Testiranje hipoteza o populacionim prosečnim vrednostima i proporcijama

• z-test • Varijanse osnovnih

skupova poznate, ili

• Varijanse osnovnih skupova nepoznate, uzorci veliki (n1>30, n2>30)

• z statistika

• standardna normalna raspodela

• t-test • Varijanse osnovnih

skupova nepoznate, uzorci mali (n130, n230)

• t-statistika

• t-raspodela

Page 20: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Z-test

• Testiranje značajnosti razlike uzoračke i populacione aritmetičke sredine i proporcije (jedan uzorak)

n

xz

0

n

pz

0

Page 21: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Z-test

• Testiranje hipoteza o populacionim prosečnim vrednostima i proporcijama dva nezavisna uzorka

• Testiranje hipoteza o populacionim prosečnim vrednostima i proporcijama, zavisni uzorci

1 2

2 2

1 2

1 2

x xz

sd sd

n n

1 2

1 1 2 2

1 2

(1 ) (1 )

p pz

p p p p

n n

n

dz

d

d

Page 22: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

1 2

1 1 2 2

1 2

(1 ) (1 )

p pz

p p p p

n n

Testiranje razlike dve uzoračke proporcije

p – proporcija posmatranog događaja

Primer: Registrovani su neželjeni efekti lekova A i B. U grupi od 107 pacijenta koji su primali lek A neželjeni efekti su registrovani kod 38. U grupi od 155 pacijenta koji su primali lek B neželjeni efekti su registrovani kod 73. Da li se lekovi značajno razlikuje prema učestanosti neželjenih efekata?

1

380.355

107p 2

730.470

155p

0.355 0.4701.88

0.355(1 0.355) 0.470(1 0.470)

107 155

z

Kritična vrednost z testa za nivo značajnosti od 0.05 je 1.96. Vrednost 1.88 je manja od kritične vrednosti pa se ne može odbaciti nulta hipoteza. Razlika nije statistički značajna (z=1.88, p>0.05)

Page 23: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

t-test (Studentov t test)

• pretpostavka za primenu t-testa je da podaci potiču iz populacija sa normalnom raspodelom, robustan je na blagu narušenost ove pretpostavke

• Testiranje hipoteze o jednakosti aritmetičkih sredina (H0: μ1=μ2)

• Test je baziran na t raspodeli

Page 24: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

t-test

• Testiranje značajnosti razlike uzoračke i populacione aritmetičke sredine (jedan uzorak)

broj stepena slobode: DF = n - 1

n

sd

x

sd

xt

x

00

Page 25: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

t-test

• Primer: Aritmetička sredina broja

leukocita 9 bolesnika je 12.2109/L, a standardna devijacija sd=1.9109/L. Očekivalo se da će aritmetička sredina biti 9.1109/L. Da li se dobijene vrednosti razlikuju od očekivanih (H0:1=0, H1: 10)? Testirati na nivou značajnosti 0.05.

• Kritična vrednost u tablici t raspodele za DF = 8 i nivo značajnosti 0.05 je 2.306. Statistika testa (4.897) je veća od kritične vrednosti.

• Zaključak: Odbacuje se nulta hipoteza. Vrednosti leukocita su statistički značajno veće od očekivanih (t = 4.897, DF = 8, p 0.05)

1.90.633

9x

sdsd

n

12.2 9.14.897

0.633x

xt

sd

Page 26: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

t-test

Primer : Aritmetička sredina sistolne arterijske tenzije 10

bolesnika sa akutnim koronarnim sindromom iznosi 139

mmHg, a standardna devijacija sd=11,9 mmHg. Na osnovu

prethodnih istraživanja očekivalo se da će aritmetička

sredina za tu populaciju bolesnika iznositi 145 mmHg. Da li

se može reći da populacija iz koje potiče aktuelni uzorak

ima aritmetičku sredinu jednaku očekivanoj? Testirati na

nivou značajnosti od 0.05.

Page 27: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Zaključak: Dobijena p-vrednost veća je od 0,05 pa zaključujemo da se vrednost aritmetičke sredine sistolne arterijske tenzije populacije iz koje potiče uzorak ne razlikuje od očekivanih vrednosti (t=1,585; DF=9, p=0,147).

Page 28: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

t-test

• Testiranje hipoteza o populacionim prosečnim vrednostima dva nezavisna uzorka

1 2

1 22 2

1 1 2 2 1 2

1 2 1 2

, DF= 2( 1) ( 1)

2

x xt n n

n sd n sd n n

n n n n

Page 29: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

x1 x12

x2 x22

15 225 16 256

17 289 14 196

20 400 17 289

14 196 15 225

19 361 18 324

17 289 17 289

18 324 16 256

19 361

139 2445 113 1835

Primer: Dve grupe ispitanika lečene su različitim tretmanima. Sedimentacija eritrocita (mm/h) iznosila je: prva grupa: 15, 17, 20, 14, 19, 17, 18, 19 druga grupa: 16, 14, 17, 15, 18, 17, 16 Da li je značajna razlika prosečnih vrednosti sedimentacije između ove dve grupe? Testirati na nivou značajnosti 0.05.

Page 30: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

1

1

1

13917.38 mm/h

8

xx

n

2 2 2

1

2445 8 17.382.07

1 8 1

x n xsd

n

2 2 2

2

1835 7 16.141.35

1 7 1

x n xsd

n

2 2

17.38 16.14=1.35,

(8 1) 2.07 (7 1) 1.35 1 1

8 7 2 8 7

DF=8 7 2 13

t

Kritična vrednost u tabeli t raspodele za DF = 13, nivo značajnosti 0.05 i dvosmerno testiranje je 2.160. Statistika testa (1.35) je manja od kritične vrednosti. Ne odbacuje se nulta hipoteza. Zaključak: Razlika prosečnih vrednosti sedimentacije eritrocita nije statistički značajna (t=1.35, DF=13, p>0.05).

2

2

2

11316.14 mm/h

7

xx

n

Page 31: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Zaključak: Aritmetička sredina i standardna devijacija sedimentacije eritrocita u Tretmanu A iznosi 17,4±2,1 mm/h, a u Tretmanu B iznosi 16,1±1,3 mm/h. Ne postoji statistički značajna razlika prema sedimentaciji eritrocita između ispitivanih grupa (t=1.345, DF=13, p=0.201).

Page 32: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

t-test

• Testiranje hipoteza o populacionim prosečnim vrednostima, zavisni uzorci • registrovanje vrednosti

jednog obeležja na istim jedinicama dva ili više puta

• mečovana kontrolna grupa

• H0: μd = 0

• H0: μd 0

DF=n – 1,

n - broj parova podataka

)1(

2

2

nn

n

dd

dt

Page 33: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Neparametarski statistički testovi • Ne zahtevaju poznavanje oblika

raspodele u osnovnom skupu i normalnost raspodele

• Ne zahtevaju homogenost u smislu varijabiliteta

• Neparametarski testovi mogu biti primenjeni u svim uslovima u kojima nisu ispunjene pretpostavke za primenu parametarskih testova. Takođe mogu biti primenjeni i u uslovima kada jesu ispunjene pretpostavke za primenu parametarskih testova, ali tada prednost treba dati parametarskim testovima jeru su oni snažniji.

• Za svaki parametarski test postoji najmanje jedan ekvivalentan neparametarski test

Page 34: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Testiranje hipoteza o učestalostima

• Hi – kvadrat test

• Test tačne verovatnoće

• McNemarov test

• broj uzoraka

• nezavisni/zavisni uzorci

Page 35: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Hi-kvadrat test

• najčešće korišćen statistički test

• procenjuje se značajnost razlike opaženih (empirijskih) i očekivanih (teorijskih) učestalosti

• baziran je na hi-kvadrat raspodeli

• apsolutne učestalosti (frekvencije)

• statistika hi-kvadrat testa

• f opažena,

• f' očekivana učestalost

f

ff 22 )(

Page 36: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Hi-kvadrat test

• Ukoliko je hi-kvadrat statistika jednaka ili veća od odgovarajuće granične vrednosti, odbacujemo nultu hipotezu i zaključujemo da je razlika opaženih i očekivanih učestalosti statistički značajna.

• test slaganja

• test nezavisnosti ili test homogenosti

Page 37: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

hi-kvadrat test slaganja

• testiramo hipotezu da li se učestalosti u populaciji, opažene i predstavljene uzorkom, razlikuju od očekivanih učestalosti

• jedan uzorak, jedna varijabla • očekivane učestalosti određene

su na osnovu ranijih istraživanja, pretpostavljenog modela raspodele posmatrane varijable ili pretpostavljene na neki drugi način

• DF = r – 1, r- broj kategorija

• uslovi za primenu testa slaganja: • apsolutne učestalosti • uzorak čine nezavisne

opservacije, odnosno svaka opservacija može biti samo jednom pobrojana u učestalostima

• u slučaju postojanja samo dve kategorije (r=2), nijedna očekivana frekvencija ne sme biti manja od 5

• u slučaju postojanja više od dve kategorije (r>2), ne sme biti više od 20% očekivanih učestalosti manjih od 5. Ako nije zadovoljen ovaj uslov mora se izvršiti sažimanje susednih kategorija

Page 38: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Primer: Ispitivana je učestalost krvnih grupa u određenoj populaciji. Na slučajnom uzorku od 140 osoba, nađeno je da krvnu grupu O ima 55 osoba, krvnu grupu A 59 osoba, krvnu grupu B 19 osoba i krvnu grupu AB 7 osoba. Na osnovu ranijih istraživanja poznato je da je relativna učestalost tih krvnih grupa: O – 44.5%, A – 38.9%, B – 12.1%, AB – 4.5%. Da li se aktuelne učestalosti krvnih grupa razlikuju od očekivanih? Testirati na nivou značajnosti od 0.05.

Page 39: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

krvna grupa f f'

O 55 140 0.445 = 62.30 (55 – 62.3)2/62.3 = 0.855

A 59 140 0.389 = 54.46 0.378

B 19 140 0.121 = 16.94 0.251

AB 7 140 0.045 = 6.30 0.078

Ukupno 140 140.00 2 = 1.562

Očekivane frekvencije (f') u ovom slučaju dobijamo tako što totalnu frekvenciju (140) množimo sa očekivanim proporcijama krvnih grupa. Radna tabela

f

ff

2)(

DF = 4 – 1 = 3. Hi-kvadrat statistika (1.56) manja je od granične vrednosti (7.82) za DF = 3 i nivo značajnosti 0.05, pa nema osnova za odbacivanje nulte hipoteze. Zaključak: učestalost krvnih grupa u našem istraživanju ne razlikuje se statistički značajno od očekivanih na osnovu prethodnih istraživanja (χ2= 1.562, DF = 3, p > 0.05).

Page 40: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Hi-kvadrat test za r x k tabele

• testiranje hipoteza kada su podaci organizovani u vidu tabela kontingencije

• tabela kontingencije je složena kombinovana tabela u kojoj raspodela zavisi od dve varijable

• Zavisno od cilja istraživanja i načina biranja uzorka, analizom tabela kontingencije možemo testirati

1. nezavisnost dve varijable ili

2. homogenost dve populacije

Page 41: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Hi-kvadrat test nezavisnosti

• ispitujemo da li u tabeli kontingencije raspodela po jednoj varijabli uslovno zavisi od raspodele po drugoj varijabli

• Nultom hipotezom tvrdimo da su varijable nezavisne, odnosno da raspodela po jednoj varijabli ne zavisi od raspodele po drugoj varijabli.

• U slučaju da nultu hipotezu odbacimo, zaključujemo da varijable nisu nezavisne, odnosno da između njih postoji povezanost (asocijacija, korelacija).

Page 42: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Patološki nalaz na jetri

Svega + –

Konzumiranje

alkohola

+ 10 16 26

– 13 79 92

Ukupno 23 95 118

Primer. Cilj u studiji preseka bio je ispitivanje odnosa konzumiranja alkohola i patološkog nalaza na jetri. Formiran je slučajan uzorak, veličine 118 ispitanika, iz opšte populacije odraslih osoba. Rezultati su prikazani u tabeli kontingencije:

U ovom istraživanju biran je samo jedan uzorak sa unapred predviđenom veličinom, pa je u tabeli kontingencije pod kontrolom bila samo totalna učestalost (118). Istraživač nije imao pod kontrolom marginalne učestalosti, jer pre istraživanja nije znao koliko će u uzorku biti konzumenata alkohola, niti koliko će biti osoba sa patološkim nalazom na jetri. Analizom ovakve tabele kontingencije istraživač može doći do zaključka o tome da li su ove dve varijable povezane na neki način, na primer da li postoji tendencija da oni koji konzumirju alkohol češće imaju patološki nalaz na jetri.

Page 43: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Hi-kvadrat test homogenosti

• Ispitujemo da li se dve ili više populacija razlikuju prema proporciji događaja od interesa.

• Nultom hipotezom tvrdimo da su proporcije u populacijama jednake.

• U slučaju da nultu hipotezu odbacimo, zaključujemo da populacije nisu homogene prema proporciji događaja od interesa.

• Istraživač kontroliše marginalne učestalosti, koje odgovaraju veličini uzorka iz svake od populacija, pa samim tim i totalnu učestalost.

Page 44: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Patološki nalaz na

jetri

Svega + –

Konzumiranje

alkohola

+ 31 36 67

– 29 68 97

Ukupno 60 104 164

Primer . Cilj u studiji slučaj-kontrola bio je ispitivanje konzimranja alkohola kao faktora rizika za patološke promene na jetri. Iz populacije osoba sa patološkim promenama na jetri formiran je slučajan uzorak veličine 60, a iz populacije uslovno zdravih slučajan uzorak veličine 104. Kod svih ispitanika zabeležen je anamnestički podataka o konzumiranju alkohola. Rezultati su prikazani u tabeli kontingencije:

U ovom istraživanju birana su dva uzorka, što znači da su u tabeli kontingencije pod kontrolom istraživača bile marginalne učestalosti koje odgovaraju uzorku osoba sa patološkim promenama (60) i uslovno zdravih (104), a samim tim pod kontrolom je bila i tolalna učestalost (164). Analizom ovakve tabele kontingencije istraživač može uporediti proporcije konzumenata alkohola u ispitivanim populacijama. Ukoliko nađe da populacije nisu homogene, na primer da je proporcija konzumenata alkohola veća u populaciji osoba sa patološkim promenama, može doneti zaključak da je konzumiranje alkohola faktor rizika za nastanak patoloških promena na jetri.

Page 45: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Testiranje nezavisnosti i homogenosti hi-kvadrat testom

• očekivane učestalosti izračunavaju se množenjem odgovarajućih marginalnih učestalosti i deljenjem sa totalnom učestalošću

• za tabelu kontingencije 2 x 2 očekivane učestalosti izračunavaju se pomoću formula:

f'a = (a + b) x (a + c) / N

f'b = (a + b) x (b + d) / N

f'c = (c + d) x (a + c) / N

f'd = (c + d) x (b + d) / N

• N je totalna učestalost u tabeli kontingencije

• broj stepena slobode DF = (r–1)(k–1)

a b a + b

c d c + d

a + c b + d N

f

ff 22 )(

Page 46: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Uslovi za primenu hi kvadrat testa su:

• Za tabelu 2 x 2:

• Kada je N > 40 test se može upotrebiti ako su sve očekivane frekvencije 1

• Kada je N od 20 do 40 test se može upotrebiti ako su sve očekivane frekvencije 5

• Kada je N < 20 test se ne može upotrebiti

• Za tabelu veću od 2 x 2:

• nijedna očekivana učestalost ne sme biti manja od 1, i ne sme biti više od 20% očekivanih učestalosti manjih od 5. Ako nije zadovoljen ovaj uslov mora se izvršiti sažimanje susednih kategorija

Page 47: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Akutna respiratorna

infekcija

Svega + –

Pušenje

(cigareta/d)

0 21 64 85

do 20 28 45 73

preko 20 31 37 68

Ukupno 80 148 226

Cilj u istraživanju bio je ocena povezanosti pušenja i oboljevanja od akutnih respiratornih infekcija u toku zime. Nađeno je: od 85 nepušača obolela je 21 (25%) osoba, od 73 pušača sa popušenih do 20 cigareta dnevno obolelo je 28 (38%) osoba, od 68 pušača sa popušenih preko 20 cigareta dnevno obolela je 31 (46%) osoba. Da li je pušenje povezano sa oboljevanjem od akutnih respiratornih infekcija? Testirati na nivou znašajnosti od 0.05. Tabela opaženih učestalosti

Page 48: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Polje tabele f f (f - f )2/ f

a

21 30.09 2.75

b 64

54.91 1.50

c 28

25.84 0.18

d 45

47.16 0.10

e 31

24.07 1.99

f 39

43.93 1.09

χ2 = 7.62

DF = (3 – 1) x (2 – 1) = 2 Dobijena hi-kvadrat statistika (7.65) veća je od granične vrednosti (5.99) za DF = 2 i nivo značajnosti od 0.05. Oboljevanje od akutnih respiratornih infekcija u toku zime je statistički značajno povezano sa pušenjem (hi-kvadrat = 7.65, DF = 2, p ≤ 0.05).

Page 49: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Akutna respiratorna

infekcija

Svega + –

Pušenje

(cigareta/d)

0 3 17 20

do 20 6 8 14

preko 20 5 4 9

Ukupno 14 29 43

Radi se o istom istraživanju, ali ovog puta sa manjim učestalostima zbog čega će biti izvršeno sažimanje susednih kategorija. Opažene učestalosti prikazane su u tabeli:

Page 50: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Akutna respiratorna

infekcija

Svega + –

Pušenje Nepušači 3 17 20

Pušači 11 12 23

Ukupno 14 29 43

U tabeli tri ćelije imaju očekivane učestalosti manje od 5. To su učestalosti 4.56, 2.93 i 6.07. Zbog toga što je broj tih ćelija veći od 20% (2 / 6 = 33,3%) moramo izvršiti sažimanje susednih kategorija. Sabraćemo redove sa pušačima. Tako umesto tabele 3 x 2 dobijamo tabelu kontingencije dimenzija 2 x 2:

Iz ove tabele izračunavanjem dobijamo hi-kvadrat statistiku od 5.25, koja je veća od granične vrednosti (3.84) za DF = 1 i nivo značajnosti od 0.05. Oboljevanje od akutnih respiratornih infekcija u toku zime je statistički značajno povezano sa pušenjem (hi-kvadrat = 5.25, DF = 1, p ≤ 0.05).

Page 51: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Fisherov test tačne verovatnoće

• alternativa hi-kvadrat testu za

tabele r k, može se koristiti uvek, bez obzira na učestalosti u tabelama kontingencije, pa i u slučajevima kada se ne može koristiti hi-kvadrat test zbog malih učestalosti

• procedura testa zahteva izračunavanje verovatnoće aktuelno opserviranih učestalosti u tabeli kontingencije, ali i svih drugih mogućih učestalosti uz uslov da marginalne učestalosti ostanu nepromenjene

• Za tabelu kontingencije 2 2:

verovatnoća datih učestalosti iznosi:

a b a + b

c d c + d

a + c b + d N

!!!!!

)!()!()!()!(

dcbaN

dbcadcbaP

Page 52: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Arterijska hipertenzija

Svega + –

Konzumiranje alkohola

+ 4 3 7

– 1 3 4

Ukupno 5 6 11

Primer. Cilj u studiji bio je ispitivanje konzumranja alkohola kao faktora rizika za arterijsku hipertenziju. Iz populacije osoba sa arterijskom hipertenzijom formiran je slučajan uzorak veličine 5, a iz populacije uslovno zdravih slučajan uzorak veličine 6. Kod svih ispitanika zabeležen je anamnestički podatak o konzumiranju alkohola. Rezultati su prikazani u tabeli kontingencije:

Page 53: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Testirati hipotezu o jednakosti populacija sa i bez arterijske hipertenzije prema proporciji konzumenata alkohola. Zbog malih učestalosti nije adekvatno primeniti hi-kvadrat test. Tačna verovatnoća aktuelno opserviranih podataka iznosi:

303.0!3!1!3!4!11

!6!5!4!7P

Dobijena verovatnoća nije jednaka ili manja od 0.05, tako da ne odbacujemo nultu hipotezu. Zaključak: Osobe sa i bez arterijske hipertenzije ne razlikuju se statistički značajno prema proporciji osoba koje konzumiraju alkohol (p > 0.05).

Page 54: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

McNemarov test

• primenjuje se za ocenu

značajnosti razlike učestalosti dihotomnih podataka

• vezani uzorci • iste jedinice opservirane dva

ili više puta ili

• individualno mečovane jedinice dva uzorka

• podatke za McNemarov test treba organizovati u vidu tabele 2x2:

cb

cb

2

2

sledi hi-kvadrat raspodelu za 1 stepen slobode

Drugi uzorak (ili druga opservacija)

+ –

Prvi uzorak (ili prva opservacija)

+ a b a+b

– c d c+d

a+c b+d N

Statistika testa :

Page 55: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Primer. U istraživanju, sa ciljem ocene delovanja leka na simptom vrtoglavice, bilo je uključeno 210 ispitanika. Pre davanja leka vrtoglavicu je imalo 65 ispitanika. Posle davanja leka vrtoglavicu je imalo 43 ispitanika, od kojih je 36 vrtoglavicu imalo i pre terapije. Da li se posle davanja leka promenila učestalost vrtoglavice?

Page 56: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Posle davanja leka

+ –

Pre davanja leka

+ 36 29 65

– 7 138 145

43 167 210

44.13

729

7292

2

Donošenje odluke o nultoj hipotezi: hi-kvadrat statistika 13.44 veća je od graniče tablične vrednosti 3.84 (za DF = 1 i nivo značajnosti 0.05), pa odbacujemo nultu hipotezu. Zaključak: Učestalost vrtoglavice pre davanja leka iznosila je 31.0%, a posle davanja leka 20.5%. Učestalost vrtoglavice je statički značajno manja posle davanja leka (hi-kvadrat = 13.44, p 0.05).

Page 57: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

• Test sume rangova

• Test ekvivalentnih parova

• nezavisni/zavisni uzorci

Testiranje hipoteza o rangovima

Page 58: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Test sume rangova (Mann-Whitney test,

Wilcoxon-Mann-Whitney test)

• testiranje nulte hipoteze o jednakosti raspodela ili jednakosti medijana dve populacije

• ordinalni ili numerički podaci, ili rangirani podaci

• koristi se umesto Studentovog t-testa za dva nezavisna uzorka kada nisu ispunjeni uslovi za primenu tog testa (raspodela numeričkih podataka nije normalna, ili se radi o ordinalnim ili rangiranim podacima)

Page 59: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Mann-Whitney test (Test sume

rangova) • U testu se, umesto originalnih

podataka, koriste rangovi • Rangirati opservacije zajedno za

obe grupe • Rangiranje može biti obavljeno

od najmanje do najveće vrednosti ili obrnuto

• Statistika testa je manja suma rangova manjeg uzorka – Za uzorak se mogu

izračunati dve sume rangova R i R’. Dovoljno je za manji uzorak izračunati R, a R’ se izračunava po formuli:

• Dve populacije se razlikuju statistčki značajno prema raspodelama ili medijanama ako je statistika testa jednaka ili manja od teorijske vrednosti

mmm RnnR 1

Page 60: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Primer. Ispitivan je odnos nadmorske visine prebivališta i koncentracije fibrinogena. Podaci o koncentraciji fibrinogena (g/L) dati su za ispitanike sa stalnim prebivalištem na nadmorskoj visini do 200 m, i preko 700 m. Ispitati da li se osobe sa različitim nadmorskim visinama prebivališta razlikuju prema koncentraciji fibrinogena.

Page 61: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Statistika testa (48.5) veća je od granične vrednosti (38) za nivo značajnosti od 0.05 i veličine uzoraka 7 i 8, pa ne odbacujemo nultu hipotezu. Zaključak: Osobe sa prebivalištem ispod 200 m i iznad 700 m nadmorske visine ne razlikuju se statistički značajno prema koncentraciji fibrinogena (p > 0.05).

Page 62: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Wilcoxonov test ekvivalentnih parova

• Dizajn: zavisni uzorci • Koristi se umesto

Studentovog t-testa za zavisne uzorke kada nisu ispunjeni uslovi za primenu tog testa

• Najmanje ordinalna skala merenja ili rangirani podaci

• testira se nulta hipoteza da vezani uzorci predstavljaju istu populaciju

Postupak • Formiranje parova podataka :

• U dizajnu pre-posle, par podataka se odnosi na iste statističke jedinice, ali opservirane u dva različita vremena

• U dizajnu mečovanih ispitanika, par podataka se odnosi na dva mečovana ispitanika

• Izračunavanje razlike vrednosti podataka za svaki par

• Objedinjeno rangiranje poretka razlika, nezavisno od toga koji predznak ta razlika ima, razlike koje su jednake nuli se ne rangiraju

• Sabiranje rangova posebno za pozitivne i negativne razlike

• Statistika testa je manja od dve sume rangova: sume rangova pozitivnih i sume rangova negativnih razlika

Page 63: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Redni

broj

Lp(a) pre

terapije

(mg/dL)

Lp(a) posle

terapije

(mg/dL)

Razlika (d) Rang

razlike (Rd)

1 20 8 12 6

2 36 9 27 9

3 13 30 -17 7.5

4 16 10 6 3

5 23 6 17 7.5

6 10 9 1 1

7 17 15 2 2

8 50 15 35 10

9 13 13 0

10 17 7 10 5

11 16 7 9 4

Suma rangova pozitivnih razlika

Suma rangova negativnih razlika

47.5

7.5

Primer. Date su vrednosti Lp(a) pre početka terapije i mesec dana posle tretmana u kojem su pacijenti osim antiaritmika dobijali i antilipemike. Cilj istraživača bio je da ispitaju da li dolazi do promene vrednosti Lp(a) posle davanja antilipemika.

Statistika testa (7.5) manja je od granične vrednosti (8) za nivo značajnosti od 0.05 i broj rangiranih parova n=10. Zaključak: Vrednosti Lp(a) posle terapije statistički značajno su niže u odnosu na vrednosti pre terapije (p ≤ 0.05).

Page 64: Statističko zaključivanje - testiranje hipoteza

Katedra za medicinsku

statistiku i informatiku ∑

Izbor statističkog testa

Tip podataka

Broj uzoraka Kontinuirani sa

normalnom

raspodelom

Kontinuirani bez

normalne

raspodele ili

ordinalni

Kategorijalni

2 nezavisna

uzorka

t test za

nezavisne

uzorke

Mann-Whitney

test

Hi-kvadrat test

2 zavisna (vezana)

uzorka

t test za zavisne

uzorke

Wilcoxonov test McNemarov test

>2 nezavisna

uzorka

ANOVA Kruskal-Wallis

test

Hi-kvadrat test

>2 zavisna

(vezana) uzorka

ANOVA

ponovljenih

merenja

Friedmanov test Cochranov test