12
10/11/2016 1 TESTIRANJE HIPOTEZA OSNOVNI KONCEPTI I TESTOVI POVEZANOSTI Novembar 2016 Novembar 2016 Istraživanje trži šta Ekonomski fakultet , Beograd 2 X . Testiranje hipoteza Osnovni koncepti testiranja hipoteza Unakrsno tabeliranje i hi-kvadrat Testiranje hipoteza o srednjoj vrednosti i proporcijama ANOVA Novembar 2016 Istraživanje trži šta Ekonomski fakultet , Beograd 3 Novembar 2016 Istraživanje trži šta Ekonomski fakultet , Beograd 4 Osnovni koncepti testiranja hipoteza Nulta i alternativna hipoteza Izbor relevantnog statisti čkog testa i odgovarajućeg rasporeda verovatnoća Izbor kriti čne vrednosti

TESTIRANJE HIPOTEZA – OSNOVNI KONCEPTI I X. Testiranje ... · tabele dimenzija 2x2: u intervalu je od 0 do 1, što je bliže 1 to je povezanost jača; • Za ostale tabele nema

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: TESTIRANJE HIPOTEZA – OSNOVNI KONCEPTI I X. Testiranje ... · tabele dimenzija 2x2: u intervalu je od 0 do 1, što je bliže 1 to je povezanost jača; • Za ostale tabele nema

10/11/2016

1

TESTIRANJE HIPOTEZA –OSNOVNI KONCEPTI I

TESTOVI POVEZANOSTI• Novembar 2016

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

2

X. Testiranje hipoteza

• Osnovni koncepti testiranja hipoteza• Unakrsno tabeliranje i hi-kvadrat• Testiranje hipoteza o srednjoj vrednosti i proporcijama

• ANOVA

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

3 Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

4

Osnovni koncepti testiranja hipoteza

• Nulta i alternativna hipoteza• Izbor relevantnog statističkog testa i odgovarajućeg rasporeda verovatnoća

• Izbor kritične vrednosti

Page 2: TESTIRANJE HIPOTEZA – OSNOVNI KONCEPTI I X. Testiranje ... · tabele dimenzija 2x2: u intervalu je od 0 do 1, što je bliže 1 to je povezanost jača; • Za ostale tabele nema

10/11/2016

2

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

5

Izbor statističkog testa i odgovarajućeg rasporeda

• Izbor odgovarajućeg rasporeda verovatnoća zavisi od osnovnog cilja iz koga se hipoteza testira, npr.:– Poređenje uzorka i populacije po određenim

karakteristikama, ili– Poređenje dva uzorka po određenim karakteristikama

(srednje vrednosti, proporcije, varijanse,..)• Različiti statistički testovi se koriste u različite

svrhe, što zavisi i od:– Veličine uzorka,– Da li je poznata populacijska standardna devijacija.

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

6

Nulta i alternativna hipoteza

• Cilj je da se donese sud o razlici između statističkih pokazatelja uzorka i hipotetičkih vrednosti parametara populacije, ili

• Cilj je da se donese sud o razlici između statističkih pokazatelja dva uzorka.

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

7

Izbor kritične vrednosti• Nivo značajnosti, α, pokazuje procenat

uzoračkih realizacija koje se nalaze izvan definisanih granica

• Stepeni slobode

• Jednostrani (jednosmerni) ili dvostrani (dvosmerni) testovi

Nivo značajnosti, α

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

8

Ø Ako u zadatku nije naveden nivo značajnosti, smatra se da je α=0,05 (tj. 5%).

Page 3: TESTIRANJE HIPOTEZA – OSNOVNI KONCEPTI I X. Testiranje ... · tabele dimenzija 2x2: u intervalu je od 0 do 1, što je bliže 1 to je povezanost jača; • Za ostale tabele nema

10/11/2016

3

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

9

Unakrsno tabeliranje i hi-kvadrat testovi

• Hi-kvadrat test nezavisnosti• Mere povezanosti za nominalne varijable• Hi-kvadrat test prilagođenosti

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

10

Tehnike za analizu podataka

Univarijacione tehnike

Multivarijacione tehnike

Posmatra se samo jedna promenljiva

Posmatra se više promenljivih istovremeno

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

11

Univarijacione tehnike za analizu podataka

Neparametarske statističke tehnike

Parametarske statističke tehnike

Podaci su nemetrički (nominalna i ordinalna skala)

Podaci su metrički (intervalna i skala odnosa)

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

12

Neparametarske tehnike analize podataka

- Hi-kvadrat- Kolmogorov-Smirnov

- RUNS

Postoji samo jedan uzorak

Postoje dva ili više uzoraka

Nezavisni uzorci

Zavisni uzorci

- Hi-kvadrat- Suma rangova- Kolmogorov –Smirnov

- KW ANOVA

- Test znakova- Vilkoksov test- Meknimarov test

- Kokranov Q-test

Page 4: TESTIRANJE HIPOTEZA – OSNOVNI KONCEPTI I X. Testiranje ... · tabele dimenzija 2x2: u intervalu je od 0 do 1, što je bliže 1 to je povezanost jača; • Za ostale tabele nema

10/11/2016

4

Pretpostavke na kojima sezasniva χ2-test

• Da je uzorak prost slučajan uzorak; • Nezavisnosti opservacija je od kritične važnosti

– Nezavisnost opservacija znači da je izbor i merenjeobavljeno na jednom članu uzorka potpuno nezavisno odizbora ostalih članova uzorka, odnosno merenja;

• Ne sme da bude preklapanja kategorija (disjunktnost) i sve opservacije moraju biti uključene;

• Uzorak je dovoljno velik:– Empirijsko pravilo koje se lako proverava, a koje ćemo mi

koristiti, je da očekivana frekvencija u svakom polju ne sme biti manja od 5.

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

13 Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

14

Hi-kvadrat test nezavisnosti (nominalnih) varijabli

• Primenjuje se u tabelama kontingencijeH0: Dve (nominalne) varijable su međusobno nezavisneHa: Postoji zavisnost među dvema varijablama

• Hi-kvadrat raspored je određen svojim stepenima slobode, , r→br.redova, c→br.kolona– Hi-kvadrat-statistika, χ2, je mera razlike između stvarnog

broja opservacija u polju i, u oznaci Oi, i broja opservacija koji bi se očekivao da je nulta hipoteza istinita, to jest pod pretpostavkom statističke nezavisnosti, Ei.

( )∑ =

−=

k

ii

ii

EEO

1

22χ

)1()1( −⋅−= crv

Primer A• Istraživanje na EF se bavilo zainteresovanošću

studenata za društvenu mrežu Fejsbuk (da li student ima ili nema otvoren nalog na FB), u zavisnosti od pola studenata.

• Istraživanje je obavljeno na uzorku veličinen=380 studenata EF. Podaci dobijeni na uzorkusu tabelirani u tabeli kontingencije.

• Da li, na nivou značajnosti od 0,05, možemo da zaključimo da postoji povezanost između polastudenata i njihove sklonosti da imaju otvorennalog na Fejsbuku?

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

15 Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

16

• Kakve su ovo varijable? • Koliko imaju kategorija (nivoa)?• Da li su disjunktni?• Koje još informacije možemo pročitati iz tabele

kontingencije?

Page 5: TESTIRANJE HIPOTEZA – OSNOVNI KONCEPTI I X. Testiranje ... · tabele dimenzija 2x2: u intervalu je od 0 do 1, što je bliže 1 to je povezanost jača; • Za ostale tabele nema

10/11/2016

5

Nulta i alternativna hipoteza, Hi-kvadrat statistika

H0: Nema povezanosti između pola studenata EF i da li imaju otvoren nalog na Fejsbuku ili ne;

Ha: Postoji povezanost između ove dve varijable.

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

17

( )∑ =

−=

k

ii

ii

EEO

1

22χ

v = (r −1) ⋅ (c−1)

O, E – opservirana i očekivana frekvencija u poljur, c - broj redova i kolona u tabeli kontingencijek = r cBroj stepeni slobode:

Očekivana frekvencija (1)

• Računamo šta bismo očekivali da bude u timpoljima ako bi dva događaja bila nezavisna

• Verovatnoća složenog događaja koji se sastojiod dva statistički nezavisna događaja se računakao proizvod verovatnoća ta dva nezavisnadogađaja:

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

18

Očekivana frekvencija (2)

• Odnosno, očekivana frekvencija za polje muški pol/ otvoren FB nalog, bi bila:

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

19

gde je n ukupan broj ispitanika.

Izlazni rezultat SPSS

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

20

Opservirana frekvencija

Očekivana frekvencija

Page 6: TESTIRANJE HIPOTEZA – OSNOVNI KONCEPTI I X. Testiranje ... · tabele dimenzija 2x2: u intervalu je od 0 do 1, što je bliže 1 to je povezanost jača; • Za ostale tabele nema

10/11/2016

6

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

21

χ 2 =Oi − Ei( )

2

Eii=1k∑ =

=(83−93)2

93+(224− 214)2

214+(41−51)2

51+(32− 22)2

22= 7,887

Hi-kvadrat test

VrednostHi-kvadrat statistike

Stepeni slobode(Degrees of freedom, df)

p-vrednost(dvostrana)

p-vrednost je manja od nivoa značajnosti, t.j. 0,005<0,05, odnosno χ2=7,887 > 3,83 (tablična vrednost za α=5% iz χ2-raspodele sa 1 stepenom slobode), pa sledi: ØOdbacujemo H0 i zaključujemo da bi mogla da postoji statistički značajna povezanost između korišćenja FB i pola studenata EF.

p-vrednosti

• Pravila koja važe za testiranje svih hipotezapreko p-vrednosti su sledeća:

Ø Ako je p ≤ α, H0 se odbacuje, odnosnoØ Ako je p > α, H0 se ne odbacuje;

– Kada statistički softver prikaže p-vrednost zadvostrani test, a nama je potreban jednostrani, datu p-vrednost treba podeliti sa 2;

– Ako je data p-vrednost za jednostrani test, a nama je potreban dvostrani test, prikazanu p-vrednost treba pomnožiti sa 2.

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

22

Dvostrani test

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

23

Primer B

• Na bazi obavljenog istraživanja nad studentima EF proveriti da li postoji povezanost između stavova studenata o tome da li institucije u Srbiji dovoljno štite i poštuju ljudska prava, sa jedne strane, i da li žene imaju ista prava i mogućnosti u našem društvu kao i muškarci, sa druge strane. Studenti su na postavljena pitanja odgovarali sa da ili ne. Podatke dobijene iz uzorka koji su obrađeni na programskom paketu SPSS ilustruje tabela; koristimo α=0,05.

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

24

Page 7: TESTIRANJE HIPOTEZA – OSNOVNI KONCEPTI I X. Testiranje ... · tabele dimenzija 2x2: u intervalu je od 0 do 1, što je bliže 1 to je povezanost jača; • Za ostale tabele nema

10/11/2016

7

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

25

Nulta i alternativna hipoteza

H0: Nema povezanosti između dva stava kodstudenata EF:

1. da institucije u Srbiji dovoljno štite i poštujuljudska prava, i

2. da žene imaju ista prava i mogućnosti u našemdruštvu kao i muškarci,;

Ha: Postoji povezanost između ova dva stava.

Računamo Hi-kvadrat statistiku za razliku izmeđuopserviranih i očekivanih frekvencija

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

26

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

27

Očekivana frekvencija

Opservirana frekvencija

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

28

Hi-kvadrat testp-vrednost

• p=0,003, manje od α=0,05, pa se nulta hipotezaodbacuje u korist alternativne;

Ø Verovatno postoji povezanost između stavova;• („Verovatno” jer i dalje postoji mogućnost greške I vrste)

Page 8: TESTIRANJE HIPOTEZA – OSNOVNI KONCEPTI I X. Testiranje ... · tabele dimenzija 2x2: u intervalu je od 0 do 1, što je bliže 1 to je povezanost jača; • Za ostale tabele nema

10/11/2016

8

Jačina povezanosti i mere povezanosti za nominalne varijable

• Hi-kvadrat statistika:– Sumarni pokazatelj odstupanja očekivanih od opserviranih

frekvencija, logična mera jačine povezanosti, ali – Njena veličina je direktno proporcionalna veličini uzorka;– Rezultati su validni samo ako je vrednost očekivane

frekvencije u svakom polju tabele najmanje 5;

• Mere koje se baziraju na Hi-kvadrat statistici:– Fi-koeficijent; – Koeficijent kontingencije, C; i – Kramerovo V.

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

29

Fi-koeficijent

• Nije osetljiv na veličinu uzorka;• Daje informaciju o jačini povezanosti samo za

tabele dimenzija 2x2: u intervalu je od 0 do 1, što je bliže 1 to je povezanost jača;

• Za ostale tabele nema gornju granicu;• Poređenje jačine povezanosti različitih tabela je

smisleno samo ako su one istih dimenzija.

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

30

ϕ 2 =χ 2

n, ϕ = ϕ 2

Koeficijent kontingencije

• Vrednost uvek između 0 i 1, ali nikad 1. približava se sa povećanjem broja dimenzija. – Gornja granica zavisi od broja redova i kolona.

• Pruža dobru informaciju o jačini veze nekog para varijabli kada one imaju jednak broj kategorija:– Tada se može izračunati tačna vrednost gornje granice

prema obrascu (r-1)/r, gde je r broj kolona, odnosno redova; toliko iznosi vrednost C kada postoji savršena veza.

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

31

C = χ 2

χ 2 + n,

Kramerovo V

• Daje mogućnost poređenja tabela sa različitim brojem redova i kolona;– Ima vrednosti između 0 i 1, ali je sada 1 savršena

povezanost i može se postići za svaki tip tabele (bez obzira da li ima jednak broj redova i kolona ili ne).

• ALI: teži ka jedinici sa povećanjem razlike između broja redova i kolona, čak i ako zapravo ne postoji smislena veza između varijabli.

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

32

V =ϕ 2

min (r −1),(c−1)⎡⎣ ⎤⎦=

χ 2 nmin (r −1),(c−1)⎡⎣ ⎤⎦

,

Page 9: TESTIRANJE HIPOTEZA – OSNOVNI KONCEPTI I X. Testiranje ... · tabele dimenzija 2x2: u intervalu je od 0 do 1, što je bliže 1 to je povezanost jača; • Za ostale tabele nema

10/11/2016

9

Primer C

• Proveriti da li je povezanost između stavova o:1. Da li institucije u Srbiji dovoljno štite i poštuju

ljudska prava (da/ne), i 2. Da li žene imaju ista prava i mogućnosti u

našem društvu kao i muškarci (da/ne), jača kod muške ili kod ženske populacijestudenata EF.

• Podaci su dati tabelom.

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

33 Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

34

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

35

Mere jačine povezanosti

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

36

Page 10: TESTIRANJE HIPOTEZA – OSNOVNI KONCEPTI I X. Testiranje ... · tabele dimenzija 2x2: u intervalu je od 0 do 1, što je bliže 1 to je povezanost jača; • Za ostale tabele nema

10/11/2016

10

• Za tabele kontingencije dimenzija 2x2, kao što su ove, sva 3 koeficijenta imaju definisane gornje granice i možemo da posmatramo apsolutne veličine koeficijenata;

• Koeficijenti imaju slične vrednosti za obe tabele:– Pokazuju da je jača veza postignuta u poduzorku

muške populacije; – Veza nije mnogo jaka jer koeficijenti nisu ni blizu

svojih gornjih granica (gornje granice su po redosledu koeficijenata u tabeli: 1; 1; i 0,5);

– Veza posebno slaba u ženskom poduzorku.

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

37

Hi-kvadrat test nezavisnostiNa oba poduzorka testiramo hipotezu:H0: nema povezanosti između dva stava studenata EF:

• da institucije u Srbiji dovoljno štite i poštuju ljudska prava, i • da žene imaju ista prava i mogućnosti u našem društvu kao i muškarci;

Ha: postoji povezanost između dva stava.

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

38

• Za ženski poduzorak, ne odbacujemo nultu hipotezu i zaključujemo da nema povezanosti između ova dva stava kod

studentkinja (p=0,160 > α=0,05);• Kod muškog poduzorka je drugačije (p=0,036 < α=0,05).

p-vrednost

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

39

Hi-kvadrat test prilagođenosti

• Koristi se da se odredi da li populacijski raspored odgovara nekom konkretnom, očekivanom obliku rasporeda verovatnoća

• Koristi se u obliku:Oi = realizacija u polju iEi = očekivana vrednosti u polju ik = broj međusobno odvojenih kategorija

– Broj stepeni slobode: v = (k – 1).

( )∑=

−=

k

i i

ii

EEO

1

22χ

Primer D• Postavlja se pitanje da li je broj dolazaka studenata u čitaonicu ravnomerno raspoređen tokom radnih dana.

• Jedan student je svakog radnog dana dolazio u čitaonicu u isto vreme i brojao prisutne studente.

• Kako će testirati pretpostavku o ravnomernosti dolazaka u čitaonicu?

• Pretpostavićemo da svaki student ima pravo da koristi čitaonicu samo jednom nedeljno (da bi opservacije bile nezavisne, odnosno da bismo mogli koristiti Hi-kvadrat).

• Koristićemo nivo značajnosti od 1% (0,01).Novembar 2016 Istraž ivanje trž išta

Ekonomski fakultet, Beograd40

Page 11: TESTIRANJE HIPOTEZA – OSNOVNI KONCEPTI I X. Testiranje ... · tabele dimenzija 2x2: u intervalu je od 0 do 1, što je bliže 1 to je povezanost jača; • Za ostale tabele nema

10/11/2016

11

Empirijska raspodela za Primer D

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

41

Štapićasti dijagram za Primer D

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

42

odlasci_u_čitaonicu6543210

Frequency

100

80

60

40

20

0

Mean =2.75 Std. Dev. =1.325

N =339

Nulta i alternativna hipotezaH0: Raspodela dolaska sudenata u čitaonicu prati

uniformnu raspodelu radnim danima;Ha: Raspodela dolaska sudenata u čitaonicu ne

prati uniformnu raspodelu radnim danima.

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

43

( )∑=

−=

k

i i

ii

EEO

1

22χ

• Testira se putem Hi-kvadrat testa prilagođenosti:Oi = realizacija u polju iEi = očekivana vrednosti u polju ik = broj međusobno odvojenih kategorija

– Broj stepeni slobode: v = (k – 1).

Opservirana i očekivana frekvencija

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

44

Očekivana frekvencijaOpservirana frekvencija

Page 12: TESTIRANJE HIPOTEZA – OSNOVNI KONCEPTI I X. Testiranje ... · tabele dimenzija 2x2: u intervalu je od 0 do 1, što je bliže 1 to je povezanost jača; • Za ostale tabele nema

10/11/2016

12

Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd

45

Broj stepeni slobode(degrees of freedom)

VrednostHi-kvadrat statistike

p-vrednost

p=0 < 0,01, pa se odbacuje nulta hipoteza,ØBroj odlazaka u čitaonicu radnim danom ne prati uniformnu raspodelu.