12
16/11/2018 1 TESTIRANJE HIPOTEZA OSNOVNI KONCEPTI I TESTOVI POVEZANOSTI Novembar 2018 Novembar 2018 Istraživanje tržišta Ekonomski fakultet , Beograd 2 X . Testiranje hipoteza Osnovni koncepti testiranja hipoteza Unakrsno tabeliranje i hi-kvadrat Testiranje hipoteza o srednjoj vrednosti i proporcijama ANOVA Novembar 2018 Istraživanje tržišta Ekonomski fakultet , Beograd 3 Novembar 2018 Istraživanje tržišta Ekonomski fakultet , Beograd 4 Osnovni koncepti testiranja hipoteza Nulta i alternativna hipoteza Izbor relevantnog statističkog testa i odgovarajućeg rasporeda verovatnoća Izbor kritične vrednosti

TESTIRANJE HIPOTEZA – OSNOVNI KONCEPTI I X. Testiranje … · 2018-11-16 · 16/11/2018 1 TESTIRANJE HIPOTEZA – OSNOVNI KONCEPTI I TESTOVI POVEZANOSTI • Novembar2018 Novembar2018

  • Upload
    others

  • View
    16

  • Download
    0

Embed Size (px)

Citation preview

16/11/2018

1

TESTIRANJE HIPOTEZA –OSNOVNI KONCEPTI I

TESTOVI POVEZANOSTI• Novembar 2018

Novembar 2018 Istraživanje tržišta

Ekonomski fakultet, Beograd

2

X. Testiranje hipoteza

• Osnovni koncepti testiranja hipoteza

• Unakrsno tabeliranje i hi-kvadrat

• Testiranje hipoteza o srednjoj vrednosti i

proporcijama

• ANOVA

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

3 Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

4

Osnovni koncepti testiranja hipoteza

• Nulta i alternativna hipoteza• Izbor relevantnog statističkog testa i

odgovarajućeg rasporeda verovatnoća• Izbor kritične vrednosti

16/11/2018

2

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

5

Izbor statističkog testa i odgovarajućeg rasporeda

• Izbor odgovarajućeg rasporeda verovatnoća zavisi od osnovnog cilja iz koga se hipoteza testira, npr.:– Poređenje uzorka i populacije po određenim

karakteristikama, ili– Poređenje dva uzorka po određenim karakteristikama

(srednje vrednosti, proporcije, varijanse,..)• Različiti statistički testovi se koriste u različite

svrhe, što zavisi i od:– Veličine uzorka,– Da li je poznata populacijska standardna devijacija.

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

6

Nulta i alternativna hipoteza• Cilj je da se donese sud o razlici između

statističkih pokazatelja uzorka i hipotetičkih vrednosti parametara populacije, ili

• Cilj je da se donese sud o razlici između statističkih pokazatelja dva uzorka.

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

7

Izbor kritične vrednosti• Nivo značajnosti, a, pokazuje procenat

uzoračkih realizacija koje se nalaze izvan definisanih granica

• Stepeni slobode

• Jednostrani (jednosmerni) ili dvostrani (dvosmerni) testovi

Nivo značajnosti, α

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

8

Ispravne odluke i greške I i II vrste

Odluka Odbaciti H0 Ne odbaciti H0

Istina H0 Greška I vrste, a Ispravna odluka,

1-a

Ha Ispravna odluka, Jačina testa, 1-b

Greška II vrste, b

Ø Ako u zadatku nije naveden nivo značajnosti, smatra se da je α=0,05 (tj. 5%).

16/11/2018

3

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

9

Unakrsno tabeliranje i hi-kvadrat testovi

• Hi-kvadrat test nezavisnosti• Mere povezanosti za nominalne varijable• Hi-kvadrat test prilagođenosti

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

10

Tehnike za analizu podataka

Univarijacione tehnike

Multivarijacione tehnike

Posmatra se samo jedna promenljiva

Posmatra se više promenljivih istovremeno

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

11

Univarijacione tehnike za analizu podataka

Neparametarske statističke tehnike

Parametarske statističke tehnike

Podaci su nemetrički (nominalna i ordinalna skala)

Podaci su metrički (intervalna i skala odnosa)

Novembar 2018 Istraživanje tržišta

Ekonomski fakultet, Beograd

12

Neparametarske tehnike analize podataka

- Hi-kvadrat- Kolmogorov-

Smirnov

- RUNS

Postoji samo jedan uzorak

Postoje dva ili više uzoraka

Nezavisni uzorci

Zavisni uzorci

- Hi-kvadrat- Suma rangova- Kolmogorov –

Smirnov- KW ANOVA

- Test znakova- Vilkoksov test- Meknimarov

test- Kokranov Q-

test

16/11/2018

4

Pretpostavke na kojima sezasniva χ2-test

• Da je uzorak prost slučajan uzorak; • Nezavisnosti opservacija je od kritične važnosti

– Nezavisnost opservacija znači da je izbor i merenjeobavljeno na jednom članu uzorka potpuno nezavisno odizbora ostalih članova uzorka, odnosno merenja;

• Ne sme da bude preklapanja kategorija (disjunktnost) i sve opservacije moraju biti uključene;

• Uzorak je dovoljno velik:– Empirijsko pravilo koje se lako proverava, a koje ćemo mi

koristiti, je da očekivana frekvencija u svakom polju ne sme biti manja od 5.

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

13 Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

14

Hi-kvadrat test nezavisnosti (nominalnih) varijabli

• Primenjuje se u tabelama kontingencijeH0: Dve (nominalne) varijable su međusobno nezavisneHa: Postoji zavisnost među dvema varijablama

• Hi-kvadrat raspored je određen svojim stepenima slobode, , r®br.redova, c®br.kolona– Hi-kvadrat-statistika, c2, je mera razlike između stvarnog

broja opservacija u polju i, u oznaci Oi, i broja opservacija koji bi se očekivao da je nulta hipoteza istinita, to jest pod pretpostavkom statističke nezavisnosti, Ei.

( )å =

-=

k

ii

ii

EEO

1

22c

)1()1( -×-= crv

Primer A• Istraživanje na EF se bavilo zainteresovanošću

studenata za društvenu mrežu Fejsbuk (da li student ima ili nema otvoren nalog na FB), u zavisnosti od pola studenata.

• Istraživanje je obavljeno na uzorku veličinen=380 studenata EF. Podaci dobijeni na uzorkusu tabelirani u tabeli kontingencije.

• Da li, na nivou značajnosti od 0,05, možemo da zaključimo da postoji povezanost između polastudenata i njihove sklonosti da imaju otvorennalog na Fejsbuku?

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

15 Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

16

Da li imaš otvoren nalog na Fejsbuku? * POL STUDENTA Crosstabulation

Count

POL STUDENTA Total muški ženski Da li imaš otvoren nalog na Fejsbuku?

da 83 224 307 ne 32 41 73

Total 115 265 380

• Kakve su ovo varijable? • Koliko imaju kategorija (nivoa)?• Da li su disjunktni?• Koje još informacije možemo pročitati iz tabele

kontingencije?

16/11/2018

5

Nulta i alternativna hipoteza, Hi-kvadrat statistika

H0: Nema povezanosti između pola studenata EF i da li imaju otvoren nalog na Fejsbuku ili ne;

Ha: Postoji povezanost između ove dve varijable.

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

17

( )å =

-=

k

ii

ii

EEO

1

22c

v = (r −1) ⋅ (c−1)

O, E – opservirana i očekivana frekvencija u poljur, c - broj redova i kolona u tabeli kontingencijek = r cBroj stepeni slobode:

Očekivana frekvencija (1)• Računamo šta bismo očekivali da bude u tim

poljima ako bi dva događaja bila nezavisna• Verovatnoća složenog događaja koji se sastoji

od dva statistički nezavisna događaja se računakao proizvod verovatnoća ta dva nezavisnadogađaja:

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

18

Očekivana frekvencija (2)• Odnosno, očekivana frekvencija za polje muški

pol/ otvoren FB nalog, bi bila:

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

19

gde je n ukupan broj ispitanika.

Izlazni rezultat SPSS

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

20

Opservirana frekvencija

Očekivana frekvencija

16/11/2018

6

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

21

χ 2 =Oi − Ei( )

2

Eii=1k∑ =

=(83−93)2

93+(224− 214)2

214+(41−51)2

51+(32− 22)2

22= 7,887

Hi-kvadrat test

VrednostHi-kvadrat statistike

Stepeni slobode(Degrees of freedom, df)

p-vrednost(dvostrana)

p-vrednost je manja od nivoa značajnosti, t.j. 0,005<0,05, odnosno χ2=7,887 > 3,83 (tablična vrednost za α=5% iz χ2-raspodele sa 1 stepenom slobode), pa sledi: ØOdbacujemo H0 i zaključujemo da bi mogla da postoji statistički značajna povezanost između korišćenja FB i pola studenata EF.

p-vrednosti• Pravila koja važe za testiranje svih hipoteza

preko p-vrednosti su sledeća:ØAko je p ≤ a, H0 se odbacuje, odnosnoØAko je p > a, H0 se ne odbacuje;

– Kada statistički softver prikaže p-vrednost zadvostrani test, a nama je potreban jednostrani, datu p-vrednost treba podeliti sa 2;

– Ako je data p-vrednost za jednostrani test, a nama je potreban dvostrani test, prikazanu p-vrednost treba pomnožiti sa 2.

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

22

Dvostrani test

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

23

Primer B• Na bazi obavljenog istraživanja nad studentima

EF proveriti da li postoji povezanost između stavova studenata o tome da li institucije u Srbiji dovoljno štite i poštuju ljudska prava, sa jedne strane, i da li žene imaju ista prava i mogućnosti u našem društvu kao i muškarci, sa druge strane. Studenti su na postavljena pitanja odgovarali sa da ili ne. Podatke dobijene iz uzorka koji su obrađeni na programskom paketu SPSS ilustruje tabela; koristimo α=0,05.

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

24

16/11/2018

7

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

25

Nulta i alternativna hipoteza

H0: Nema povezanosti između dva stava kodstudenata EF:

1. da institucije u Srbiji dovoljno štite i poštujuljudska prava, i

2. da žene imaju ista prava i mogućnosti u našemdruštvu kao i muškarci,;

Ha: Postoji povezanost između ova dva stava.

Računamo Hi-kvadrat statistiku za razliku izmeđuopserviranih i očekivanih frekvencija

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

26

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

27

Očekivana frekvencija

Opservirana frekvencija

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

28

Hi-kvadrat testp-vrednost

• p=0,003, manje od a=0,05, pa se nulta hipotezaodbacuje u korist alternativne;

Ø Verovatno postoji povezanost između stavova;• („Verovatno” jer i dalje postoji mogućnost greške I vrste)

16/11/2018

8

Jačina povezanosti i mere povezanosti za nominalne varijable

• Hi-kvadrat statistika:– Sumarni pokazatelj odstupanja očekivanih od opserviranih

frekvencija, logična mera jačine povezanosti, ali – Njena veličina je direktno proporcionalna veličini uzorka;– Rezultati su validni samo ako je vrednost očekivane

frekvencije u svakom polju tabele najmanje 5;• Mere koje se baziraju na Hi-kvadrat statistici:

– Fi-koeficijent; – Koeficijent kontingencije, C; i – Kramerovo V.

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

29

Fi-koeficijent

• Nije osetljiv na veličinu uzorka;• Daje informaciju o jačini povezanosti samo za

tabele dimenzija 2x2: u intervalu je od 0 do 1, što je bliže 1 to je povezanost jača;

• Za ostale tabele nema gornju granicu;• Poređenje jačine povezanosti različitih tabela je

smisleno samo ako su one istih dimenzija.

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

30

ϕ 2 =χ 2

n, ϕ = ϕ 2

Koeficijent kontingencije

• Vrednost uvek između 0 i 1, ali nikad 1. približava se

sa povećanjem broja dimenzija.

– Gornja granica zavisi od broja redova i kolona.

• Pruža dobru informaciju o jačini veze nekog para

varijabli kada one imaju jednak broj kategorija:

– Tada se može izračunati tačna vrednost gornje granice

prema obrascu (r-1)/r, gde je r broj kolona, odnosno redova;

toliko iznosi vrednost C kada postoji savršena veza. Novembar 2018 Istraživanje tržišta

Ekonomski fakultet, Beograd31

C = χ 2

χ 2 + n,

Kramerovo V

• Daje mogućnost poređenja tabela sa različitim brojem redova i kolona;– Ima vrednosti između 0 i 1, ali je sada 1 savršena

povezanost i može se postići za svaki tip tabele (bez obzira da li ima jednak broj redova i kolona ili ne).

• ALI: teži ka jedinici sa povećanjem razlike između broja redova i kolona, čak i ako zapravo ne postoji smislena veza između varijabli.

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

32

V =ϕ 2

min (r −1),(c−1)⎡⎣ ⎤⎦=

χ 2 nmin (r −1),(c−1)⎡⎣ ⎤⎦

,

16/11/2018

9

Primer C

• Proveriti da li je povezanost između stavova o:1. Da li institucije u Srbiji dovoljno štite i poštuju

ljudska prava (da/ne), i 2. Da li žene imaju ista prava i mogućnosti u

našem društvu kao i muškarci (da/ne), jača kod muške ili kod ženske populacijestudenata EF.

• Podaci su dati tabelom.

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

33 Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

34

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

35

Mere jačine povezanosti

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

36

16/11/2018

10

• Za tabele kontingencije dimenzija 2x2, kao što su ove, sva 3 koeficijenta imaju definisane gornje granice i možemo da posmatramo apsolutne veličine koeficijenata;

• Koeficijenti imaju slične vrednosti za obe tabele:– Pokazuju da je jača veza postignuta u poduzorku

muške populacije; – Veza nije mnogo jaka jer koeficijenti nisu ni blizu

svojih gornjih granica (gornje granice su po redosledu koeficijenata u tabeli: 1; 1; i 0,5);

– Veza posebno slaba u ženskom poduzorku.

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

37

Hi-kvadrat test nezavisnostiNa oba poduzorka testiramo hipotezu:H0: nema povezanosti između dva stava studenata EF:

• da institucije u Srbiji dovoljno štite i poštuju ljudska prava, i • da žene imaju ista prava i mogućnosti u našem društvu kao i muškarci;

Ha: postoji povezanost između dva stava.

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

38

• Za ženski poduzorak, ne odbacujemo nultu hipotezu izaključujemo da nema povezanosti između ova dva stava kodstudentkinja (p=0,160 > α=0,05);

• Kod muškog poduzorka je drugačije (p=0,036 < α=0,05).

p-vrednost

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

39

Hi-kvadrat test prilagođenosti• Koristi se da se odredi da li populacijski raspored

odgovara nekom konkretnom, očekivanom obliku rasporeda verovatnoća

• Koristi se u obliku:Oi = realizacija u polju iEi = očekivana vrednosti u polju ik = broj međusobno odvojenih kategorija

– Broj stepeni slobode: v = (k – 1).

( )å=

-=

k

i i

ii

EEO

1

22c

Primer D• Postavlja se pitanje da li je broj dolazaka studenata u

čitaonicu ravnomerno raspoređen tokom radnih dana. • Jedan student je svakog radnog dana dolazio u

čitaonicu u isto vreme i brojao prisutne studente. • Kako će testirati pretpostavku o ravnomernosti

dolazaka u čitaonicu?• Pretpostavićemo da svaki student ima pravo da koristi

čitaonicu samo jednom nedeljno (da bi opservacije bile nezavisne, odnosno da bismo mogli koristiti Hi-kvadrat).

• Koristićemo nivo značajnosti od 1% (0,01).Novembar 2018 Istraživanje tržišta

Ekonomski fakultet, Beograd40

16/11/2018

11

Empirijska raspodela za Primer D

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

41

Štapićasti dijagram za Primer D

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

42

odlasci_u_čitaonicu6543210

Frequency

100

80

60

40

20

0

Mean =2.75 Std. Dev. =1.325

N =339

Nulta i alternativna hipotezaH0: Raspodela dolaska sudenata u čitaonicu prati

uniformnu raspodelu radnim danima;Ha: Raspodela dolaska sudenata u čitaonicu ne

prati uniformnu raspodelu radnim danima.

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

43

( )å=

-=

k

i i

ii

EEO

1

22c

• Testira se putem Hi-kvadrat testa prilagođenosti:Oi = realizacija u polju iEi = očekivana vrednosti u polju ik = broj međusobno odvojenih kategorija

– Broj stepeni slobode: v = (k – 1).

Opservirana i očekivana frekvencija

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

44

Očekivana frekvencijaOpservirana frekvencija

16/11/2018

12

Novembar 2018 Istraživanje tržištaEkonomski fakultet, Beograd

45

Broj stepeni slobode(degrees of freedom)

VrednostHi-kvadrat statistike

p-vrednost

p=0 < 0,01, pa se odbacuje nulta hipoteza,ØBroj odlazaka u čitaonicu radnim danom ne prati uniformnu raspodelu.