Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
10/11/2016
1
TESTIRANJE HIPOTEZA –OSNOVNI KONCEPTI I
TESTOVI POVEZANOSTI• Novembar 2016
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
2
X. Testiranje hipoteza
• Osnovni koncepti testiranja hipoteza• Unakrsno tabeliranje i hi-kvadrat• Testiranje hipoteza o srednjoj vrednosti i proporcijama
• ANOVA
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
3 Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
4
Osnovni koncepti testiranja hipoteza
• Nulta i alternativna hipoteza• Izbor relevantnog statističkog testa i odgovarajućeg rasporeda verovatnoća
• Izbor kritične vrednosti
10/11/2016
2
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
5
Izbor statističkog testa i odgovarajućeg rasporeda
• Izbor odgovarajućeg rasporeda verovatnoća zavisi od osnovnog cilja iz koga se hipoteza testira, npr.:– Poređenje uzorka i populacije po određenim
karakteristikama, ili– Poređenje dva uzorka po određenim karakteristikama
(srednje vrednosti, proporcije, varijanse,..)• Različiti statistički testovi se koriste u različite
svrhe, što zavisi i od:– Veličine uzorka,– Da li je poznata populacijska standardna devijacija.
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
6
Nulta i alternativna hipoteza
• Cilj je da se donese sud o razlici između statističkih pokazatelja uzorka i hipotetičkih vrednosti parametara populacije, ili
• Cilj je da se donese sud o razlici između statističkih pokazatelja dva uzorka.
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
7
Izbor kritične vrednosti• Nivo značajnosti, α, pokazuje procenat
uzoračkih realizacija koje se nalaze izvan definisanih granica
• Stepeni slobode
• Jednostrani (jednosmerni) ili dvostrani (dvosmerni) testovi
Nivo značajnosti, α
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
8
Ø Ako u zadatku nije naveden nivo značajnosti, smatra se da je α=0,05 (tj. 5%).
10/11/2016
3
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
9
Unakrsno tabeliranje i hi-kvadrat testovi
• Hi-kvadrat test nezavisnosti• Mere povezanosti za nominalne varijable• Hi-kvadrat test prilagođenosti
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
10
Tehnike za analizu podataka
Univarijacione tehnike
Multivarijacione tehnike
Posmatra se samo jedna promenljiva
Posmatra se više promenljivih istovremeno
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
11
Univarijacione tehnike za analizu podataka
Neparametarske statističke tehnike
Parametarske statističke tehnike
Podaci su nemetrički (nominalna i ordinalna skala)
Podaci su metrički (intervalna i skala odnosa)
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
12
Neparametarske tehnike analize podataka
- Hi-kvadrat- Kolmogorov-Smirnov
- RUNS
Postoji samo jedan uzorak
Postoje dva ili više uzoraka
Nezavisni uzorci
Zavisni uzorci
- Hi-kvadrat- Suma rangova- Kolmogorov –Smirnov
- KW ANOVA
- Test znakova- Vilkoksov test- Meknimarov test
- Kokranov Q-test
10/11/2016
4
Pretpostavke na kojima sezasniva χ2-test
• Da je uzorak prost slučajan uzorak; • Nezavisnosti opservacija je od kritične važnosti
– Nezavisnost opservacija znači da je izbor i merenjeobavljeno na jednom članu uzorka potpuno nezavisno odizbora ostalih članova uzorka, odnosno merenja;
• Ne sme da bude preklapanja kategorija (disjunktnost) i sve opservacije moraju biti uključene;
• Uzorak je dovoljno velik:– Empirijsko pravilo koje se lako proverava, a koje ćemo mi
koristiti, je da očekivana frekvencija u svakom polju ne sme biti manja od 5.
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
13 Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
14
Hi-kvadrat test nezavisnosti (nominalnih) varijabli
• Primenjuje se u tabelama kontingencijeH0: Dve (nominalne) varijable su međusobno nezavisneHa: Postoji zavisnost među dvema varijablama
• Hi-kvadrat raspored je određen svojim stepenima slobode, , r→br.redova, c→br.kolona– Hi-kvadrat-statistika, χ2, je mera razlike između stvarnog
broja opservacija u polju i, u oznaci Oi, i broja opservacija koji bi se očekivao da je nulta hipoteza istinita, to jest pod pretpostavkom statističke nezavisnosti, Ei.
( )∑ =
−=
k
ii
ii
EEO
1
22χ
)1()1( −⋅−= crv
Primer A• Istraživanje na EF se bavilo zainteresovanošću
studenata za društvenu mrežu Fejsbuk (da li student ima ili nema otvoren nalog na FB), u zavisnosti od pola studenata.
• Istraživanje je obavljeno na uzorku veličinen=380 studenata EF. Podaci dobijeni na uzorkusu tabelirani u tabeli kontingencije.
• Da li, na nivou značajnosti od 0,05, možemo da zaključimo da postoji povezanost između polastudenata i njihove sklonosti da imaju otvorennalog na Fejsbuku?
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
15 Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
16
• Kakve su ovo varijable? • Koliko imaju kategorija (nivoa)?• Da li su disjunktni?• Koje još informacije možemo pročitati iz tabele
kontingencije?
10/11/2016
5
Nulta i alternativna hipoteza, Hi-kvadrat statistika
H0: Nema povezanosti između pola studenata EF i da li imaju otvoren nalog na Fejsbuku ili ne;
Ha: Postoji povezanost između ove dve varijable.
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
17
( )∑ =
−=
k
ii
ii
EEO
1
22χ
v = (r −1) ⋅ (c−1)
O, E – opservirana i očekivana frekvencija u poljur, c - broj redova i kolona u tabeli kontingencijek = r cBroj stepeni slobode:
Očekivana frekvencija (1)
• Računamo šta bismo očekivali da bude u timpoljima ako bi dva događaja bila nezavisna
• Verovatnoća složenog događaja koji se sastojiod dva statistički nezavisna događaja se računakao proizvod verovatnoća ta dva nezavisnadogađaja:
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
18
Očekivana frekvencija (2)
• Odnosno, očekivana frekvencija za polje muški pol/ otvoren FB nalog, bi bila:
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
19
gde je n ukupan broj ispitanika.
Izlazni rezultat SPSS
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
20
Opservirana frekvencija
Očekivana frekvencija
10/11/2016
6
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
21
χ 2 =Oi − Ei( )
2
Eii=1k∑ =
=(83−93)2
93+(224− 214)2
214+(41−51)2
51+(32− 22)2
22= 7,887
Hi-kvadrat test
VrednostHi-kvadrat statistike
Stepeni slobode(Degrees of freedom, df)
p-vrednost(dvostrana)
p-vrednost je manja od nivoa značajnosti, t.j. 0,005<0,05, odnosno χ2=7,887 > 3,83 (tablična vrednost za α=5% iz χ2-raspodele sa 1 stepenom slobode), pa sledi: ØOdbacujemo H0 i zaključujemo da bi mogla da postoji statistički značajna povezanost između korišćenja FB i pola studenata EF.
p-vrednosti
• Pravila koja važe za testiranje svih hipotezapreko p-vrednosti su sledeća:
Ø Ako je p ≤ α, H0 se odbacuje, odnosnoØ Ako je p > α, H0 se ne odbacuje;
– Kada statistički softver prikaže p-vrednost zadvostrani test, a nama je potreban jednostrani, datu p-vrednost treba podeliti sa 2;
– Ako je data p-vrednost za jednostrani test, a nama je potreban dvostrani test, prikazanu p-vrednost treba pomnožiti sa 2.
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
22
Dvostrani test
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
23
Primer B
• Na bazi obavljenog istraživanja nad studentima EF proveriti da li postoji povezanost između stavova studenata o tome da li institucije u Srbiji dovoljno štite i poštuju ljudska prava, sa jedne strane, i da li žene imaju ista prava i mogućnosti u našem društvu kao i muškarci, sa druge strane. Studenti su na postavljena pitanja odgovarali sa da ili ne. Podatke dobijene iz uzorka koji su obrađeni na programskom paketu SPSS ilustruje tabela; koristimo α=0,05.
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
24
10/11/2016
7
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
25
Nulta i alternativna hipoteza
H0: Nema povezanosti između dva stava kodstudenata EF:
1. da institucije u Srbiji dovoljno štite i poštujuljudska prava, i
2. da žene imaju ista prava i mogućnosti u našemdruštvu kao i muškarci,;
Ha: Postoji povezanost između ova dva stava.
Računamo Hi-kvadrat statistiku za razliku izmeđuopserviranih i očekivanih frekvencija
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
26
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
27
Očekivana frekvencija
Opservirana frekvencija
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
28
Hi-kvadrat testp-vrednost
• p=0,003, manje od α=0,05, pa se nulta hipotezaodbacuje u korist alternativne;
Ø Verovatno postoji povezanost između stavova;• („Verovatno” jer i dalje postoji mogućnost greške I vrste)
10/11/2016
8
Jačina povezanosti i mere povezanosti za nominalne varijable
• Hi-kvadrat statistika:– Sumarni pokazatelj odstupanja očekivanih od opserviranih
frekvencija, logična mera jačine povezanosti, ali – Njena veličina je direktno proporcionalna veličini uzorka;– Rezultati su validni samo ako je vrednost očekivane
frekvencije u svakom polju tabele najmanje 5;
• Mere koje se baziraju na Hi-kvadrat statistici:– Fi-koeficijent; – Koeficijent kontingencije, C; i – Kramerovo V.
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
29
Fi-koeficijent
• Nije osetljiv na veličinu uzorka;• Daje informaciju o jačini povezanosti samo za
tabele dimenzija 2x2: u intervalu je od 0 do 1, što je bliže 1 to je povezanost jača;
• Za ostale tabele nema gornju granicu;• Poređenje jačine povezanosti različitih tabela je
smisleno samo ako su one istih dimenzija.
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
30
ϕ 2 =χ 2
n, ϕ = ϕ 2
Koeficijent kontingencije
• Vrednost uvek između 0 i 1, ali nikad 1. približava se sa povećanjem broja dimenzija. – Gornja granica zavisi od broja redova i kolona.
• Pruža dobru informaciju o jačini veze nekog para varijabli kada one imaju jednak broj kategorija:– Tada se može izračunati tačna vrednost gornje granice
prema obrascu (r-1)/r, gde je r broj kolona, odnosno redova; toliko iznosi vrednost C kada postoji savršena veza.
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
31
C = χ 2
χ 2 + n,
Kramerovo V
• Daje mogućnost poređenja tabela sa različitim brojem redova i kolona;– Ima vrednosti između 0 i 1, ali je sada 1 savršena
povezanost i može se postići za svaki tip tabele (bez obzira da li ima jednak broj redova i kolona ili ne).
• ALI: teži ka jedinici sa povećanjem razlike između broja redova i kolona, čak i ako zapravo ne postoji smislena veza između varijabli.
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
32
V =ϕ 2
min (r −1),(c−1)⎡⎣ ⎤⎦=
χ 2 nmin (r −1),(c−1)⎡⎣ ⎤⎦
,
10/11/2016
9
Primer C
• Proveriti da li je povezanost između stavova o:1. Da li institucije u Srbiji dovoljno štite i poštuju
ljudska prava (da/ne), i 2. Da li žene imaju ista prava i mogućnosti u
našem društvu kao i muškarci (da/ne), jača kod muške ili kod ženske populacijestudenata EF.
• Podaci su dati tabelom.
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
33 Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
34
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
35
Mere jačine povezanosti
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
36
10/11/2016
10
• Za tabele kontingencije dimenzija 2x2, kao što su ove, sva 3 koeficijenta imaju definisane gornje granice i možemo da posmatramo apsolutne veličine koeficijenata;
• Koeficijenti imaju slične vrednosti za obe tabele:– Pokazuju da je jača veza postignuta u poduzorku
muške populacije; – Veza nije mnogo jaka jer koeficijenti nisu ni blizu
svojih gornjih granica (gornje granice su po redosledu koeficijenata u tabeli: 1; 1; i 0,5);
– Veza posebno slaba u ženskom poduzorku.
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
37
Hi-kvadrat test nezavisnostiNa oba poduzorka testiramo hipotezu:H0: nema povezanosti između dva stava studenata EF:
• da institucije u Srbiji dovoljno štite i poštuju ljudska prava, i • da žene imaju ista prava i mogućnosti u našem društvu kao i muškarci;
Ha: postoji povezanost između dva stava.
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
38
• Za ženski poduzorak, ne odbacujemo nultu hipotezu i zaključujemo da nema povezanosti između ova dva stava kod
studentkinja (p=0,160 > α=0,05);• Kod muškog poduzorka je drugačije (p=0,036 < α=0,05).
p-vrednost
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
39
Hi-kvadrat test prilagođenosti
• Koristi se da se odredi da li populacijski raspored odgovara nekom konkretnom, očekivanom obliku rasporeda verovatnoća
• Koristi se u obliku:Oi = realizacija u polju iEi = očekivana vrednosti u polju ik = broj međusobno odvojenih kategorija
– Broj stepeni slobode: v = (k – 1).
( )∑=
−=
k
i i
ii
EEO
1
22χ
Primer D• Postavlja se pitanje da li je broj dolazaka studenata u čitaonicu ravnomerno raspoređen tokom radnih dana.
• Jedan student je svakog radnog dana dolazio u čitaonicu u isto vreme i brojao prisutne studente.
• Kako će testirati pretpostavku o ravnomernosti dolazaka u čitaonicu?
• Pretpostavićemo da svaki student ima pravo da koristi čitaonicu samo jednom nedeljno (da bi opservacije bile nezavisne, odnosno da bismo mogli koristiti Hi-kvadrat).
• Koristićemo nivo značajnosti od 1% (0,01).Novembar 2016 Istraž ivanje trž išta
Ekonomski fakultet, Beograd40
10/11/2016
11
Empirijska raspodela za Primer D
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
41
Štapićasti dijagram za Primer D
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
42
odlasci_u_čitaonicu6543210
Frequency
100
80
60
40
20
0
Mean =2.75 Std. Dev. =1.325
N =339
Nulta i alternativna hipotezaH0: Raspodela dolaska sudenata u čitaonicu prati
uniformnu raspodelu radnim danima;Ha: Raspodela dolaska sudenata u čitaonicu ne
prati uniformnu raspodelu radnim danima.
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
43
( )∑=
−=
k
i i
ii
EEO
1
22χ
• Testira se putem Hi-kvadrat testa prilagođenosti:Oi = realizacija u polju iEi = očekivana vrednosti u polju ik = broj međusobno odvojenih kategorija
– Broj stepeni slobode: v = (k – 1).
Opservirana i očekivana frekvencija
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
44
Očekivana frekvencijaOpservirana frekvencija
10/11/2016
12
Novembar 2016 Istraž ivanje trž ištaEkonomski fakultet, Beograd
45
Broj stepeni slobode(degrees of freedom)
VrednostHi-kvadrat statistike
p-vrednost
p=0 < 0,01, pa se odbacuje nulta hipoteza,ØBroj odlazaka u čitaonicu radnim danom ne prati uniformnu raspodelu.