Upload
phamkhanh
View
237
Download
2
Embed Size (px)
Citation preview
Uvod u vjerojatnost i statistiku 1
Prikazivanje podataka
Prikupljanje i organizacija podataka
• Podaci iz javnih izvora (knjige, casopisi, novine, web).
• Podaci iz dizajniranog eksperimenta (istrazivac rasporeduje eksperi-
mentalne jedinke u skupine nad kojima vrsi eksperimente te biljezi
rezultate mjerenja ili opazanja za varijable koje ga zanimaju).
Primjer 1: Jedno medicinsko istrazivanje proucava snagu nekog lijeka
u prevenciji mozdanog udara. Skupinu ljudi s kojima ce se vrsiti is-
trazivanje istrazivac dijeli na dvije skupine: tretiranu i kontrolnu. Lju-
dima u tretiranoj skupini daje se lijek, dok se ljudima u kontrolnoj sku-
pini daje nadomjestak koji izgleda isto kao lijek ali zapravo nije nista
sto moze imati bilo kakav utjecaj na organizam (placebo).
• Podaci iz ankete
Istrazivac sastavlja anketni upitnik, izabire skupinu ljudi koju anketira
i na osnovu njihovih odgovora prikuplja podatke.
• Podaci prikupljeni promatranjem
Istrazivac promatra eksperimentalne jedinke u njihovom prirodnom
okruzenju i biljezi podatke za varijable od interesa.
• Neovisno o metodi prikupljanja podataka, podaci nisu nikada izmje-
reni na cijelom skupu jedinki na kojem nas zanimaju izabrane varijable
i koji zovemo populacija nego na jednom njegovom dijelu koji cemo
zvati uzorak.
Primjer 2: Zelimo unaprijed znati koja politicka stranka ce pobijediti
na sljedecim izborima. U tu svrhu anketiramo jednu skupinu gradana da
bismo prognozirali rezultate. Je li vazno kako biramo skupinu gradana?
Uvod u vjerojatnost i statistiku 2
• Ako zelimo primjenjivati statisticko zakljucivanje, podaci moraju biti
prikupljeni na uzorku koji je reprezentativan za populaciju koja nas
zanima.
• Reprezentativan uzorak mora odrazavati populaciju tj. u njemu
trebaju biti zastupljene sve tipicne karakteristike populacije.
• Najcesci nacin odabira jedinki iz populacije u reprezentativan uzorak
je tzv. slucajan uzorak, tj. takav izbor u kojem svaka jedinka ima
jednaku sansu biti izabrana u uzorak. O ovom postupku odabira jedinki
u uzorak bit ce rijeci poslije.
Uvod u vjerojatnost i statistiku 3
Tipovi varijabli
• Varijabla - karakteristika ili svojstvo jedinke iz populacije ili uzorka.
• Kvalitativne varijable - varijable kojima ne mozemo na prirodan
nacin pridruziti numericke vrijednosti, nego njihove vrijednosti klasifi-
ciramo u nekoliko razlicitih kategorija.
• Kvantitativne varijable - varijable cije su vrijednosti po samoj svojoj
prirodi numerickog karaktera.
Primjer 3: U bazi podataka hormon.sta nalaze se podaci o nivou tri razlicita
hormona u zelucu mjerenim na skupini bolesnika koji boluju od jedne od
sljedecih bolesti zeluca: samo gastritis, erozija zeluca, erozija dvanaesterca,
cir na zelucu te cir na dvanaestercu. Nadalje, za te bolesnike su takoder
prikupljeni podaci o spolu, o tome jesu li konzumenti kave, jesu li pusaci te
imaju li u zelucu bakteriju helicobacter pylori. Kojem tipu pripada svaka od
navedenih varijabli?
Rjesenje:
• Kvalitativne varijable: spol, dijagnoza, pusenje, alkohol, kava, CLO
test
• Kvantitativne varijable: Gastr S, Somat S, Somat Z
Primjer 4: U bazi podataka nalaz.sta nalaze se rezultati razlicitih medicin-
skih mjerenja. Kojem tipu pripadaju varijable navedene u toj bazi?
Rjesenje:
• Kvalitativne varijable: skupina, stupanj
• Kvantitativne varijable: sve ostale
Uvod u vjerojatnost i statistiku 4
Metode opisivanja skupa podataka
Metode opisivanja kvalitativnih podataka
Kvalitativne varijable primaju vrijednosti koje su razvrstane u kategorije.
Mjere kojima opisujemo zastupljenost jedne kategorije u uzorku su frekven-
cija kategorije i relativna frekvencija kategorije.
• Frekvencija kategorije je broj izmjerenih vrijednosti varijable
koje pripadaju danoj kategoriji. Ako s i oznacimo kategoriju od
interesa, njenu frekvenciju oznacavamo s
fi.
• Relativna frekvencija kategorije je broj izmjerenih vrijednosti
varijable koje pripadaju danoj kategoriji podijeljen s ukupnim
brojem izmjerenih vrijednosti za ispitivanu varijablu. Ako s n
oznacimo broj izmjerenih vrijednosti za ispitivanu varijablu, relativnu
frekvenciju i-te kategorije racunamo kao
fin.
Primjer 5: U bazi podataka hormon.sta odredite frekvencije i relativne frek-
vencije svih kategorija za varijable koje smatrate kvalitativnima.
Rjesenje:
• Statistics ⇒ Basic Statistics/Tables ⇒ Frequency Tables ⇒ Choose
variables ⇒ Summary
Primjer 6: U bazi podataka nalaz.sta odredite frekvencije i relativne frek-
vencije svih kategorija za varijable koje smatrate kvalitativnima.
Rjesenje:
• Statistics ⇒ Basic Statistics/Tables ⇒ Frequency Tables ⇒ Choose
variables ⇒ Summary
Uvod u vjerojatnost i statistiku 5
Graficki nacin prikazivanja frekvencija i relativnih frekvencija kategorija
kvalitativnih varijabli moze biti:
• histogram frekvencija
• histogram relativnih frekvencija
• pita (pie chart)
Primjer 7: Za podatke iz baze hormon.sta nacrtajte histogram frekvencija
i relativnih frekvencija svih kategorija za varijable koje smatrate kvalitativ-
nima.
Rjesenje:
• Histogram frekvencija: Statistics ⇒ Basic Statistics/Tables ⇒ Frequ-
ency Tables ⇒ Choose variables ⇒ Histograms
• Histogram relativnih frekvencija: Graphs ⇒ Histograms ⇒ Choose
variables ⇒ Advanced ⇒ Pod ”Y axis” ukljuciti ”%” ⇒ OK
Primjer 8: Za podatke iz baze nalaz.sta nacrtajte histogram frekvencija i re-
lativnih frekvencija svih kategorija za varijable koje smatrate kvalitativnima.
Rjesenje:
• Analogno kao primjer 7.
Uvod u vjerojatnost i statistiku 6
Metode opisivanja kvantitativnih podataka
• Kvantitativni podaci mogu ili biti razvrstani u kategorije ili ne.
Primjer 9: Proucite kvantitativne podatke u bazama hormon.sta i
anketa.sta. Koje varijable kvantitativnog karaktera su mjerene kao
kategorijalne, a koje ne?
Rjesenje:
– hormon.sta - niti jedna kvantitativna varijabla nije kategorizirana
– anketa.sta - kategorijalne varijable su: Br-kol, Polozeno, Prisutnost-
P, Prisutnost-V, Redovitost-P, Redovitost-V.
• Ako su kvantitativne varijable dane kategorijalno, mozemo u opisu mje-
renih vrijednosti za te varijable ponovo primijeniti frekvencije (odnosno
relativne frekvencije) pojedine kategorije i histograme.
Primjer 10: Odredite tablicu frekvencija i histogram za jednu od vari-
jabli iz baze anketa.sta po izboru.
Rjesenje:
– Tablica frekvencija: Statistics ⇒ Basic Statistics/Tables ⇒ Frequ-
ency Tables ⇒ Choose variables ⇒ Summary
– Histogram frekvencija: Statistics ⇒ Basic Statistics/Tables ⇒Frequency Tables ⇒ Choose variables ⇒ Histograms
• Ako numericke varijable nisu dane kategorijalno, za prikazivanje skupa
izmjerenih vrijednosti nece nam puno pomoci frekvencije i histogrami
radeni na osnovu svake pojedine izmjerene vrijednosti.
Primjer 11: Zasto? Otvorite bazu podataka hormon.sta i odredite
tablicu frekvencija i histogram neke od kvantitativnih varijabli tako da
za kategorije uzmete sve medusobno razlicite izmjerene vrijednosti.
Rjesenje:
Uvod u vjerojatnost i statistiku 7
– Zbog prevelikog broja razlicitih izmjerenih vrijednosti broj katego-
rija je prevelik i rezultat analize najcesce ne daje zeljene informa-
cije. Zato pribjegavamo drugim metodama kategoriziranja kvanti-
tativnih varijabli.
Postupak razvrstavanja kvantitativnih podataka u kategorije
• Najcesce skup svih mjerenih vrijednosti (ili nesto veci skup koji sadrzi
skup svih mjerenih vrijednosti ali je jednostavniji za podijeliti na jed-
nake dijelove) podijelimo na disjunktne intervale jednake duljine.
• Nije nuzno da intervali budu jednake duljine. Nema striktnog pravila
po kojemu bi trebalo definirati intervale niti nihov broj, ali je jasno
da ih ne smije biti niti previse niti premalo da bi cijeli postupak imao
smisla i sluzio svrsi (a to je u ovom casu prikazivanje skupa mjerenih
vrijednosti).
Primjer 12: Iskoristite podatke iz baze hormon.sta. Mijenjajte broj
intervala na koji dijelite skup vrijednosti. Proucavajte sto se dogada i
pribiljezite vas zakljucak.
Numericke karakteristike skupa kvantitativnih podataka
Karakteristika kvantitativnih podataka je da medu njima postoji uredaj. Na
osnovu te cinjenice mozemo definirati numericke karakteristike koje imaju
logicnu interpretaciju i mogu se iskoristiti u cilju prikazivanja skupa mjere-
nih vrijednosti.
Numericke karakteristike za mjerenje centralne tendencije
• Aritmeticka sredina
Aritmeticka sredina niza izmjerenih vrijednosti x1, x2, . . . , xn definirana
je izrazom:
x =1
n
n∑i=1
xi
Aritmeticka sredina je numericka karakteristika koja spada u mjere
centralne tendencije, tj. mjeri ”srednju vrijednost” podataka.
Uvod u vjerojatnost i statistiku 8
• Median
Da bismo razumjeli i odredili median potrebno je prvo poredati izmje-
rene vrijednosti po velicini (u rastucem ili padajucem poretku).
Median je takoder jedna mjera centralne tendencije kao i aritmeticka
sredina, a ima znacenje vrijednosti koja se nalazi na sredinjoj poziciji
niza podataka kada je on ureden po velicini, tj. baram pola podataka
je manje ili jednako medianu, a istovremeno je barem pola podataka
vece ili jednako od mediana.
Nacin njegovog izracuna ovisi o tome da li imamo paran ili neparan
broj izmjerenih vrijednosti za varijablu.
Ukoliko imamo neparan broj izmjerenih vrijednosti, onda postoji vri-
jednost koja je na srednjoj poziciji u uredenom skupu, pa nju definiramo
kao median.
Primjer 13: Neka su izmjerene vrijednosti jedne varijable sljedece:
1,2,5,6,5,1,2,7,2,2,3.
– Prvo ove vrijednosti poredamo po velicini: 1,1,2,2,2,2,3,5,5,6,7.
– Obzirom da ih ima sve skupa 11, vrijednost mediana je vrijednost
koja je na sestoj poziciji u tako dobivenom nizu, tj. broj 2.
Ukoliko imamo paran broj izmjerenih vrijednosti onda ne postoji po-
datak koji je na srednjoj poziciji jer srednju poziciju ”zauzimaju” dva
podatka. Median se tada definira kao polovina izmedu ta dva podatka.
Primjer 14: Neka su izmjerene vrijednosti jedne varijable sljedece:
1,2,5,6,5,1,2,7,2,2,3,3.
– Prvo ove vrijednosti poredamo po velicini: 1,1,2,2,2,2,3,3,5,5,6,7.
– Obzirom da ima 12 podataka, ”sredinu” cine 6. i 7. podatak,
tj. vrijednosti 2 i 3. Za median ovog skupa podataka uzimamo
sredinu ta dva broja, tj. median je (2 + 3)/2 = 2.5.
• Mod
Uvod u vjerojatnost i statistiku 9
Mod je vrijednost iz niza izmjerenih vrijednosti kojoj pripada najveca
frekvencija, tj. izmjerena je najvise puta. Mod ne mora biti jedinstven.
Primjer 15: Neka su izmjerene vrijednosti jedne varijable sljedece:
1,2,5,6,5,1,2,7,2,2,3,3.
– Vidimo da je vrijednost 2 izmjerena najvise puta (4 puta) pa je 2
mod ovog skupa podataka.
Numericke karakteristike za mjerenje rasprsenosti
• Raspon
Raspon je mjera koja pokazuje koliko su podaci rasprseni, tj. to je
jedna od mjera rasprsenja podataka. Definiran je kao razlika izmedu
najvece i najmanje vrijednosti u skupu.
Primjer 16: Neka su izmjerene vrijednosti jedne varijable sljedece:
1,2,5,6,5,1,2,7,2,2,3,3.
– Vidimo da je vrijednost 1 najmanja, a 7 najveca izmjerena vrijed-
nost. Raspon je 7− 1 = 6.
• Varijanca i standardna devijacija
– Varijanca i standardna devijacija takoder spadaju u grupu mjera
rasprsenja podataka. One karakteriziraju rasprsenje podataka oko
aritmeticke sredine.
– Varijanca niza izmjerenih vrijednosti x1, x2, . . . , xn definirana je
izrazom:
s2 =1
n
n∑i=1
(xi − x)2
– Standardna devijacija je kvadratni korijen varijance, tj.
s =√s2 =
√√√√ 1
n
n∑i=1
(xi − x)2.
Kutijasti dijagram
Uvod u vjerojatnost i statistiku 10
• Kutijastim dijagramom (box plot) graficki prikazujemo numericke ka-
rakteristike skupa izmjerenih vrijednosti numericke varijable. Najcesci
i najkorisniji su kutijasti dijagrami na osnovi mediana i kvartila (opisna
definicija: vrijednosti koje skup podataka dijele na cetiri podskupa tako
da se u svakom podskupu nalazi 25% podataka - objasnjenje slijedi u
primjeru).
Primjer 17: Neka su izmjerene vrijednosti jedne varijable sljedece:
1,2,5,6,5,1,2,7,2,2,3.
– Prvo ove vrijednosti poredamo po velicini: 1,1,2,2,2,2,3,5,5,6,7.
– Razlikujemo donji kvartil, srednji kvartil (median) i gornji kvartil:
∗ Donji kvartil - 2;
∗ Median - 2;
∗ Gornji kvartil - 5.
Primjer 18: Neka su izmjerene vrijednosti jedne varijable sljedece:
1,2,5,6,5,1,2,7,2,2,3,3.
– Prvo ove vrijednosti poredamo po velicini: 1,1,2,2,2,2,3,3,5,5,6,7.
– ∗ Donji kvartil - 2;
∗ Median - 2.5;
∗ Gornji kvartil - 5.
Primjer 19: Iskoristite bazu podataka anketa.sta i odredite numericke
karakteristike nekoliko varijabli po Vasem izboru. Takoder prikazite te
vrijednosti kutijastim dijagramom.
Rjesenje:
– Deskriptivna statistika: Statistics ⇒ Basic Statistics/Tables ⇒Descriptive Statistics ⇒ Choose variables ⇒ Advanced (ukljuciti
zeljene numericke karakteristike) ⇒ Summary
– Kutijasti dijagram: Statistics ⇒ Basic Statistics/Tables ⇒ Des-
criptive Statistics ⇒ Choose variables ⇒ Box & whisker Plot for
all variables
Uvod u vjerojatnost i statistiku 11
Empirijska distribucija diskretne slucajne varijable
• Proucavamo obiljezje koje predstavlja diskretnu slucajnu varijablu X.
• Ponavljamo isti pokus nezavisno n puta i biljezimo pojedinacne reali-
zacije slucajne varijable X. Oznacimo s ni frekvenciju i-te realizacije.
• Stvarnu distribuciju slucajne varijable X zapravo ne znamo, no na te-
melju n nezavisnih ponavljanja slucajnog pokusa i klasicne definicije
vjerojatnosti a posteriori vrlo lako mozemo odrediti empirijsku dis-
tribuciju slucajne varijable X.
• Odredimo empirijsku distribuciju slucajne varijableX cija je slika konacan
skup R(X) = {x1, x2, . . . , xk}:
– X =
(x1 x2 . . . xkn1
nn2
n. . . nk
n
); n1 + n2 + · · ·nk = n.
– Pregledan graficki nacin za prikazivanje empirijske distribucije je
histogram relativnih frekvencija.
Primjer 1:
U prodajnu ponudu jedne trgovine uveden je novi proizvod. Nakon nekog
vremena vlasnika zanima svida li se kupcima taj proizvod ili ne, pa je pro-
vedeno ispitivanje slucajnog uzorka kupaca. Pri tome je provedeno sljedece
kodiranje odgovora:
• ne svida mi se: −1 ;
• niti mi se svida, niti mi se ne svida: 0 ;
• svida mi se: 1.
Biljezeci odgovore na ovaj nacin, ispitivanjem 50 kupaca dobiven je niz nula,
jedinica i minus jedinica koji preglednije biljezimo pomocu frekvencija:
xi −1 0 1
ni 24 11 15.
Uvod u vjerojatnost i statistiku 12
Sastavite empirijsku distribuciju i prikazite je histogramom.
X =
(-1 0 1
0.48 0.22 0.3
)
Primjer 2: carsold.sta
Promatramo broj prodanih automobila dnevno jednog auto salona za pro-
teklih 100 dana. Podaci su dani u bazi carsold.sta. Analizom tih podataka
mogu se donijeti izvjesni zakljuci o buducoj prodaji sto ce pomoci manage-
rima u donosenju poslovnih odluka.
• Nacrtajte histogram.
• Odredite empirijsku distribuciju.
X =
(9 10 11 12 13 14 15 16 17
0.07 0.15 0.08 0.11 0.12 0.09 0.11 0.13 0.14
)
Uz pretpostavku da empirijska distribucija u potpunosti odgovara stvar-
noj distribuciji prodaje odgovorite na sljedeca pitanja:
– Koliko iznosi prosjecna dnevna prodaja, a koliko je maksimalno
odsupanje od prosjeka? (Rjesenje: 13.26, 4.26)
– Procijenite vjerojatnost da ce ova auto kuca prodati vise od 13
automobila dnevno? (Rjesenje: 0.47)
– Procijenite vjerojatnost da bude prodano izmedu 9 i 12 automo-
bila dnevno? (Rjesenje: 0.23)
Primjer 3: training.sta
Broj treninga koje treba provesti prije no sto studenti savladaju jedan slozeni
kompjutorski program krece se u rasponu od jednog do pet. Proizvodaci
programa odlucili su prikupiti podatke koji pokazuju koliko je treninga bilo
potrebno svakom pojedinom ispitaniku da bi savladao program. Podaci su
dani u bazi training.sta.
Uvod u vjerojatnost i statistiku 13
• Odredite empirijsku distribuciju broja provedenih treninga do savlada-
vanja programa.
X =
(1 2 3 4 5
0.1 0.26 0.4 0.14 0.1
)
• Koliko je prosjecan broj provedenih treninga? (Rjesenje: 2.88)
• Nacrtajte histogram.
• Ako proizvodaci tog programa zele osigurati da barem 76% studenata
savlada program, koji je minimalan broj treninga koji trebaju provesti?
(Rjesenje: 3)
Primjer 4: coffee.sta
Broj gostiju koji dnevno dolaze na kavu u ”Sunrise Coffee Shop” nalazi se u
bazi podataka coffee.sta.
• Odredite empirijsku distribuciju i prikazite je histogramom.
X =
(45 46 . . . 67
0.057 0.0143 . . . 0.0143
)
• Ako vjerojatnost da ce dnevno biti najmanje 56 gostiju iznosi vise od
0.5 vlasnik kafica planira zaposliti jos jednog konobara. Ako odluci
vjerovati da je empirijska distribucija broja gostiju iz navedenog ispiti-
vanja identicna stvarnoj distribuciji broja gostiju, treba li mu jos jedan
konobar ili ne? (Rjesenje: treba, vjerojatnost je 0.53)
• Kolika je u tom slucaju vjerojatnost da ce kafic posjetiti izmedu 50 i
54 osoba dnevno? (Rjesenje: 0.085714)
Primjer 5: prihod.sta
Raspolazemo podacima o prihodu od prodaje za 153 poduzeca u Hrvatskoj.
Uvod u vjerojatnost i statistiku 14
• Nacrtajte histogram i izracunajte ocekivanje i standardnu devijaciju
empirijske distribucije. (Rjesenje: 742 398.4, 525 905.9)
• Koji je najcesci prijavljeni prihod za ispitana poduzeca? (Rjesenje:
999 999)
• Kolika je procijenjena vjerojatnost da ce prihod biti 1200000 i veci, a
kolika da ce prihod biti izmedu 300000 i 700000 eura? (Rjesenje:
0.196078, 0.078432)
Primjer 6: mba.sta
Vijece jednog MBA studija ima zadatak odrediti granicnu vrijednost za pri-
manje studenata na MBA studij koristeci GMAT test (Graduate Manage-
ment Admission Test). Vijece predlaze da se odabere takva granicna vri-
jednost koja ce odobriti upis za 25% prijavljenih studenata sa najboljim
rezultatima na GMAT testu.
• Koja bi to vrijednost bila? (Rjesenje: 523)
• Jedan od profesora predaze da se primi 1/3 studenata. Koliko bi u tom
slucaju trebala iznosti granicna vrijednost? (Rjesenje: 506)
• Nacrtajte histogram.
Primjer 7: dob-poduz.sta
Raspolazemo podacima o dobi 200 poduzetnika u Hrvatskoj.
• Zanima nas prosjecna starost poduzetnika kao i standardna devijacija.
(Rjesenje: 42.605, 8.994078).
• Takoder, raspolazemo informacijom da je u SAD-u 50% poduzetnika
mlade od 35 godina, pa nas zanima kakva je situacija u Hrvatskoj.
(Rjesenje: 0.19)
• Kolika je proporcija poduzetnika koji imaju izmedu 46 i 60 godina?
(Rjesenje: 0.275)
Uvod u vjerojatnost i statistiku 15
• Nacrtajte histogram.
Primjer 8:
Za podatke iz baza carsold.sta, training.sta, coffee.sta, prihod.sta,
mba.sta, dob-poduz.sta odredite: broj podataka, aritmeticku sredinu, stan-
dardnu devijaciju, maksimum, minimum, mod, medijan, te donji i gornji
kvartil.
Valid N Mean Median Mod Min Max LQ UQ StDev
carsold.sta 100 13.26 13 10 9 17 11 16 2.62
training.sta 50 2.88 3 3 1 5 2 3 1.099
coffee.sta 70 54.57 56 58 45 67 52 58 4.79
prihod.sta 153 742 398.4 999 999.0 999 999.0 1000 2 000 000 150 000 1 000 000 525 905.9
mba.sta 100 475.28 471.5 multiple 288 672 426 522 76.26152
dob-poduz.sta 200 42.605 42.5 multiple 23 64 37 49 8.994078
Uvod u vjerojatnost i statistiku 16
Zakljucivanje o jednoj slucajnoj varijabli
• Numericke karakteristike distribucije populacije nazivamo parame-
trima.
• Statisticko zakljucivanje odnosi se na donosenje zakljucaka o pa-
rametrima promatrane populacije na temelju analiziranja odabranog
uzorka.
• Prije samog odabira uzorka iz cijih ce karakteristika slijediti zakljucci
treba voditi racuna o sljedecem:
– dimenziji uzorka i nacinu odabira elemenata populacije u uzorak,
– prirodi zakljucka kojeg zelimo donijeti,
– vjerodostojnosti konacnog zakljucka.
• Dva najvaznija postupka statistickog zakljucivanja su:
– procjena parametara,
– testiranje hipoteza vezanih uz parametre.
• Kod procjene parametara razlikujemo:
– procjenu vrijednosti nepoznatog parametra (procjena konkret-
nom vrijednoscu),
– odredivanje intervala kojem vrijednost nepoznatog parametra pri-
pada s nekom unaprijed zadanom vjerojatnosti (procjena pa-
rametara intervalima zadane pouzdanosti).
Uvod u vjerojatnost i statistiku 17
Testiranje statistickih hipoteza
• Statisticka hipoteza je tvrdnja o velicini parametra θ ili o obliku
distribucije populacije cija se vjerodostojnost ispituje pomocu podataka
dostupnih iz slucajno odabranog uzorka.
• Postupak kojim se donosi odluka o prihvacanju ili neprihvacanju tvrd-
nje na temelju podataka iz slucajnog uzorka naziva se testiranje
statistickih hipoteza.
• U ovom dijelu koristit cemo parametarske statisticke testove, tj. tes-
tove koji polaze od danog oblika distribucije i numerickih karakteristika
slucajne varijable koja se koristi za modeliranje nekog obiljezja popu-
lacije (odnosno pripadnog slucajnog uzorka).
Primjer 1:
Pretpostavimo da zelimo provjeriti je li ocekivano vrijeme cekanja u redu
studentske menze u vrijeme rucka vece od pet minuta i na osnovu toga odluciti
trebamo li pokrenuti jos jednu traku ili ne. U ovom slucaju valja provesti
statisticki test o vrijednosti ocekivanja slucajne varijable.
• U postupku provodenja statistickog testa potrebno je prakticnu
hipotezu (tvrdnju koju zelimo testirati) formulirati kao statisticku
hipotezu i na osnovu toga izabrati prikladan statisticki test iz niza
dostupnih testova.
• U tu svrhu potrebno je prije svega poznavati mogucnosti pojedinih
ponudenih statistickih testova i uvjete u kojima se mogu primijeniti.
• Osnovni koraci u testiranju statistickih hipoteza
1. Postaviti nultu i alternativnu hipotezu temeljenu na para-
metrima. Kako znati koju tvrdnju postaviti za nultu, a koju za
alternativnu hipotezu?
Uvod u vjerojatnost i statistiku 18
– negaciju pretpostavke, koja se temelji na podacima dobivenim
iz uzorka, koju zelimo testirati i na osnovu koje zelimo donijeti
neku odluku postavljamo kao nultu hipotezu i oznacavamo
ju sa H0.
– samu pretpostavku koju zelimo testirati postavljamo kao al-
ternativnu hipotezu i oznacavamo ju sa HA.
Nulta i alternativna hipoteza koje postavljamo na osnovu pret-
postavke navedene u primjeru 1 su:
– H0 : Vrijeme cekanja u redu studentske menze u vrijeme rucka
je manje ili jednako 5 minuta.
– HA : Vrijeme cekanja u redu studentske menze u vrijeme rucka
je vece od 5 minuta.
Alternativnu hipotezu trebamo smatrati netocnom sve dok nam
neki prikladan statisticki test ne da dovoljno uvjerljive rezultate
na osnovu kojih ju mozemo prihvatiti, tj. na osnovu kojih mozemo
odbaciti nultu hipotezu (koju a priori smatramo tocnom).
2. Odabrati test statistiku T cija vrijednost najbolje odrazava
vjerodostojnost hipoteze koju zelimo testirati, odrediti skup mogucih
vrijednosti koje test statistika moze poprimiti, te konkretnu vrijed-
nost test statistike za koje nultu hipotezu H0 ne prihvacamo u ko-
rist alternativne hipoteze HA. Podrucje vrijednosti test statistike
T za koje ne prihvacamo nultu hipotezu H0 nazivamo kriticno
podrucje ili podrucje odbacivanja testa. Test statistike
koje koristimo pri testiranju hipoteza o vrijednosti razlicitih pa-
rametara bit ce navedene kasnije.
3. Obzirom da su statisticki testovi kreirani na bazi slucajnih varija-
bli, potrebno je priznati mogucnost pogreske prilikom zakljucivanja.
Razlikujemo dvije vrste takvih pogresaka:
– Pogreska prvog reda: neprihvacanje nulte hipoteze H0
u slucaju kad je ona zapravo istinita. Vjerojatnost pojave
pogreske prvog reda nazivamo p-vrijednost.
– Pogreska drugog reda: prihvacanje nulte hipoteze u
slucaju kad je istinita alternativna hipoteza.
Uvod u vjerojatnost i statistiku 19
Ako je u postupku odlucivanja definiran najveci iznos vjerojatnosti
pogreske prvog reda koji smo spremni prihvatiti, taj broj nazivamo
nivo znacajnosti ili nivo signifikantnosti i oznacavamo ga
sa α.
U tom slucaju nultu hipotezu odbacujemo ako je izracunata p-
vrijednost manja od nivoa znacajnosti α.
Npr. ako je α = 0.05, znaci da ce H0 biti krivo odbacena (odnosno,
da cemo napraviti pogresku prvog reda) u oko 5 od 100 nezavisnih
ponavljanja testa.
4. Izracunati vrijednost test statistike T iz eksperimentalno odredenih
podataka i odrediti pripada li ta vrijednost u kriticno podrucje:
– ako pripada, zakljucujemo da je alternativna hipoteza HA
potvrdena na danom nivou znacajnosti α. Istovremeno ne
mozemo tvrditi da smo dokazali apsolutnu netocnost nulte
hipoteze H0.
– ako ne pripada, zakljucujemo da nema dovoljno objektivnih
razloga za neprihvacanje nulte hipoteza H0, tj. kazemo da
alternativna hipoteza HA nije potvrdena na danom nivou
znacajnosti α.
Uvod u vjerojatnost i statistiku 20
Testiranje hipoteze o tome je li ocekivanje jednako una-prijed odredenoj vrijednosti za velike uzorke
• U ovom postupku koristimo aritmeticku sredinu uzorka kao procjenu
za ocekivanje.
• U slucajnom uzorku uzetom iz proizvoljne populacije, karakterizirane
ocekivanjem µ i standardnom devijacijom σ, distribucija aritmeticke
sredine uzorka kao procjenitelja za ocekivanje (u oznaci X) je priblizno
normalna s ocekivanjem µ i standardnom devijacijom σ/√n. Stovise:
Z =X − µσ/√n
je priblizno standardna normalna slucajna varijabla.
• Nasa situacija bit ce obiljezena nepoznatom standardnom devijacijom
σ. Stoga cemo koristiti standardnu devijaciju slucajnog uzorka koju
oznacavamo sa s.
• Neka je α nivo znacajnosti testa (npr. α = 0.05 ili α = 0.01).
• Test koji koristimo za testiranje hipoteze o jednakosti ocekivanja (µ)
nekoj unaprijed zadanoj vrijednosti (µ0) naziva se z-test. Ovisno o
prirodi nulte i alternativne hipoteze, razlikujemo:
– dvostrani test - karakteriziraju ga znak jednakosti u nultoj i
znak razlicitosti u alternativnoj hipotezi.
– jednostrani test - karakteriziraju ga znak jednakosti u nultoj
i stroga nejednakost u alternativnoj hipotezi.
Uvod u vjerojatnost i statistiku 21
Dvostrani test:
H0 : µ = µ0,
H1 : µ 6= µ0.
Test statistika:
z =µ− µ0
s/√n.
• nultu hipotezu H0 odbacujemo ako je: |z| > zα/2.
• s - standardna devijacija slucajnog uzorka.
• µ - aritmeticka sredina uzorka.
• n - dimenzija uzorka.
• zα/2 - broj za koji vrijedi da je P{|Z| ≥ zα/2} = α.
• Z - standardna normalna slucajna varijabla.
• Kod dvostranog testa nivoa znacajnosti α potrebno je odrediti zα/2
takav da je
P{|Z| ≥ zα/2} = α,
gdje je Z ∼ N (0, 1).
• Primijetimo da je
α = P{|Z| ≥ zα/2} = 1− P (|Z| ≤ zα/2) = 1− 1√2π
∫ zα/2
−zα/2e−x
2/2dx.
• Prema tome nepoznati zα/2 dobivamo rjesavanjem nelinearne jednadzbe
F (zα/2) = 0,
gdje je
F (zα/2) := 1− α− 1√2π
∫ zα/2
−zα/2e−x
2/2dx.
Uvod u vjerojatnost i statistiku 22
Jednostrani test:
H0 : µ = µ0,
H1 : µ < µ0 ili H1 : µ > µ0.
Test statistika:
z =µ− µ0
s/√n.
• nultu hipotezu H0 odbacujemo ako je: z < −zα, odnosno
ako je z > zα.
• s - standardna devijacija slucajnog uzorka.
• µ - aritmeticka sredina uzorka.
• n - dimenzija uzorka.
• zα - broj za koji vrijedi da je P{Z ≥ zα} = α.
• Z - standardna normalna slucajna varijabla.
• Kod jednostranog testa nivoa znacajnosti α potrebno je odrediti zα
takav da je
P{Z ≥ zα} = α,
gdje je Z ∼ N (0, 1).
• Primijetimo da je
α = P{Z ≥ zα} = 1− P (Z ≤ zα) = 1− 1√2π
∫ zα
−∞e−x
2/2dx.
• Prema tome nepoznati zα dobivamo rjesavanjem nelinearne jednadzbe
F (zα) = 0,
gdje je
F (zα) := 1− α− 1√2π
∫ zα
−∞e−x
2/2dx.
Uvod u vjerojatnost i statistiku 23
• Ukoliko se radi o malom uzorku (n < 30), distribucija aritmeticke
sredine uzorka kao procjenitelja za ocekivanje je Studentova s (n − 1)
stupnjeva slobode i pripadni test naziva se t-test.
• Neka je α nivo znacajnosti testa (npr. α = 0.05 ili α = 0.01)
Dvostrani test:
H0 : µ = µ0,
H1 : µ 6= µ0.
Test statistika:
t =µ− µ0
s/√n.
• nultu hipotezu H0 odbacujemo ako je: |t| > tα/2.
• s - standardna devijacija slucajnog uzorka.
• µ - aritmeticka sredina uzorka.
• n - dimenzija uzorka.
• tα/2 - broj za koji vrijedi da je P{|T | ≥ tα/2} = α.
• T - Studentova s (n− 1) stupnjeva slobode.
Uvod u vjerojatnost i statistiku 24
Jednostrani test:
H0 : µ = µ0,
H1 : µ < µ0 ili H1 : µ > µ0.
Test statistika:
t =µ− µ0
s/√n.
• nultu hipotezu H0 odbacujemo ako je: t < −tα, odnosno
ako je t > tα.
• s - standardna devijacija slucajnog uzorka.
• µ - aritmeticka sredina uzorka.
• n - dimenzija uzorka.
• tα - broj za koji vrijedi da je P{T ≥ tα} = α.
• T - Studentova s (n− 1) stupnjeva slobode.
• Numericka varijanta izracuna tα (tα/2) napravljena je na analogan
nacin kao za zα (zα/2) i nalazi se u dokumentu vjezbe-5.nb.
• U uvjetima istinitosti nulte hipoteze ocekujemo da je realizacija z (ana-
logno t) slucajne varijable Z (analogno T ) blizu 0.
• Moze se pokazati da slucajna varijabla Z (analogno T ) za koju je gor-
nja vrijednost z (analogno t) jedna realizacija ima jedinicnu normalnu
distribuciju.
• Na osnovu realizacije z (analogno t) na nasem uzorku mozemo odrediti
p-vrijednost na sljedeci nacin:
p = P{Z ≥ z} (odnosno, p = P{Z ≤ z})
ovisno o tome suprotstavljamo li nultoj hipotezi alternativu da je stvarno
ocekivanje vece ili manje od hipotetske vrijednosti.
Uvod u vjerojatnost i statistiku 25
Primjer 2: tv.sta
Godine 1979. osnovna kablovska televizija je, u prosjeku, kostala 7.37 dolara
mjesecno. Godine 1983. ”Federalno udruzenje kablovskih televizija” (broji
vise od 4000 kablovskih sustava) zakljucilo je da je kablovska televizija po-
skupjela za samo 8% u odnosu na 1979., te da ne stoji statisticki znacajno
vise od 8 dolara mjesecno. No ”Udruzenje potrosaca” sumnja u te izjave pa
su ih odlucili provjeriti. Koristeci podatke prikupljene u bazi tv.sta provje-
rite govori li ”Federalno udruzenje kablovskih televizija” istinu.
(Rjesenje: H0 : µ = 8; HA : µ > 8; na nivou znacajnosti 0.05
prihvacamo nultu hipotezu.)
Primjer 3: lopta.sta
Jedan se poduzetnik bavi proizvodnjom loptica za golf. U suradnji s projek-
tantima u poduzecu napravio je preinake na jednom dijelu stroja. Cijeli je
proces dizajniran tako da proizvodi loptice prosjecne mase 0.25 unci. Kako bi
istrazio radi li novi stroj zadovoljavajuce, odabire 40 loptica i biljezi njihove
mase (podaci su dostupni u bazi lopta.sta). Mozemo li na nivou znacajnosti
α = 0.05 tvrditi da je odstupanje prosjecne mase loptice od pretpostavljene
mase (0.25 unci) statisticki znacajno.
(Rjesenje: H0 : µ = 0.25; HA : µ 6= 0.25; na nivou znacajnosti 0.05
ne prihvacamo nultu hipotezu.)
Primjer 4:
Kako bi odgovorili na pitanje koji faktori sprecavaju proces ucenja u razredu,
istrazivaci na nekom sveucilistu ispitali su 40 ucenika koji su trebali ocjenama
od 1 (uopce ne) do 7 (u velikoj mjeri) ocijeniti razinu do koje odredeni faktori
ometaju proces ucenja. Faktor koji je dobio najvecu ocjenu je: ”Profesori
koji inzistiraju na jednom tocnom odgovoru radije nego da evaluiraju cjelo-
kupno razmisljanje i kreativnost”. Deskriptivna statistika za ocjenu razine
utjecaja ovog faktora je: µ = 4.70, s = 1.62. Je li na razini znacajnosti
α = 0.05 ocekivana ocjena za navedeni faktor statisticki znacajno veca od 4?
Interpretirajte rezultat.
(Rjesenje: H0 : µ = 4; HA : µ > 4; na nivou znacajnosti 0.05 ne
prihvacamo nultu hipotezu.)
Uvod u vjerojatnost i statistiku 26
Testiranje hipoteze o tome je li vjerojatnost dogadajajednaka unaprijed odredenoj vrijednosti za velike uzorke
• U sklopu modela Bernoullijevog pokusa modeliranog slucajnom varija-
blom zadanom sljedecom tablicom distribucije:
X =
(0 1
q p
),
testiramo hipoteze o vrijednosti parametra p (vjerojatnost relizacije
uspjeha u jednoj izvedbi Bernoullijevog pokusa).
• U ovom postupku relativnu frekvenciju uspjeha (p) koristimo kao pro-
cjenu za vjerojatnost (proporciju) p: p = Xn, gdje je X slucajna va-
rijabla cija je realizacija broj uspjeha u n ponavljanja Bernoullijevog
pokusa.
• Ovaj test baziran je na normalnoj aproksimaciji binomne distribucije,
tj. p ima priblizno normalnu distribuciju s ocekivanjem µ i standard-
nom devijacijom√p(1− p)/n.
• Uz pretpostavku da vjerojatnost p ima unaprijed zadanu vrijednost p0,
distribucija procjenitelja p je N (p0, p0(1 − p0)/n). Prema tome, stan-
dardizirana test statistika
Z =p− p0√
p0(1− p0)/n
ima standardnu normalnu distribuciju.
• Dimenzija uzorka je dovoljno velika ako interval[p0 − 3
√p0(1−p0)
n, p0 + 3
√p0(1−p0)
n
]ne sadrzi ni 0 ni 1.
• Neka je α nivo znacajnosti testa (npr. α = 0.05 ili α = 0.01).
Uvod u vjerojatnost i statistiku 27
Dvostrani test:
H0 : p = p0
H1 : p 6= p0
Test statistika:
z =p− p0√p0(1−p0)
n
.
• nultu hipotezu H0 odbacujemo ako je: |z| > zα/2.
• p - relativna frekvencija uspjeha.
• n - dimenzija uzorka.
• zα/2 - broj za koji vrijedi da je P{|Z| ≥ zα/2} = α.
• Z standardna normalna slucajna varijabla.
Jednostrani test:
H0 : p = p0
H1 : p < p0 (odnosno H1 : p > p0)
Test statistika:
z =p− p0√p0(1−p0)
n
• nultu hipotezu H0 odbacujemo ako je z < −zα (odnosno
z > zα).
• p - relativna frekvencija uspjeha.
• n - dimenzija uzorka.
• zα - broj za koji vrijedi da je P{Z ≥ zα} = α.
• Z - standardna normalna slucajna varijabla.
Uvod u vjerojatnost i statistiku 28
Primjer 5: perec.sta
Odlucili ste prodavati nove perece u svojoj pekari. Niste sigurni svidaju li se
ili ne vasim kupcima. O tome ovisi hocete li nastaviti prodavati te perece ili
ne. U bazi podataka perec.sta nalaze se podaci dobiveni iz uzorka od 50
potrosaca:
0 - ne svida mi se
1 - svida mi se
2 - indiferentan sam
Provjerite je li na nivou znacajnosti α = 0.05 proporcija kupaca kojima se
ne svidaju novi pereci statisticki znacajno razlicita od 0.5.
(Rjesenje: H0 : p = 0.5; HA : p 6= 0.5; na nivou znacajnosti 0.05
prihvacamo nultu hipotezu.)
Primjer 6: vrtic.sta
U jednom je poduzecu zaposleno vise od 3000 ljudi. Management poduzeca
zeli ponuditi pomoc svojim zaposlenicima oko organizacije cuvanja djece.
Daje dvije opcije: otvoriti sluzbu cuvanja djece unutar poduzeca ili ponuditi
novcanu pomoc roditeljima kako bi sami organizirali cuvanje. Odabrao je 60
roditelja, jednostavno ih upitao i njihove odgovore kodirao na sljedeci nacin:
0 - radije bih novcanu pomoc za samostalnu organizaciju cuvanja djece;
1 - radije bih organizaciju prepustio poduzecu.
Odgovori su dani u bazi podataka vrtic.sta. Odgovorite na slijedece pita-
nje: Management poduzeca razmislja o tome da organizira cuvanje djece ako
se pokaze da barem 75% roditelja odabere tu opciju. Provjerite je li na nivou
znacajnosti α = 0.05 proporcija roditelja koji zele organizirano cuvanje djece
statisticki znacajno manja od 0.75?
(Rjesenje: H0 : p = 0.75; HA : p < 0.75; na nivou znacajnosti 0.05
ne prihvacamo nultu hipotezu.)
Uvod u vjerojatnost i statistiku 29
Testiranje hipoteze o jednakosti distribucije pretpostav-ljenoj teorijskoj distribuciji
• Kao procjenu za stvarnu distribuciju slucajne varijable koristimo em-
pirijsku distribuciju podataka koje smo prikupili nezavisnim ponavlja-
njem pokusa.
• Zelimo testirati ima li slucajna varijabla iz koje sakupljamo podatke
neku pretpostavljenu distribuciju - zovemo ju teorijska distribu-
cija.
• χ2 test
– Neka je teorijska distribucija dana tablicom:(x1 x2 . . . xr
p1 p2 . . . pr
)
Ovdje je xi 6= xj za i 6= j, pi ≥ 0 za svaki i ∈ {1, . . . , r} ir∑i=1
pi = 1.
– Pretpostavimo da promatramo slucajan pokus koji ima konacan
skup ishoda A = {x1, x2, . . . , xr}, r ≥ 2 i da smo ga nezavisno
ponovili n puta. Cilj nam je bio zabiljeziti frekvencije fj, odnosno
relativne frekvencije pj = fj/n, za svaki ishod xj. Time smo dobili
empirijsku distribuciju promatrane slucajne varijable.
– Zelimo testirati jednakost empirijske distribucije(x1 x2 . . . xr
p1 p2 . . . pr
)i teorijske distribucije navedene na pocetku poglavlja.
– Zapravo se radi o testiranju jednakosti vektorskog parametra p =
(p1, p2, . . . , pr) vektoru relativnih frekvencija p = (p1, p2, . . . , pr).
– Prema tome, nultu i alternativnu hipotezu postavljamo na sljedeci
nacin:H0 : p = p,
HA : p 6= p;
Uvod u vjerojatnost i statistiku 30
odnosno:
H0 : procijenjena distribucija jednaka je teorijskoj distribuciji,
HA : procijenjena distribucija se razlikuje od teorijske distribucije.
– U uvjetima istinitosti hipoteze H0, za velik broj n nezavisnih po-
navljanja slucajnog pokusa, test statistika
D =r∑i=1
n(Pi − pi)2
pi=
r∑i=1
(Fi − fi)2
fi
priblizno ima hikvadrat distribuciju s (r − 1) stupnjeva slobode,
tj. D ∼ χ2(r − 1) [Pearsonov teorem].
– Kriticno podrucje χ2 testa je Cr = {x : D(x) ≥ hα}, gdje je hα
takav realan broj za kojega vrijedi da je P (χ2r−1 ≥ hα) = α, pri
cemu je α nivo znacajnosti testa.
– Iskoristimo programski paket Statistica: formirajmo bazu poda-
taka koja sadrzi eksperimentalno dobivene frekvencije i teorijske
frekvencije izracunate na bazi teorijske distribucije i broja poda-
taka u uzorku. Provedemo χ2 test i odbacimo H0 ako je dobivena
p-vrijednost manja od α, gdje je α odabrani nivo znacajnosti testa.
– Ovaj test mozemo koristiti i kod neprekidnih slucajnih va-
rijabli tako da R(X) podijelimo na disjunktne intervale i su-
protstavimo teorijske frekvencije tih intervala njihovim uzorackim
frekvencijama. Treba voditi racuna o tome da je test jako osjetljiv
na izbor intervala.
Uvod u vjerojatnost i statistiku 31
Primjer 1:
Savjetnik ekoloskog kluba na jednom sveucilistu zeli postovati zahtjev da
klub sacinjava 10% brucosa, 20% studenata druge godine, 40% studenata
trece godine, te 30% apsolvenata. Clanstvo ekoloskog kluba za ovu godinu
brojilo je 14 brucosa, 19 studenata druge godine, 51 studenta trece godine,
te 16 apslovenata. Provjerite postoji li statisticki znacajna razlika trenutnog
sastava kluba od trazenih standarda na nivou znacajnosti α = 0.1.
(Rjesenje: na nivou znacajnosti 0.1 ne prihvacamo nultu hipotezu.)
Primjer 2:
Trzisni analiticar zeli istraziti imaju li potrosaci neke posebne sklonosti prema
jednom od okusa sokova koji su se pojavili na trzistu. Na uzorku od 100 ljudi
prikupio je preferencije prema ponudenim okusima. Frekvencije su dane u
sljedecoj tablici:
visnja jagoda naranca limun grejp
32 28 16 14 10
Ispitajte postoji li na nivou znacajnosti α = 0.05 statisticki znacajna pre-
ferencija potrosaca prema nekom od okusa ili je sklonost potrosaca jednaka
prema svim ponudenim okusima.
(Rjesenje: na nivou znacajnosti 0.05 ne prihvacamo nultu hipotezu.)
Primjer 3:
Jedna je studija na osnovu istrazivanja o razlozima povratka na posao ljudi
koji su umirovljeni postavila sljedecu distribuciju:
38% se ponovo zaposli u drugom poduzecu;
32% osnuje obrt;
23% rade kao konzultanti;
7% osnuje vlastito poduzece.
Poklapaju li se sljedeci rezultati, dobiveni ponovnim istrazivanjem, s pret-
hodno postavljenom tezom ili mozemo utvrditi postojanje statisticki znacajne
Uvod u vjerojatnost i statistiku 32
razlike?122 se ponovo zaposlilo u drugom poduzecu;
85 je osnovalo obrt;
76 su radili kao konzultanti;
17 je osnovalo vlastito poduzece.
(Rjesenje: na nivou znacajnosti 0.05 prihvacamo nultu hipotezu.)
Uvod u vjerojatnost i statistiku 33
Testiranje normalne distribuiranosti obiljezja
• Odgovor na ovo pitanje od izuzetne je vaznosti za tocnost statistickih
analiza obzirom da su mnogi statisticki testovi kreirani uz pretpostavku
normalnosti obiljezja.
• Potrebno je nezavisnim ponavljanjem pokusa prikupiti podatke iz re-
alizacija promatrane slucajne varijable.
• Za prvi uvid u moguca odstupanja od normalne distribucije mozemo
koristiti razne mjere deskriptivne statistike i graficke prikaze.
• Nultu i alternativnu hipotezu postavljamo na sljedeci nacin:
H0: obiljezje je normalno distribuirano.
HA: obiljezje nije normalno distribuirano.
• Za testiranje hipoteze o normalnosti obiljezja mozemo koristiti razne
testove, npr:
– Lillieforsova inacica Kolmogorov-Smirnov testa;
– Shapiro-Wilk’s W test.
• Kolmogorov-Smirnovljev test:
– koristi se za testiranje hipoteze H0 o pripadnosti promatranog
obiljezja neprekidnoj razdiobi s funkcijom distribucije F0.
– kriticno podrucje K-S testa odreduje se na temelju test statistike
Dn = maxx∈R|Fn(x)− F0(x)| ,
gdje je Fn empirijska ili uzoracka funkcija distribucije za dani niz
podataka.
– neka je X neprekidna slucajna varijabla sa pripadnom funkcijom
distribucije F , Y = F (X) funkcija slucajne varijable X sa pripad-
nom funkcijom distribucije G i y ∈ 〈0, 1〉. Tada vrijedi:
G(y) = P (Y ≤ y) = P (F (X) ≤ y) = P (X ≤ F−1(y)) = F [F−1(y)] = y,
Uvod u vjerojatnost i statistiku 34
odnosno:
G(y) =
0 , y ≤ 0
y , 0 < y < 1
1 , y ≥ 1
,
tj. neprekidna slucajna varijabla Y = F (X) ima uniformnu dis-
tribuciju s parametrima 0 i 1.
– transformirajmo niz podataka x1, . . . , xn u niz y1 = F0(x1), . . . , yn =
F0(xn) i sa Gn oznacimo empirijsku funkciju distribucije za taj niz.
– u uvjetima istinitosti nulte hipoteze odgovarajuca teorijska distri-
bucija je U(0, 1).
– vrijednostGn(y) ima znacenje relativne frekvencije dogadaja {Y ≤y} u nizu y1, . . . , yn.
– buduci je y = F0(x) i F0 strogo monotona funkcija, vrijedi da je
Gn(y) = Fn(x) i |Fn(x)− F0(x)| = |Gn(y)− y|. Odavde slijedi da
je
maxx∈R|Fn(x)− F0(x)| = max
y∈〈0,1〉|Gn(y)− y| .
– dakle, da bismo odredili razdiobu test statistike Dn, dovoljno je
promotriti Dn = maxy∈〈0,1〉
|Gn(y)− y|, tj. slucaj kad se kao teorijska
distribucija uzima U(0, 1).
– postupak odredivanja pripadne funkcije distribucije
Kn(x) = P (Dn ≤ x), x ∈ R
u uvjetima istinitosti hipoteze H0 vrlo je slozen i u njega se necemo
upustati1.
– ocito je vrijednost dn test statistike Dn pokazatelj razlike izmedu
empirijske distribucije Fn niza podataka i pretpostavljene teorijske
distribucije F0 - ako se dobije prevelika vrijednost za dn hipotezu
H0 treba odbaciti.
1Kolomogorov je pokazao da slucajna varijabla√
nDn ima tzv. Kolmogorovljevu dis-
tribuciju K(x) =+∞∑
k=−∞(−1)ke−2k2x2
, x > 0.
Uvod u vjerojatnost i statistiku 35
– kriticno podrucje razine znacajnosti α odredeno je uvjetom P (Dn ≥c0) = α, gdje je c0 = K−1
n (1− α).
Primjer 4: auti1.sta
Raspolazemo mjerenjima potrosnje novog modela automobila za 100 takvih
automobila. Provjerite je li potrosnja normalna slucajna vrijabla. Podaci su
dostupni u bazi auti1.sta.
(Rjesenje: na nivou znacajnosti 0.05 prihvacamo nultu hipotezu da
obiljezje potjece iz normalne distribucije.)
Primjer 5: dob-poduz.sta
Raspolazemo podacima o dobi 200 poduzetnika u nekoj zemlji. Zanima nas je
li dob poduzetnika u bazi podataka dob-poduz.sta normalno distribuirana
slucajna varijabla. Napravite testiranje i donesite zakljucak. Prokomenti-
rajte dobiveni rezultat s obzirom na kontekst pojave koju proucavate.
(Rjesenje: na nivou znacajnosti 0.05 prihvacamo nultu hipotezu da
obiljezje potjece iz normalne distribucije.)
Primjer 6: mba.sta
U bazi podataka mba.sta nalaze se podaci o rezultatima GMAT testa (Gra-
duate Management Admission Test) za 100 studenata koji su prijavili na
studij. Provjerite potjecu li podaci iz normalne distribucije.
(Rjesenje: na nivou znacajnosti 0.05 prihvacamo nultu hipotezu da
obiljezje potjece iz normalne distribucije.)