35
Uvod u vjerojatnost i statistiku 1 Prikazivanje podataka Prikupljanje i organizacija podataka Podaci iz javnih izvora (knjige, ˇ casopisi, novine, web). Podaci iz dizajniranog eksperimenta (istraˇ zivaˇ c raspore duje eksperi- mentalne jedinke u skupine nad kojima vrˇ si eksperimente te biljeˇ zi rezultate mjerenja ili opaˇ zanja za varijable koje ga zanimaju). Primjer 1: Jedno medicinsko istraˇ zivanje prouˇ cava snagu nekog lijeka u prevenciji moˇ zdanog udara. Skupinu ljudi s kojima ´ ce se vrˇ siti is- traˇ zivanje istraˇ zivaˇ c dijeli na dvije skupine: tretiranu i kontrolnu. Lju- dima u tretiranoj skupini daje se lijek, dok se ljudima u kontrolnoj sku- pini daje nadomjestak koji izgleda isto kao lijek ali zapravo nije niˇ sta ˇ sto moˇ ze imati bilo kakav utjecaj na organizam (placebo). Podaci iz ankete Istraˇ zivaˇ c sastavlja anketni upitnik, izabire skupinu ljudi koju anketira i na osnovu njihovih odgovora prikuplja podatke. Podaci prikupljeni promatranjem Istraˇ zivaˇ c promatra eksperimentalne jedinke u njihovom prirodnom okruˇ zenju i biljeˇ zi podatke za varijable od interesa. Neovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- reni na cijelom skupu jedinki na kojem nas zanimaju izabrane varijable i koji zovemo populacija nego na jednom njegovom dijelu koji ´ cemo zvati uzorak. Primjer 2: ˇ Zelimo unaprijed znati koja politiˇ cka stranka ´ ce pobijediti na sljede´ cim izborima. U tu svrhu anketiramo jednu skupinu gra dana da bismo prognozirali rezultate. Je li vaˇ zno kako biramo skupinu gra dana?

Prikazivanje podataka - · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Embed Size (px)

Citation preview

Page 1: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 1

Prikazivanje podataka

Prikupljanje i organizacija podataka

• Podaci iz javnih izvora (knjige, casopisi, novine, web).

• Podaci iz dizajniranog eksperimenta (istrazivac rasporeduje eksperi-

mentalne jedinke u skupine nad kojima vrsi eksperimente te biljezi

rezultate mjerenja ili opazanja za varijable koje ga zanimaju).

Primjer 1: Jedno medicinsko istrazivanje proucava snagu nekog lijeka

u prevenciji mozdanog udara. Skupinu ljudi s kojima ce se vrsiti is-

trazivanje istrazivac dijeli na dvije skupine: tretiranu i kontrolnu. Lju-

dima u tretiranoj skupini daje se lijek, dok se ljudima u kontrolnoj sku-

pini daje nadomjestak koji izgleda isto kao lijek ali zapravo nije nista

sto moze imati bilo kakav utjecaj na organizam (placebo).

• Podaci iz ankete

Istrazivac sastavlja anketni upitnik, izabire skupinu ljudi koju anketira

i na osnovu njihovih odgovora prikuplja podatke.

• Podaci prikupljeni promatranjem

Istrazivac promatra eksperimentalne jedinke u njihovom prirodnom

okruzenju i biljezi podatke za varijable od interesa.

• Neovisno o metodi prikupljanja podataka, podaci nisu nikada izmje-

reni na cijelom skupu jedinki na kojem nas zanimaju izabrane varijable

i koji zovemo populacija nego na jednom njegovom dijelu koji cemo

zvati uzorak.

Primjer 2: Zelimo unaprijed znati koja politicka stranka ce pobijediti

na sljedecim izborima. U tu svrhu anketiramo jednu skupinu gradana da

bismo prognozirali rezultate. Je li vazno kako biramo skupinu gradana?

Page 2: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 2

• Ako zelimo primjenjivati statisticko zakljucivanje, podaci moraju biti

prikupljeni na uzorku koji je reprezentativan za populaciju koja nas

zanima.

• Reprezentativan uzorak mora odrazavati populaciju tj. u njemu

trebaju biti zastupljene sve tipicne karakteristike populacije.

• Najcesci nacin odabira jedinki iz populacije u reprezentativan uzorak

je tzv. slucajan uzorak, tj. takav izbor u kojem svaka jedinka ima

jednaku sansu biti izabrana u uzorak. O ovom postupku odabira jedinki

u uzorak bit ce rijeci poslije.

Page 3: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 3

Tipovi varijabli

• Varijabla - karakteristika ili svojstvo jedinke iz populacije ili uzorka.

• Kvalitativne varijable - varijable kojima ne mozemo na prirodan

nacin pridruziti numericke vrijednosti, nego njihove vrijednosti klasifi-

ciramo u nekoliko razlicitih kategorija.

• Kvantitativne varijable - varijable cije su vrijednosti po samoj svojoj

prirodi numerickog karaktera.

Primjer 3: U bazi podataka hormon.sta nalaze se podaci o nivou tri razlicita

hormona u zelucu mjerenim na skupini bolesnika koji boluju od jedne od

sljedecih bolesti zeluca: samo gastritis, erozija zeluca, erozija dvanaesterca,

cir na zelucu te cir na dvanaestercu. Nadalje, za te bolesnike su takoder

prikupljeni podaci o spolu, o tome jesu li konzumenti kave, jesu li pusaci te

imaju li u zelucu bakteriju helicobacter pylori. Kojem tipu pripada svaka od

navedenih varijabli?

Rjesenje:

• Kvalitativne varijable: spol, dijagnoza, pusenje, alkohol, kava, CLO

test

• Kvantitativne varijable: Gastr S, Somat S, Somat Z

Primjer 4: U bazi podataka nalaz.sta nalaze se rezultati razlicitih medicin-

skih mjerenja. Kojem tipu pripadaju varijable navedene u toj bazi?

Rjesenje:

• Kvalitativne varijable: skupina, stupanj

• Kvantitativne varijable: sve ostale

Page 4: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 4

Metode opisivanja skupa podataka

Metode opisivanja kvalitativnih podataka

Kvalitativne varijable primaju vrijednosti koje su razvrstane u kategorije.

Mjere kojima opisujemo zastupljenost jedne kategorije u uzorku su frekven-

cija kategorije i relativna frekvencija kategorije.

• Frekvencija kategorije je broj izmjerenih vrijednosti varijable

koje pripadaju danoj kategoriji. Ako s i oznacimo kategoriju od

interesa, njenu frekvenciju oznacavamo s

fi.

• Relativna frekvencija kategorije je broj izmjerenih vrijednosti

varijable koje pripadaju danoj kategoriji podijeljen s ukupnim

brojem izmjerenih vrijednosti za ispitivanu varijablu. Ako s n

oznacimo broj izmjerenih vrijednosti za ispitivanu varijablu, relativnu

frekvenciju i-te kategorije racunamo kao

fin.

Primjer 5: U bazi podataka hormon.sta odredite frekvencije i relativne frek-

vencije svih kategorija za varijable koje smatrate kvalitativnima.

Rjesenje:

• Statistics ⇒ Basic Statistics/Tables ⇒ Frequency Tables ⇒ Choose

variables ⇒ Summary

Primjer 6: U bazi podataka nalaz.sta odredite frekvencije i relativne frek-

vencije svih kategorija za varijable koje smatrate kvalitativnima.

Rjesenje:

• Statistics ⇒ Basic Statistics/Tables ⇒ Frequency Tables ⇒ Choose

variables ⇒ Summary

Page 5: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 5

Graficki nacin prikazivanja frekvencija i relativnih frekvencija kategorija

kvalitativnih varijabli moze biti:

• histogram frekvencija

• histogram relativnih frekvencija

• pita (pie chart)

Primjer 7: Za podatke iz baze hormon.sta nacrtajte histogram frekvencija

i relativnih frekvencija svih kategorija za varijable koje smatrate kvalitativ-

nima.

Rjesenje:

• Histogram frekvencija: Statistics ⇒ Basic Statistics/Tables ⇒ Frequ-

ency Tables ⇒ Choose variables ⇒ Histograms

• Histogram relativnih frekvencija: Graphs ⇒ Histograms ⇒ Choose

variables ⇒ Advanced ⇒ Pod ”Y axis” ukljuciti ”%” ⇒ OK

Primjer 8: Za podatke iz baze nalaz.sta nacrtajte histogram frekvencija i re-

lativnih frekvencija svih kategorija za varijable koje smatrate kvalitativnima.

Rjesenje:

• Analogno kao primjer 7.

Page 6: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 6

Metode opisivanja kvantitativnih podataka

• Kvantitativni podaci mogu ili biti razvrstani u kategorije ili ne.

Primjer 9: Proucite kvantitativne podatke u bazama hormon.sta i

anketa.sta. Koje varijable kvantitativnog karaktera su mjerene kao

kategorijalne, a koje ne?

Rjesenje:

– hormon.sta - niti jedna kvantitativna varijabla nije kategorizirana

– anketa.sta - kategorijalne varijable su: Br-kol, Polozeno, Prisutnost-

P, Prisutnost-V, Redovitost-P, Redovitost-V.

• Ako su kvantitativne varijable dane kategorijalno, mozemo u opisu mje-

renih vrijednosti za te varijable ponovo primijeniti frekvencije (odnosno

relativne frekvencije) pojedine kategorije i histograme.

Primjer 10: Odredite tablicu frekvencija i histogram za jednu od vari-

jabli iz baze anketa.sta po izboru.

Rjesenje:

– Tablica frekvencija: Statistics ⇒ Basic Statistics/Tables ⇒ Frequ-

ency Tables ⇒ Choose variables ⇒ Summary

– Histogram frekvencija: Statistics ⇒ Basic Statistics/Tables ⇒Frequency Tables ⇒ Choose variables ⇒ Histograms

• Ako numericke varijable nisu dane kategorijalno, za prikazivanje skupa

izmjerenih vrijednosti nece nam puno pomoci frekvencije i histogrami

radeni na osnovu svake pojedine izmjerene vrijednosti.

Primjer 11: Zasto? Otvorite bazu podataka hormon.sta i odredite

tablicu frekvencija i histogram neke od kvantitativnih varijabli tako da

za kategorije uzmete sve medusobno razlicite izmjerene vrijednosti.

Rjesenje:

Page 7: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 7

– Zbog prevelikog broja razlicitih izmjerenih vrijednosti broj katego-

rija je prevelik i rezultat analize najcesce ne daje zeljene informa-

cije. Zato pribjegavamo drugim metodama kategoriziranja kvanti-

tativnih varijabli.

Postupak razvrstavanja kvantitativnih podataka u kategorije

• Najcesce skup svih mjerenih vrijednosti (ili nesto veci skup koji sadrzi

skup svih mjerenih vrijednosti ali je jednostavniji za podijeliti na jed-

nake dijelove) podijelimo na disjunktne intervale jednake duljine.

• Nije nuzno da intervali budu jednake duljine. Nema striktnog pravila

po kojemu bi trebalo definirati intervale niti nihov broj, ali je jasno

da ih ne smije biti niti previse niti premalo da bi cijeli postupak imao

smisla i sluzio svrsi (a to je u ovom casu prikazivanje skupa mjerenih

vrijednosti).

Primjer 12: Iskoristite podatke iz baze hormon.sta. Mijenjajte broj

intervala na koji dijelite skup vrijednosti. Proucavajte sto se dogada i

pribiljezite vas zakljucak.

Numericke karakteristike skupa kvantitativnih podataka

Karakteristika kvantitativnih podataka je da medu njima postoji uredaj. Na

osnovu te cinjenice mozemo definirati numericke karakteristike koje imaju

logicnu interpretaciju i mogu se iskoristiti u cilju prikazivanja skupa mjere-

nih vrijednosti.

Numericke karakteristike za mjerenje centralne tendencije

• Aritmeticka sredina

Aritmeticka sredina niza izmjerenih vrijednosti x1, x2, . . . , xn definirana

je izrazom:

x =1

n

n∑i=1

xi

Aritmeticka sredina je numericka karakteristika koja spada u mjere

centralne tendencije, tj. mjeri ”srednju vrijednost” podataka.

Page 8: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 8

• Median

Da bismo razumjeli i odredili median potrebno je prvo poredati izmje-

rene vrijednosti po velicini (u rastucem ili padajucem poretku).

Median je takoder jedna mjera centralne tendencije kao i aritmeticka

sredina, a ima znacenje vrijednosti koja se nalazi na sredinjoj poziciji

niza podataka kada je on ureden po velicini, tj. baram pola podataka

je manje ili jednako medianu, a istovremeno je barem pola podataka

vece ili jednako od mediana.

Nacin njegovog izracuna ovisi o tome da li imamo paran ili neparan

broj izmjerenih vrijednosti za varijablu.

Ukoliko imamo neparan broj izmjerenih vrijednosti, onda postoji vri-

jednost koja je na srednjoj poziciji u uredenom skupu, pa nju definiramo

kao median.

Primjer 13: Neka su izmjerene vrijednosti jedne varijable sljedece:

1,2,5,6,5,1,2,7,2,2,3.

– Prvo ove vrijednosti poredamo po velicini: 1,1,2,2,2,2,3,5,5,6,7.

– Obzirom da ih ima sve skupa 11, vrijednost mediana je vrijednost

koja je na sestoj poziciji u tako dobivenom nizu, tj. broj 2.

Ukoliko imamo paran broj izmjerenih vrijednosti onda ne postoji po-

datak koji je na srednjoj poziciji jer srednju poziciju ”zauzimaju” dva

podatka. Median se tada definira kao polovina izmedu ta dva podatka.

Primjer 14: Neka su izmjerene vrijednosti jedne varijable sljedece:

1,2,5,6,5,1,2,7,2,2,3,3.

– Prvo ove vrijednosti poredamo po velicini: 1,1,2,2,2,2,3,3,5,5,6,7.

– Obzirom da ima 12 podataka, ”sredinu” cine 6. i 7. podatak,

tj. vrijednosti 2 i 3. Za median ovog skupa podataka uzimamo

sredinu ta dva broja, tj. median je (2 + 3)/2 = 2.5.

• Mod

Page 9: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 9

Mod je vrijednost iz niza izmjerenih vrijednosti kojoj pripada najveca

frekvencija, tj. izmjerena je najvise puta. Mod ne mora biti jedinstven.

Primjer 15: Neka su izmjerene vrijednosti jedne varijable sljedece:

1,2,5,6,5,1,2,7,2,2,3,3.

– Vidimo da je vrijednost 2 izmjerena najvise puta (4 puta) pa je 2

mod ovog skupa podataka.

Numericke karakteristike za mjerenje rasprsenosti

• Raspon

Raspon je mjera koja pokazuje koliko su podaci rasprseni, tj. to je

jedna od mjera rasprsenja podataka. Definiran je kao razlika izmedu

najvece i najmanje vrijednosti u skupu.

Primjer 16: Neka su izmjerene vrijednosti jedne varijable sljedece:

1,2,5,6,5,1,2,7,2,2,3,3.

– Vidimo da je vrijednost 1 najmanja, a 7 najveca izmjerena vrijed-

nost. Raspon je 7− 1 = 6.

• Varijanca i standardna devijacija

– Varijanca i standardna devijacija takoder spadaju u grupu mjera

rasprsenja podataka. One karakteriziraju rasprsenje podataka oko

aritmeticke sredine.

– Varijanca niza izmjerenih vrijednosti x1, x2, . . . , xn definirana je

izrazom:

s2 =1

n

n∑i=1

(xi − x)2

– Standardna devijacija je kvadratni korijen varijance, tj.

s =√s2 =

√√√√ 1

n

n∑i=1

(xi − x)2.

Kutijasti dijagram

Page 10: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 10

• Kutijastim dijagramom (box plot) graficki prikazujemo numericke ka-

rakteristike skupa izmjerenih vrijednosti numericke varijable. Najcesci

i najkorisniji su kutijasti dijagrami na osnovi mediana i kvartila (opisna

definicija: vrijednosti koje skup podataka dijele na cetiri podskupa tako

da se u svakom podskupu nalazi 25% podataka - objasnjenje slijedi u

primjeru).

Primjer 17: Neka su izmjerene vrijednosti jedne varijable sljedece:

1,2,5,6,5,1,2,7,2,2,3.

– Prvo ove vrijednosti poredamo po velicini: 1,1,2,2,2,2,3,5,5,6,7.

– Razlikujemo donji kvartil, srednji kvartil (median) i gornji kvartil:

∗ Donji kvartil - 2;

∗ Median - 2;

∗ Gornji kvartil - 5.

Primjer 18: Neka su izmjerene vrijednosti jedne varijable sljedece:

1,2,5,6,5,1,2,7,2,2,3,3.

– Prvo ove vrijednosti poredamo po velicini: 1,1,2,2,2,2,3,3,5,5,6,7.

– ∗ Donji kvartil - 2;

∗ Median - 2.5;

∗ Gornji kvartil - 5.

Primjer 19: Iskoristite bazu podataka anketa.sta i odredite numericke

karakteristike nekoliko varijabli po Vasem izboru. Takoder prikazite te

vrijednosti kutijastim dijagramom.

Rjesenje:

– Deskriptivna statistika: Statistics ⇒ Basic Statistics/Tables ⇒Descriptive Statistics ⇒ Choose variables ⇒ Advanced (ukljuciti

zeljene numericke karakteristike) ⇒ Summary

– Kutijasti dijagram: Statistics ⇒ Basic Statistics/Tables ⇒ Des-

criptive Statistics ⇒ Choose variables ⇒ Box & whisker Plot for

all variables

Page 11: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 11

Empirijska distribucija diskretne slucajne varijable

• Proucavamo obiljezje koje predstavlja diskretnu slucajnu varijablu X.

• Ponavljamo isti pokus nezavisno n puta i biljezimo pojedinacne reali-

zacije slucajne varijable X. Oznacimo s ni frekvenciju i-te realizacije.

• Stvarnu distribuciju slucajne varijable X zapravo ne znamo, no na te-

melju n nezavisnih ponavljanja slucajnog pokusa i klasicne definicije

vjerojatnosti a posteriori vrlo lako mozemo odrediti empirijsku dis-

tribuciju slucajne varijable X.

• Odredimo empirijsku distribuciju slucajne varijableX cija je slika konacan

skup R(X) = {x1, x2, . . . , xk}:

– X =

(x1 x2 . . . xkn1

nn2

n. . . nk

n

); n1 + n2 + · · ·nk = n.

– Pregledan graficki nacin za prikazivanje empirijske distribucije je

histogram relativnih frekvencija.

Primjer 1:

U prodajnu ponudu jedne trgovine uveden je novi proizvod. Nakon nekog

vremena vlasnika zanima svida li se kupcima taj proizvod ili ne, pa je pro-

vedeno ispitivanje slucajnog uzorka kupaca. Pri tome je provedeno sljedece

kodiranje odgovora:

• ne svida mi se: −1 ;

• niti mi se svida, niti mi se ne svida: 0 ;

• svida mi se: 1.

Biljezeci odgovore na ovaj nacin, ispitivanjem 50 kupaca dobiven je niz nula,

jedinica i minus jedinica koji preglednije biljezimo pomocu frekvencija:

xi −1 0 1

ni 24 11 15.

Page 12: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 12

Sastavite empirijsku distribuciju i prikazite je histogramom.

X =

(-1 0 1

0.48 0.22 0.3

)

Primjer 2: carsold.sta

Promatramo broj prodanih automobila dnevno jednog auto salona za pro-

teklih 100 dana. Podaci su dani u bazi carsold.sta. Analizom tih podataka

mogu se donijeti izvjesni zakljuci o buducoj prodaji sto ce pomoci manage-

rima u donosenju poslovnih odluka.

• Nacrtajte histogram.

• Odredite empirijsku distribuciju.

X =

(9 10 11 12 13 14 15 16 17

0.07 0.15 0.08 0.11 0.12 0.09 0.11 0.13 0.14

)

Uz pretpostavku da empirijska distribucija u potpunosti odgovara stvar-

noj distribuciji prodaje odgovorite na sljedeca pitanja:

– Koliko iznosi prosjecna dnevna prodaja, a koliko je maksimalno

odsupanje od prosjeka? (Rjesenje: 13.26, 4.26)

– Procijenite vjerojatnost da ce ova auto kuca prodati vise od 13

automobila dnevno? (Rjesenje: 0.47)

– Procijenite vjerojatnost da bude prodano izmedu 9 i 12 automo-

bila dnevno? (Rjesenje: 0.23)

Primjer 3: training.sta

Broj treninga koje treba provesti prije no sto studenti savladaju jedan slozeni

kompjutorski program krece se u rasponu od jednog do pet. Proizvodaci

programa odlucili su prikupiti podatke koji pokazuju koliko je treninga bilo

potrebno svakom pojedinom ispitaniku da bi savladao program. Podaci su

dani u bazi training.sta.

Page 13: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 13

• Odredite empirijsku distribuciju broja provedenih treninga do savlada-

vanja programa.

X =

(1 2 3 4 5

0.1 0.26 0.4 0.14 0.1

)

• Koliko je prosjecan broj provedenih treninga? (Rjesenje: 2.88)

• Nacrtajte histogram.

• Ako proizvodaci tog programa zele osigurati da barem 76% studenata

savlada program, koji je minimalan broj treninga koji trebaju provesti?

(Rjesenje: 3)

Primjer 4: coffee.sta

Broj gostiju koji dnevno dolaze na kavu u ”Sunrise Coffee Shop” nalazi se u

bazi podataka coffee.sta.

• Odredite empirijsku distribuciju i prikazite je histogramom.

X =

(45 46 . . . 67

0.057 0.0143 . . . 0.0143

)

• Ako vjerojatnost da ce dnevno biti najmanje 56 gostiju iznosi vise od

0.5 vlasnik kafica planira zaposliti jos jednog konobara. Ako odluci

vjerovati da je empirijska distribucija broja gostiju iz navedenog ispiti-

vanja identicna stvarnoj distribuciji broja gostiju, treba li mu jos jedan

konobar ili ne? (Rjesenje: treba, vjerojatnost je 0.53)

• Kolika je u tom slucaju vjerojatnost da ce kafic posjetiti izmedu 50 i

54 osoba dnevno? (Rjesenje: 0.085714)

Primjer 5: prihod.sta

Raspolazemo podacima o prihodu od prodaje za 153 poduzeca u Hrvatskoj.

Page 14: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 14

• Nacrtajte histogram i izracunajte ocekivanje i standardnu devijaciju

empirijske distribucije. (Rjesenje: 742 398.4, 525 905.9)

• Koji je najcesci prijavljeni prihod za ispitana poduzeca? (Rjesenje:

999 999)

• Kolika je procijenjena vjerojatnost da ce prihod biti 1200000 i veci, a

kolika da ce prihod biti izmedu 300000 i 700000 eura? (Rjesenje:

0.196078, 0.078432)

Primjer 6: mba.sta

Vijece jednog MBA studija ima zadatak odrediti granicnu vrijednost za pri-

manje studenata na MBA studij koristeci GMAT test (Graduate Manage-

ment Admission Test). Vijece predlaze da se odabere takva granicna vri-

jednost koja ce odobriti upis za 25% prijavljenih studenata sa najboljim

rezultatima na GMAT testu.

• Koja bi to vrijednost bila? (Rjesenje: 523)

• Jedan od profesora predaze da se primi 1/3 studenata. Koliko bi u tom

slucaju trebala iznosti granicna vrijednost? (Rjesenje: 506)

• Nacrtajte histogram.

Primjer 7: dob-poduz.sta

Raspolazemo podacima o dobi 200 poduzetnika u Hrvatskoj.

• Zanima nas prosjecna starost poduzetnika kao i standardna devijacija.

(Rjesenje: 42.605, 8.994078).

• Takoder, raspolazemo informacijom da je u SAD-u 50% poduzetnika

mlade od 35 godina, pa nas zanima kakva je situacija u Hrvatskoj.

(Rjesenje: 0.19)

• Kolika je proporcija poduzetnika koji imaju izmedu 46 i 60 godina?

(Rjesenje: 0.275)

Page 15: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 15

• Nacrtajte histogram.

Primjer 8:

Za podatke iz baza carsold.sta, training.sta, coffee.sta, prihod.sta,

mba.sta, dob-poduz.sta odredite: broj podataka, aritmeticku sredinu, stan-

dardnu devijaciju, maksimum, minimum, mod, medijan, te donji i gornji

kvartil.

Valid N Mean Median Mod Min Max LQ UQ StDev

carsold.sta 100 13.26 13 10 9 17 11 16 2.62

training.sta 50 2.88 3 3 1 5 2 3 1.099

coffee.sta 70 54.57 56 58 45 67 52 58 4.79

prihod.sta 153 742 398.4 999 999.0 999 999.0 1000 2 000 000 150 000 1 000 000 525 905.9

mba.sta 100 475.28 471.5 multiple 288 672 426 522 76.26152

dob-poduz.sta 200 42.605 42.5 multiple 23 64 37 49 8.994078

Page 16: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 16

Zakljucivanje o jednoj slucajnoj varijabli

• Numericke karakteristike distribucije populacije nazivamo parame-

trima.

• Statisticko zakljucivanje odnosi se na donosenje zakljucaka o pa-

rametrima promatrane populacije na temelju analiziranja odabranog

uzorka.

• Prije samog odabira uzorka iz cijih ce karakteristika slijediti zakljucci

treba voditi racuna o sljedecem:

– dimenziji uzorka i nacinu odabira elemenata populacije u uzorak,

– prirodi zakljucka kojeg zelimo donijeti,

– vjerodostojnosti konacnog zakljucka.

• Dva najvaznija postupka statistickog zakljucivanja su:

– procjena parametara,

– testiranje hipoteza vezanih uz parametre.

• Kod procjene parametara razlikujemo:

– procjenu vrijednosti nepoznatog parametra (procjena konkret-

nom vrijednoscu),

– odredivanje intervala kojem vrijednost nepoznatog parametra pri-

pada s nekom unaprijed zadanom vjerojatnosti (procjena pa-

rametara intervalima zadane pouzdanosti).

Page 17: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 17

Testiranje statistickih hipoteza

• Statisticka hipoteza je tvrdnja o velicini parametra θ ili o obliku

distribucije populacije cija se vjerodostojnost ispituje pomocu podataka

dostupnih iz slucajno odabranog uzorka.

• Postupak kojim se donosi odluka o prihvacanju ili neprihvacanju tvrd-

nje na temelju podataka iz slucajnog uzorka naziva se testiranje

statistickih hipoteza.

• U ovom dijelu koristit cemo parametarske statisticke testove, tj. tes-

tove koji polaze od danog oblika distribucije i numerickih karakteristika

slucajne varijable koja se koristi za modeliranje nekog obiljezja popu-

lacije (odnosno pripadnog slucajnog uzorka).

Primjer 1:

Pretpostavimo da zelimo provjeriti je li ocekivano vrijeme cekanja u redu

studentske menze u vrijeme rucka vece od pet minuta i na osnovu toga odluciti

trebamo li pokrenuti jos jednu traku ili ne. U ovom slucaju valja provesti

statisticki test o vrijednosti ocekivanja slucajne varijable.

• U postupku provodenja statistickog testa potrebno je prakticnu

hipotezu (tvrdnju koju zelimo testirati) formulirati kao statisticku

hipotezu i na osnovu toga izabrati prikladan statisticki test iz niza

dostupnih testova.

• U tu svrhu potrebno je prije svega poznavati mogucnosti pojedinih

ponudenih statistickih testova i uvjete u kojima se mogu primijeniti.

• Osnovni koraci u testiranju statistickih hipoteza

1. Postaviti nultu i alternativnu hipotezu temeljenu na para-

metrima. Kako znati koju tvrdnju postaviti za nultu, a koju za

alternativnu hipotezu?

Page 18: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 18

– negaciju pretpostavke, koja se temelji na podacima dobivenim

iz uzorka, koju zelimo testirati i na osnovu koje zelimo donijeti

neku odluku postavljamo kao nultu hipotezu i oznacavamo

ju sa H0.

– samu pretpostavku koju zelimo testirati postavljamo kao al-

ternativnu hipotezu i oznacavamo ju sa HA.

Nulta i alternativna hipoteza koje postavljamo na osnovu pret-

postavke navedene u primjeru 1 su:

– H0 : Vrijeme cekanja u redu studentske menze u vrijeme rucka

je manje ili jednako 5 minuta.

– HA : Vrijeme cekanja u redu studentske menze u vrijeme rucka

je vece od 5 minuta.

Alternativnu hipotezu trebamo smatrati netocnom sve dok nam

neki prikladan statisticki test ne da dovoljno uvjerljive rezultate

na osnovu kojih ju mozemo prihvatiti, tj. na osnovu kojih mozemo

odbaciti nultu hipotezu (koju a priori smatramo tocnom).

2. Odabrati test statistiku T cija vrijednost najbolje odrazava

vjerodostojnost hipoteze koju zelimo testirati, odrediti skup mogucih

vrijednosti koje test statistika moze poprimiti, te konkretnu vrijed-

nost test statistike za koje nultu hipotezu H0 ne prihvacamo u ko-

rist alternativne hipoteze HA. Podrucje vrijednosti test statistike

T za koje ne prihvacamo nultu hipotezu H0 nazivamo kriticno

podrucje ili podrucje odbacivanja testa. Test statistike

koje koristimo pri testiranju hipoteza o vrijednosti razlicitih pa-

rametara bit ce navedene kasnije.

3. Obzirom da su statisticki testovi kreirani na bazi slucajnih varija-

bli, potrebno je priznati mogucnost pogreske prilikom zakljucivanja.

Razlikujemo dvije vrste takvih pogresaka:

– Pogreska prvog reda: neprihvacanje nulte hipoteze H0

u slucaju kad je ona zapravo istinita. Vjerojatnost pojave

pogreske prvog reda nazivamo p-vrijednost.

– Pogreska drugog reda: prihvacanje nulte hipoteze u

slucaju kad je istinita alternativna hipoteza.

Page 19: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 19

Ako je u postupku odlucivanja definiran najveci iznos vjerojatnosti

pogreske prvog reda koji smo spremni prihvatiti, taj broj nazivamo

nivo znacajnosti ili nivo signifikantnosti i oznacavamo ga

sa α.

U tom slucaju nultu hipotezu odbacujemo ako je izracunata p-

vrijednost manja od nivoa znacajnosti α.

Npr. ako je α = 0.05, znaci da ce H0 biti krivo odbacena (odnosno,

da cemo napraviti pogresku prvog reda) u oko 5 od 100 nezavisnih

ponavljanja testa.

4. Izracunati vrijednost test statistike T iz eksperimentalno odredenih

podataka i odrediti pripada li ta vrijednost u kriticno podrucje:

– ako pripada, zakljucujemo da je alternativna hipoteza HA

potvrdena na danom nivou znacajnosti α. Istovremeno ne

mozemo tvrditi da smo dokazali apsolutnu netocnost nulte

hipoteze H0.

– ako ne pripada, zakljucujemo da nema dovoljno objektivnih

razloga za neprihvacanje nulte hipoteza H0, tj. kazemo da

alternativna hipoteza HA nije potvrdena na danom nivou

znacajnosti α.

Page 20: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 20

Testiranje hipoteze o tome je li ocekivanje jednako una-prijed odredenoj vrijednosti za velike uzorke

• U ovom postupku koristimo aritmeticku sredinu uzorka kao procjenu

za ocekivanje.

• U slucajnom uzorku uzetom iz proizvoljne populacije, karakterizirane

ocekivanjem µ i standardnom devijacijom σ, distribucija aritmeticke

sredine uzorka kao procjenitelja za ocekivanje (u oznaci X) je priblizno

normalna s ocekivanjem µ i standardnom devijacijom σ/√n. Stovise:

Z =X − µσ/√n

je priblizno standardna normalna slucajna varijabla.

• Nasa situacija bit ce obiljezena nepoznatom standardnom devijacijom

σ. Stoga cemo koristiti standardnu devijaciju slucajnog uzorka koju

oznacavamo sa s.

• Neka je α nivo znacajnosti testa (npr. α = 0.05 ili α = 0.01).

• Test koji koristimo za testiranje hipoteze o jednakosti ocekivanja (µ)

nekoj unaprijed zadanoj vrijednosti (µ0) naziva se z-test. Ovisno o

prirodi nulte i alternativne hipoteze, razlikujemo:

– dvostrani test - karakteriziraju ga znak jednakosti u nultoj i

znak razlicitosti u alternativnoj hipotezi.

– jednostrani test - karakteriziraju ga znak jednakosti u nultoj

i stroga nejednakost u alternativnoj hipotezi.

Page 21: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 21

Dvostrani test:

H0 : µ = µ0,

H1 : µ 6= µ0.

Test statistika:

z =µ− µ0

s/√n.

• nultu hipotezu H0 odbacujemo ako je: |z| > zα/2.

• s - standardna devijacija slucajnog uzorka.

• µ - aritmeticka sredina uzorka.

• n - dimenzija uzorka.

• zα/2 - broj za koji vrijedi da je P{|Z| ≥ zα/2} = α.

• Z - standardna normalna slucajna varijabla.

• Kod dvostranog testa nivoa znacajnosti α potrebno je odrediti zα/2

takav da je

P{|Z| ≥ zα/2} = α,

gdje je Z ∼ N (0, 1).

• Primijetimo da je

α = P{|Z| ≥ zα/2} = 1− P (|Z| ≤ zα/2) = 1− 1√2π

∫ zα/2

−zα/2e−x

2/2dx.

• Prema tome nepoznati zα/2 dobivamo rjesavanjem nelinearne jednadzbe

F (zα/2) = 0,

gdje je

F (zα/2) := 1− α− 1√2π

∫ zα/2

−zα/2e−x

2/2dx.

Page 22: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 22

Jednostrani test:

H0 : µ = µ0,

H1 : µ < µ0 ili H1 : µ > µ0.

Test statistika:

z =µ− µ0

s/√n.

• nultu hipotezu H0 odbacujemo ako je: z < −zα, odnosno

ako je z > zα.

• s - standardna devijacija slucajnog uzorka.

• µ - aritmeticka sredina uzorka.

• n - dimenzija uzorka.

• zα - broj za koji vrijedi da je P{Z ≥ zα} = α.

• Z - standardna normalna slucajna varijabla.

• Kod jednostranog testa nivoa znacajnosti α potrebno je odrediti zα

takav da je

P{Z ≥ zα} = α,

gdje je Z ∼ N (0, 1).

• Primijetimo da je

α = P{Z ≥ zα} = 1− P (Z ≤ zα) = 1− 1√2π

∫ zα

−∞e−x

2/2dx.

• Prema tome nepoznati zα dobivamo rjesavanjem nelinearne jednadzbe

F (zα) = 0,

gdje je

F (zα) := 1− α− 1√2π

∫ zα

−∞e−x

2/2dx.

Page 23: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 23

• Ukoliko se radi o malom uzorku (n < 30), distribucija aritmeticke

sredine uzorka kao procjenitelja za ocekivanje je Studentova s (n − 1)

stupnjeva slobode i pripadni test naziva se t-test.

• Neka je α nivo znacajnosti testa (npr. α = 0.05 ili α = 0.01)

Dvostrani test:

H0 : µ = µ0,

H1 : µ 6= µ0.

Test statistika:

t =µ− µ0

s/√n.

• nultu hipotezu H0 odbacujemo ako je: |t| > tα/2.

• s - standardna devijacija slucajnog uzorka.

• µ - aritmeticka sredina uzorka.

• n - dimenzija uzorka.

• tα/2 - broj za koji vrijedi da je P{|T | ≥ tα/2} = α.

• T - Studentova s (n− 1) stupnjeva slobode.

Page 24: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 24

Jednostrani test:

H0 : µ = µ0,

H1 : µ < µ0 ili H1 : µ > µ0.

Test statistika:

t =µ− µ0

s/√n.

• nultu hipotezu H0 odbacujemo ako je: t < −tα, odnosno

ako je t > tα.

• s - standardna devijacija slucajnog uzorka.

• µ - aritmeticka sredina uzorka.

• n - dimenzija uzorka.

• tα - broj za koji vrijedi da je P{T ≥ tα} = α.

• T - Studentova s (n− 1) stupnjeva slobode.

• Numericka varijanta izracuna tα (tα/2) napravljena je na analogan

nacin kao za zα (zα/2) i nalazi se u dokumentu vjezbe-5.nb.

• U uvjetima istinitosti nulte hipoteze ocekujemo da je realizacija z (ana-

logno t) slucajne varijable Z (analogno T ) blizu 0.

• Moze se pokazati da slucajna varijabla Z (analogno T ) za koju je gor-

nja vrijednost z (analogno t) jedna realizacija ima jedinicnu normalnu

distribuciju.

• Na osnovu realizacije z (analogno t) na nasem uzorku mozemo odrediti

p-vrijednost na sljedeci nacin:

p = P{Z ≥ z} (odnosno, p = P{Z ≤ z})

ovisno o tome suprotstavljamo li nultoj hipotezi alternativu da je stvarno

ocekivanje vece ili manje od hipotetske vrijednosti.

Page 25: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 25

Primjer 2: tv.sta

Godine 1979. osnovna kablovska televizija je, u prosjeku, kostala 7.37 dolara

mjesecno. Godine 1983. ”Federalno udruzenje kablovskih televizija” (broji

vise od 4000 kablovskih sustava) zakljucilo je da je kablovska televizija po-

skupjela za samo 8% u odnosu na 1979., te da ne stoji statisticki znacajno

vise od 8 dolara mjesecno. No ”Udruzenje potrosaca” sumnja u te izjave pa

su ih odlucili provjeriti. Koristeci podatke prikupljene u bazi tv.sta provje-

rite govori li ”Federalno udruzenje kablovskih televizija” istinu.

(Rjesenje: H0 : µ = 8; HA : µ > 8; na nivou znacajnosti 0.05

prihvacamo nultu hipotezu.)

Primjer 3: lopta.sta

Jedan se poduzetnik bavi proizvodnjom loptica za golf. U suradnji s projek-

tantima u poduzecu napravio je preinake na jednom dijelu stroja. Cijeli je

proces dizajniran tako da proizvodi loptice prosjecne mase 0.25 unci. Kako bi

istrazio radi li novi stroj zadovoljavajuce, odabire 40 loptica i biljezi njihove

mase (podaci su dostupni u bazi lopta.sta). Mozemo li na nivou znacajnosti

α = 0.05 tvrditi da je odstupanje prosjecne mase loptice od pretpostavljene

mase (0.25 unci) statisticki znacajno.

(Rjesenje: H0 : µ = 0.25; HA : µ 6= 0.25; na nivou znacajnosti 0.05

ne prihvacamo nultu hipotezu.)

Primjer 4:

Kako bi odgovorili na pitanje koji faktori sprecavaju proces ucenja u razredu,

istrazivaci na nekom sveucilistu ispitali su 40 ucenika koji su trebali ocjenama

od 1 (uopce ne) do 7 (u velikoj mjeri) ocijeniti razinu do koje odredeni faktori

ometaju proces ucenja. Faktor koji je dobio najvecu ocjenu je: ”Profesori

koji inzistiraju na jednom tocnom odgovoru radije nego da evaluiraju cjelo-

kupno razmisljanje i kreativnost”. Deskriptivna statistika za ocjenu razine

utjecaja ovog faktora je: µ = 4.70, s = 1.62. Je li na razini znacajnosti

α = 0.05 ocekivana ocjena za navedeni faktor statisticki znacajno veca od 4?

Interpretirajte rezultat.

(Rjesenje: H0 : µ = 4; HA : µ > 4; na nivou znacajnosti 0.05 ne

prihvacamo nultu hipotezu.)

Page 26: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 26

Testiranje hipoteze o tome je li vjerojatnost dogadajajednaka unaprijed odredenoj vrijednosti za velike uzorke

• U sklopu modela Bernoullijevog pokusa modeliranog slucajnom varija-

blom zadanom sljedecom tablicom distribucije:

X =

(0 1

q p

),

testiramo hipoteze o vrijednosti parametra p (vjerojatnost relizacije

uspjeha u jednoj izvedbi Bernoullijevog pokusa).

• U ovom postupku relativnu frekvenciju uspjeha (p) koristimo kao pro-

cjenu za vjerojatnost (proporciju) p: p = Xn, gdje je X slucajna va-

rijabla cija je realizacija broj uspjeha u n ponavljanja Bernoullijevog

pokusa.

• Ovaj test baziran je na normalnoj aproksimaciji binomne distribucije,

tj. p ima priblizno normalnu distribuciju s ocekivanjem µ i standard-

nom devijacijom√p(1− p)/n.

• Uz pretpostavku da vjerojatnost p ima unaprijed zadanu vrijednost p0,

distribucija procjenitelja p je N (p0, p0(1 − p0)/n). Prema tome, stan-

dardizirana test statistika

Z =p− p0√

p0(1− p0)/n

ima standardnu normalnu distribuciju.

• Dimenzija uzorka je dovoljno velika ako interval[p0 − 3

√p0(1−p0)

n, p0 + 3

√p0(1−p0)

n

]ne sadrzi ni 0 ni 1.

• Neka je α nivo znacajnosti testa (npr. α = 0.05 ili α = 0.01).

Page 27: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 27

Dvostrani test:

H0 : p = p0

H1 : p 6= p0

Test statistika:

z =p− p0√p0(1−p0)

n

.

• nultu hipotezu H0 odbacujemo ako je: |z| > zα/2.

• p - relativna frekvencija uspjeha.

• n - dimenzija uzorka.

• zα/2 - broj za koji vrijedi da je P{|Z| ≥ zα/2} = α.

• Z standardna normalna slucajna varijabla.

Jednostrani test:

H0 : p = p0

H1 : p < p0 (odnosno H1 : p > p0)

Test statistika:

z =p− p0√p0(1−p0)

n

• nultu hipotezu H0 odbacujemo ako je z < −zα (odnosno

z > zα).

• p - relativna frekvencija uspjeha.

• n - dimenzija uzorka.

• zα - broj za koji vrijedi da je P{Z ≥ zα} = α.

• Z - standardna normalna slucajna varijabla.

Page 28: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 28

Primjer 5: perec.sta

Odlucili ste prodavati nove perece u svojoj pekari. Niste sigurni svidaju li se

ili ne vasim kupcima. O tome ovisi hocete li nastaviti prodavati te perece ili

ne. U bazi podataka perec.sta nalaze se podaci dobiveni iz uzorka od 50

potrosaca:

0 - ne svida mi se

1 - svida mi se

2 - indiferentan sam

Provjerite je li na nivou znacajnosti α = 0.05 proporcija kupaca kojima se

ne svidaju novi pereci statisticki znacajno razlicita od 0.5.

(Rjesenje: H0 : p = 0.5; HA : p 6= 0.5; na nivou znacajnosti 0.05

prihvacamo nultu hipotezu.)

Primjer 6: vrtic.sta

U jednom je poduzecu zaposleno vise od 3000 ljudi. Management poduzeca

zeli ponuditi pomoc svojim zaposlenicima oko organizacije cuvanja djece.

Daje dvije opcije: otvoriti sluzbu cuvanja djece unutar poduzeca ili ponuditi

novcanu pomoc roditeljima kako bi sami organizirali cuvanje. Odabrao je 60

roditelja, jednostavno ih upitao i njihove odgovore kodirao na sljedeci nacin:

0 - radije bih novcanu pomoc za samostalnu organizaciju cuvanja djece;

1 - radije bih organizaciju prepustio poduzecu.

Odgovori su dani u bazi podataka vrtic.sta. Odgovorite na slijedece pita-

nje: Management poduzeca razmislja o tome da organizira cuvanje djece ako

se pokaze da barem 75% roditelja odabere tu opciju. Provjerite je li na nivou

znacajnosti α = 0.05 proporcija roditelja koji zele organizirano cuvanje djece

statisticki znacajno manja od 0.75?

(Rjesenje: H0 : p = 0.75; HA : p < 0.75; na nivou znacajnosti 0.05

ne prihvacamo nultu hipotezu.)

Page 29: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 29

Testiranje hipoteze o jednakosti distribucije pretpostav-ljenoj teorijskoj distribuciji

• Kao procjenu za stvarnu distribuciju slucajne varijable koristimo em-

pirijsku distribuciju podataka koje smo prikupili nezavisnim ponavlja-

njem pokusa.

• Zelimo testirati ima li slucajna varijabla iz koje sakupljamo podatke

neku pretpostavljenu distribuciju - zovemo ju teorijska distribu-

cija.

• χ2 test

– Neka je teorijska distribucija dana tablicom:(x1 x2 . . . xr

p1 p2 . . . pr

)

Ovdje je xi 6= xj za i 6= j, pi ≥ 0 za svaki i ∈ {1, . . . , r} ir∑i=1

pi = 1.

– Pretpostavimo da promatramo slucajan pokus koji ima konacan

skup ishoda A = {x1, x2, . . . , xr}, r ≥ 2 i da smo ga nezavisno

ponovili n puta. Cilj nam je bio zabiljeziti frekvencije fj, odnosno

relativne frekvencije pj = fj/n, za svaki ishod xj. Time smo dobili

empirijsku distribuciju promatrane slucajne varijable.

– Zelimo testirati jednakost empirijske distribucije(x1 x2 . . . xr

p1 p2 . . . pr

)i teorijske distribucije navedene na pocetku poglavlja.

– Zapravo se radi o testiranju jednakosti vektorskog parametra p =

(p1, p2, . . . , pr) vektoru relativnih frekvencija p = (p1, p2, . . . , pr).

– Prema tome, nultu i alternativnu hipotezu postavljamo na sljedeci

nacin:H0 : p = p,

HA : p 6= p;

Page 30: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 30

odnosno:

H0 : procijenjena distribucija jednaka je teorijskoj distribuciji,

HA : procijenjena distribucija se razlikuje od teorijske distribucije.

– U uvjetima istinitosti hipoteze H0, za velik broj n nezavisnih po-

navljanja slucajnog pokusa, test statistika

D =r∑i=1

n(Pi − pi)2

pi=

r∑i=1

(Fi − fi)2

fi

priblizno ima hikvadrat distribuciju s (r − 1) stupnjeva slobode,

tj. D ∼ χ2(r − 1) [Pearsonov teorem].

– Kriticno podrucje χ2 testa je Cr = {x : D(x) ≥ hα}, gdje je hα

takav realan broj za kojega vrijedi da je P (χ2r−1 ≥ hα) = α, pri

cemu je α nivo znacajnosti testa.

– Iskoristimo programski paket Statistica: formirajmo bazu poda-

taka koja sadrzi eksperimentalno dobivene frekvencije i teorijske

frekvencije izracunate na bazi teorijske distribucije i broja poda-

taka u uzorku. Provedemo χ2 test i odbacimo H0 ako je dobivena

p-vrijednost manja od α, gdje je α odabrani nivo znacajnosti testa.

– Ovaj test mozemo koristiti i kod neprekidnih slucajnih va-

rijabli tako da R(X) podijelimo na disjunktne intervale i su-

protstavimo teorijske frekvencije tih intervala njihovim uzorackim

frekvencijama. Treba voditi racuna o tome da je test jako osjetljiv

na izbor intervala.

Page 31: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 31

Primjer 1:

Savjetnik ekoloskog kluba na jednom sveucilistu zeli postovati zahtjev da

klub sacinjava 10% brucosa, 20% studenata druge godine, 40% studenata

trece godine, te 30% apsolvenata. Clanstvo ekoloskog kluba za ovu godinu

brojilo je 14 brucosa, 19 studenata druge godine, 51 studenta trece godine,

te 16 apslovenata. Provjerite postoji li statisticki znacajna razlika trenutnog

sastava kluba od trazenih standarda na nivou znacajnosti α = 0.1.

(Rjesenje: na nivou znacajnosti 0.1 ne prihvacamo nultu hipotezu.)

Primjer 2:

Trzisni analiticar zeli istraziti imaju li potrosaci neke posebne sklonosti prema

jednom od okusa sokova koji su se pojavili na trzistu. Na uzorku od 100 ljudi

prikupio je preferencije prema ponudenim okusima. Frekvencije su dane u

sljedecoj tablici:

visnja jagoda naranca limun grejp

32 28 16 14 10

Ispitajte postoji li na nivou znacajnosti α = 0.05 statisticki znacajna pre-

ferencija potrosaca prema nekom od okusa ili je sklonost potrosaca jednaka

prema svim ponudenim okusima.

(Rjesenje: na nivou znacajnosti 0.05 ne prihvacamo nultu hipotezu.)

Primjer 3:

Jedna je studija na osnovu istrazivanja o razlozima povratka na posao ljudi

koji su umirovljeni postavila sljedecu distribuciju:

38% se ponovo zaposli u drugom poduzecu;

32% osnuje obrt;

23% rade kao konzultanti;

7% osnuje vlastito poduzece.

Poklapaju li se sljedeci rezultati, dobiveni ponovnim istrazivanjem, s pret-

hodno postavljenom tezom ili mozemo utvrditi postojanje statisticki znacajne

Page 32: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 32

razlike?122 se ponovo zaposlilo u drugom poduzecu;

85 je osnovalo obrt;

76 su radili kao konzultanti;

17 je osnovalo vlastito poduzece.

(Rjesenje: na nivou znacajnosti 0.05 prihvacamo nultu hipotezu.)

Page 33: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 33

Testiranje normalne distribuiranosti obiljezja

• Odgovor na ovo pitanje od izuzetne je vaznosti za tocnost statistickih

analiza obzirom da su mnogi statisticki testovi kreirani uz pretpostavku

normalnosti obiljezja.

• Potrebno je nezavisnim ponavljanjem pokusa prikupiti podatke iz re-

alizacija promatrane slucajne varijable.

• Za prvi uvid u moguca odstupanja od normalne distribucije mozemo

koristiti razne mjere deskriptivne statistike i graficke prikaze.

• Nultu i alternativnu hipotezu postavljamo na sljedeci nacin:

H0: obiljezje je normalno distribuirano.

HA: obiljezje nije normalno distribuirano.

• Za testiranje hipoteze o normalnosti obiljezja mozemo koristiti razne

testove, npr:

– Lillieforsova inacica Kolmogorov-Smirnov testa;

– Shapiro-Wilk’s W test.

• Kolmogorov-Smirnovljev test:

– koristi se za testiranje hipoteze H0 o pripadnosti promatranog

obiljezja neprekidnoj razdiobi s funkcijom distribucije F0.

– kriticno podrucje K-S testa odreduje se na temelju test statistike

Dn = maxx∈R|Fn(x)− F0(x)| ,

gdje je Fn empirijska ili uzoracka funkcija distribucije za dani niz

podataka.

– neka je X neprekidna slucajna varijabla sa pripadnom funkcijom

distribucije F , Y = F (X) funkcija slucajne varijable X sa pripad-

nom funkcijom distribucije G i y ∈ 〈0, 1〉. Tada vrijedi:

G(y) = P (Y ≤ y) = P (F (X) ≤ y) = P (X ≤ F−1(y)) = F [F−1(y)] = y,

Page 34: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 34

odnosno:

G(y) =

0 , y ≤ 0

y , 0 < y < 1

1 , y ≥ 1

,

tj. neprekidna slucajna varijabla Y = F (X) ima uniformnu dis-

tribuciju s parametrima 0 i 1.

– transformirajmo niz podataka x1, . . . , xn u niz y1 = F0(x1), . . . , yn =

F0(xn) i sa Gn oznacimo empirijsku funkciju distribucije za taj niz.

– u uvjetima istinitosti nulte hipoteze odgovarajuca teorijska distri-

bucija je U(0, 1).

– vrijednostGn(y) ima znacenje relativne frekvencije dogadaja {Y ≤y} u nizu y1, . . . , yn.

– buduci je y = F0(x) i F0 strogo monotona funkcija, vrijedi da je

Gn(y) = Fn(x) i |Fn(x)− F0(x)| = |Gn(y)− y|. Odavde slijedi da

je

maxx∈R|Fn(x)− F0(x)| = max

y∈〈0,1〉|Gn(y)− y| .

– dakle, da bismo odredili razdiobu test statistike Dn, dovoljno je

promotriti Dn = maxy∈〈0,1〉

|Gn(y)− y|, tj. slucaj kad se kao teorijska

distribucija uzima U(0, 1).

– postupak odredivanja pripadne funkcije distribucije

Kn(x) = P (Dn ≤ x), x ∈ R

u uvjetima istinitosti hipoteze H0 vrlo je slozen i u njega se necemo

upustati1.

– ocito je vrijednost dn test statistike Dn pokazatelj razlike izmedu

empirijske distribucije Fn niza podataka i pretpostavljene teorijske

distribucije F0 - ako se dobije prevelika vrijednost za dn hipotezu

H0 treba odbaciti.

1Kolomogorov je pokazao da slucajna varijabla√

nDn ima tzv. Kolmogorovljevu dis-

tribuciju K(x) =+∞∑

k=−∞(−1)ke−2k2x2

, x > 0.

Page 35: Prikazivanje podataka -  · PDF fileNeovisno o metodi prikupljanja podataka, podaci nisu nikada izmje- ... Primjer 19:Iskoristite bazu podataka anketa.sta i odredite numeri cke

Uvod u vjerojatnost i statistiku 35

– kriticno podrucje razine znacajnosti α odredeno je uvjetom P (Dn ≥c0) = α, gdje je c0 = K−1

n (1− α).

Primjer 4: auti1.sta

Raspolazemo mjerenjima potrosnje novog modela automobila za 100 takvih

automobila. Provjerite je li potrosnja normalna slucajna vrijabla. Podaci su

dostupni u bazi auti1.sta.

(Rjesenje: na nivou znacajnosti 0.05 prihvacamo nultu hipotezu da

obiljezje potjece iz normalne distribucije.)

Primjer 5: dob-poduz.sta

Raspolazemo podacima o dobi 200 poduzetnika u nekoj zemlji. Zanima nas je

li dob poduzetnika u bazi podataka dob-poduz.sta normalno distribuirana

slucajna varijabla. Napravite testiranje i donesite zakljucak. Prokomenti-

rajte dobiveni rezultat s obzirom na kontekst pojave koju proucavate.

(Rjesenje: na nivou znacajnosti 0.05 prihvacamo nultu hipotezu da

obiljezje potjece iz normalne distribucije.)

Primjer 6: mba.sta

U bazi podataka mba.sta nalaze se podaci o rezultatima GMAT testa (Gra-

duate Management Admission Test) za 100 studenata koji su prijavili na

studij. Provjerite potjecu li podaci iz normalne distribucije.

(Rjesenje: na nivou znacajnosti 0.05 prihvacamo nultu hipotezu da

obiljezje potjece iz normalne distribucije.)