BINOMNA RASPODJELA

UVODNA ANALIZA I TEORIJSKE OSNOVE BINOMNE RASPODJELE

5

STATISTICS

PRELIMINARY ANALYSIS AND THEORETICAL BASIS

BINOMIAL DISTRIBUTION

Bernoulli experiment


6

Pregledni rad

STATISTIKA

UVODNA ANALIZA I TEORIJSKE OSNOVE BINOMNE

RASPODJELE

Bernoullijev eksperiment

mr. sc. Mulahasanovi Remzija


7

The Binomial distribution

Abstract

Binomial distribution sometimes called Bernoulli distribution in honor of the Swiss

mathematician Jacob Bernoulli (1654 - 1705), which is truly established the

theoretical basis of binomial distribution.

This article discusses (on the importance of discrete distribution) with a brief

review of the theoretical basis of the Bernoulli process that in the broadest sense

analyze the geometric interpretation of the pattern p, and then in the context of the

law of large numbers indicates a countable and uncountable set of variables to a

Bernoulli process. One of these indicators is the reproduction of geometric

interpretation in plane and space with examples of probability variables k, and

relationship variables k patterned dots differentiated probability dp and dq.

In the broadest sense, the work examines the properties of discrete size Bernoulli

experiment (process), such as: table of binomial distribution, the probability of

outcomes (independent events) and the cumulative probability that make (binomial

probability distribution, the probability of the individual and the value of the partial

sum, the cumulative probability, as well as samples binomial distribution with

examples of p). Previous activities during the reading of the text the reader refer to

the three approaches (interpretation) n series of Bernoulli process.

a) Assumptions Bernoulli experiment

Each study (decipher) has two possible outcomes, heads or tails. Furthermore, no

matter how many times he repeated this experiment, the probability of outcomes,

heads or tails remains the same.

Express an experiment in statistical terms. Properties Experiment E - (Bernoulli

process) are fully consistent trials (with two possible outcomes): success (U), and

failure (N). Thus, the outcome - head can be considered a success, and the outcome

- the letter is considered a failure. Probability of success or failure to express the

functions of probability:

P(S) = p; and P(F) = 1- p = q

Investigations are independent, which means that no matter how many times he

repeated the experiment, the probability of success or failure ostataje same.

Repeated independent experiments with characteristics:

(1) There are only two possible outcomes, and

(2) The likelihood of the outcome remains the same for all attempts.

The Binomial Distribution VII


8

b) Patterns of distribution and hypotheses

Any serious analysis of binomial distribution is based on a sample ps shares and

three interpretations of a series of Bernoulli process, ie it approaches:

a) The first approach ''k'' is considered a random variable.

b) The second approach considers a number of independent random variables and redefined ''k'' discrete variable

c) The third approach we shall discuss considered distribution.

Tests binomial distribution are always based on calculations of variables p*, while

the OC curve (Operating Characteristic Curves) with parameters estimation

variance and the mean of the sample p serve the evidentiary test procedures. All

practical examples using tables Clopper - Pearson, tables published by the National

Bureau of Standards USA.

Keywords:

Bernoulli experiment, Binomial distribution, population samples, sample p (known

and constant probability), approximation of binomial distributions, hypothesis, and

the effect of increasing the sample size to the OC curve (Operating Characteristic

Curves).

The Binomial Distribution VIII


9

BINOMNA RASPODJELA

Saetak: Binomnu raspodjelu ponekad nazivamo Bernoullijevom raspodjelom u

ast vicarskog matematiara: Jacob Bernoulli (1654 1705), a koji je istinski

utemeljio teorijske osnove binomne raspodjele.

Ovaj lanak raspravlja (o znaaju diskretnih raspodjela) s kratkim osvrtom na

teorijske osnove Bernoullijeva procesa koji u najirem smislu analizira

geometrijsku interpretaciji uzorka p, a zatim u kontekstu zakona velikih brojeva

ukazuje na prebrojiv i neprebrojiv skup varijable k Bernoullijeva procesa. Jedan od

tih pokazatelja je i reprodukcija geometrijske interpretacije u ravnini i prostoru sa

primjerima vjerovatnosti varijable k, i povezanosti varijable k s uzorkom taaka

diferenciranih vjerovatnosti dp i dq.

U najirem smislu rad istrauje svojstava diskretnih veliina Bernoullijeva

eksperimenta (procesa), kao to su: tablice binomne raspodjele, vjerovatnost

ishoda (neovisnog dogaaja) i kumulativne vjerovatnosti koje ine (vjerovatnosti

binomne raspodjele, pojedinane vjerovatnosti i vrijednost djeliminog zbira,

kumulativnu vjerovatnost, kao i uzorke binomne raspodjele s primjerima udjela p).

Prethodni sadraji e tokom isitavanja teksta itaoca uputiti na tri pristupa

(tumaenja) n niza Bernoullijeva procesa.

a) Pretpostavke Bernoullijeva eksperimenta

Svako ispitivanje (prosudimo) ima dva mogua ishoda, glava ili pismo. Nadalje,

bez obzira na to koliko puta je ponovljen ovaj eksperiment, vjerovatnost ishoda,

glava ili pismo ostaje ista.

Izrazimo eksperiment u statistikoj terminologiji. Svojstva eksperimenta E

(Bernoulli proces) u cijelosti su saglasna ispitivanjima (sa dva mogua ishoda):

uspjeh (U), i neuspjeh (N). Dakle, ishod - glava se moe smatrati uspjehom, a

ishod - pismo se smatra neuspjeh. Vjerovatnost uspjeha ili neuspjeha izraavamo

funkcijama vjerovatnosti:

( ) i ( )

Istraivanja su neovisna, to znai da bez obzira na to koliko puta je ponavljan

eksperiment, vjerovatnost uspjeha ili neuspjeha ostataje ista.

Ponovljeni nezavisni eksperimenti koji imaju karakteristike:

(1) Postoje samo dva mogua ishoda, i

(2) Vjerovatnost ishoda ostaje ista za sve opite.

The Binomial Distribution IX


10

b) Uzorci raspodjele i hipoteze

Svaka ozbiljna analiza binomne raspodjele poiva na uzorku p s udjelima i tri

tumaenja niza Bernoullijeva procesa, odnosno to su pristupi:

(a) Prvi pristup ''k'' smatra sluajnom varijablom. (b) Drugi pristup smatra niz nezavisnih sluajnih varijabli i redefinirani ''k''

diskretnom varijablom (c) Trei pristup o kojem emo razgovarati smatra raspodjelom.

Testovi binomne raspodjele uvijek su utemeljeni na izraunima varijable p*, dok

e OC krivulje (Operating Characteristic Curves) s parametrima procijena

varijance i srednje vrijednosti uzorka p posluiti u dokaznim procedurama testa.

Svi praktini primjeri koriste Tablice Clopper Pearson, tablice je objavio

Nacionalni uredu za standarde SAD.

Kljune rijei:

Bernoullijev eksperiment, Binomna raspodjela, uzorci populacije, uzorak p

(poznata i konstantna vjerovatnoa), aproksimacija binomne raspodjele, hipoteza,

i uinak poveane veliine uzorka na OC krivulje (Operating Characteristic

Curves).

The Binomial Distribution X


11

S a d r a j

Uvod.................................................................................................

14

I - Teorijske distribucije........................................................

15

1-1 Geometrijska interpretacija..............................................................

15

1-2 Binomna raspodjela..........................................................................

17

II - Tablice binomne raspodjele............................................

20

2-1 Tablice vjerovatnosti binomne raspodjele........................................

20

(i) Pojedinane vrijednosti i vrijednosti djeliminog zbira........

20

(ii) Kumulativne vjerovatnosti.....................................................

22

III - Uzorci raspodjele s udjelima vjerovatnosti...................

25

3-1 Uzorak raspodjele s primjerima uzorka p........................................

25

(i) Tri tumaenja n niza Bernoulijeva procesa...........................

26

(ii) Varijanca uzorka....................................................................

29

(iii) Raspodjela uzorka p u n - dimenzionom prostoru (2

4 = 16)

30

(iv) Srednja vrijednost i varijanca uzorka p.................................

33

IV Hipoteze i testovi...........................................................

35

4-1 Testovi binomne raspodjele..............................................................

35

(i) Ispitivanje hipoteze................................................................

36

(ii) Clopper - Pearson .................................................................

37

(iii) Koordinatni sistem uzorka p..................................................

42

V OC krivulja (Operating Characteristic Curves)............

45

5-1 Hipoteze i izraun p*........................................................................

45

(i) Izraun p* .............................................................................

46

(ii) OC krivulja.............................................................................

51

(iii) Upotreba OC krivulje............................................................

54

5-2 Procijena ................................................................................

56

(i) Procijena .............................................................................

56

(ii) Procijena varijance................................................................

57


12

VI - Normalna aproksimacija binomne raspodjele.............

60

6-1 Normalna distribucija (priblina binomna distribucija)..................

61

6-2 Interval pouzdanosti.........................................................................

67

(i) Postupak primjene standardne procedure.............................

68

(ii) Metoda procijene...................................................................

69

(iii) Postupak koritenja dvolane vjerovatnosti..........................

71

(iv) Interval pouzdanosti (Clopper Pearson)............................

73

6-3 Veliina uzorka n (koritenje intervala pouzdanosti).......................

74

Dodatak............................................................................................

78

The Binomial Distribution XII


13

I n t r o d u c t i o n

The world in which we live and who we want to understand the full diversity and

ambiguity. Human cognition and general perception of man will hardly anytime to

be absolutely identical, one person will say iteresovati local geography, while

another person iteresovati some general properties (attributes) of a number of

transformations in nature or society (which are both long-term). When it would not

be so, it would be a slight area of statistics.

Statistics teaches us how to make conclusions and decisions in the world of

ambiguity on the basis of information collected on the observed phenomena, but in

accordance with the methods and goals of statistical surveys. How collected

information about occurrences organize and then treat (we assume that we collect

and process a lot of information). Thus, the statistics would indicate methods for

organizing, collecting information and concise interpretation and inferences based

on information collected and processed statistical surveys.

Methods of statistical research (as well as methods of binomial distribution) are

part of the inductive statistics (used methods of statistical inference), then based on

the properties of the sample to a conclusion on the entire population. Thus,

methods of statistical research and test sample ambiguity and population are

correlated.

The Binomial Distribution XIII


14

U v o d

Svijet u kojem ivimo i koji elimo razumjeti pun je razliitosti i neodreenosti.

Ljudska spoznaja i opta percepcija ovjeka teko da e bilo kada biti apsolutno

podudarna, jednu osobu e recimo iteresovati blia okolina, dok e drugu osobi

iteresovati neka opta svojstva (atributi) brojnih transformacija u prirodi ili drutvu

(koja su istovremeno i dugorona). Kada to ne bi bilo tako, bilo bi neznatno

prostora za Statistiku.

Statistika nas pouava kako donositi zakljuke i odluke u svijetu neodreenosti na

osnovu prikupljenih informacija o promatranoj pojavi, ali u skladu sa metodama i

ciljevima statistikih istraivanja. Kako prikupljene informacije o nekoj pojavi

organizovati a zatim obraditi (pretpostavimo da prikupljamo i obraujemo

mnotvo informacija). Dakle, statistika e nam ukazati na metode za

organizovanje, prikupljanje informacija i saeto interpretiranje, te izvoenje

zakljuka na osnovu prikupljenih i obraenih informacija statistikih istraivanja.

Metode statistikih istraivanja (kao i metode binomne raspodjele) dio su

induktivne statistike (koristi metode statistikih zakljuivanja), tada na temelju

svojstava uzorka izvodimo zakljuak o cijeloj populaciji. Dakle, metode

statistikih istraivanja kao i ispitivane neodreenosti uzorka i populacije su u

korelaciji.

The Binomial Distribution XIV


15

I Teorijske distribucije

Distribucije koje su formirane grupiranjem opaanja ili elemenata skupa prema

nekom obiljeju nazivamo orginalnim (empirijskim) distribucijama. Dok emo

distribucije koje se mogu oekivati u skladu sa naim iskustvom ili na temelju

nekih teorijskih postavki nazivati teorijskim distribucijama.

Teorijske distribucije:

(a) Pretpostavljamo u nekom statistikom modelu ili ih postavljamo kao

hipotezu koju treba ispitati (dokazati).

(b) Definirane su analitiki, te su unapred poznata svojstva: sredina, mod,

medijan, itd.

(c) Pojavljuju se u ulozi distribucije vjerovatnosti.

Distribucije vjerovatnosti (kao to je binomna distribucija) su apriori vjerovatnosti kod

kojih moemo izraziti ukupno mogue ishode i broj povoljnih ishoda, no sobzirom na

brojne zadatke statistikih istraivanja (kada nisu poznate apriori vjerovatnosti), pa je

eksperimentom potrebno doi do vjerovatnosti, tj. naknadno a posteriori, tako

proraunate (poslije) vjerovatnost iskazane su empirijski ili statistiki.

1-1 Geometrijska interpretacija

Neka je slijedee tumaenje Bernoullijeva eksperimenta geometrijsko. Ponimo s

jednostavnim primjerima: dva bacanja i tri bacanja novia. A zatim analizirajmo

opte tumaenje Bernoullijeva eksperimenta.

Dva bacanja novia

Pretpostavljamo da je novi bacan dva puta. Dakle, mogua su koja emo predstaviti (simbolino) kao: ( ) ( ) ( ) ( ) Ovu kombinaciju ishoda (koje oekujemo) moemo predstaviti u 2 dvodimenzionalnoj

ravnini kao uzorak u ravnini: Slika 1-1.


16

Vjerovatnosti povezane s uzorkom taaka:1

P(G,G) = pp q =

P

P(G,P) = pq

P(P,G) = qp p=

G

P(P,P) = qq

G P

Slika 1-1

Tri bacanja novia

Predpostavljamo da je novi bacan tri puta. Sada su mogua ili take po uzorku, koje emo predstaviti (simbolino) kao:

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

Ovu kombinaciju ishoda (ishode koje oekujemo) predstavit emo u

3 trodimenzionalnom prostoru: Slika 1-2; vjerovatnosti povezanh uzorak taaka,2

na primjer: P(G,G,G) = ppp; P(G,G,P) = ppq; P(G,P,G) = pqp; P(P,G,G) = qpp,

itd.

---------------------------------------------------

Podnaslov prethodnog teksta (Geometrijska interpretacija) je preuzet u slobodnom

prevodu izvornog naslova studije: Taro Yamane, STATISTIC An Introductory Analysis.

Sistem moguih ishoda (diskretnih stanja) za dva bacanja novia razvijen je u ravnini,

dok je sistem moguih (diskretnih stanja) za tri bacanja novia razvijen u prostoru.

1 Taro Yamane, Statistics An Introductory Analysis, Harper & Row, Publishers, p.

679;

2 Taro Yamane, Statistics An Introductory Analysis, Harper & Row, Publishers, p.

680.


17

Indukcijom zakljuujemo, ako se novi baca n

puta, ponavljamo n puta Bernoullijev proces, a to

generira n dimenzionalni uzorak prostor (uzorak take).

Svaka taka uzorka daje mogui slijed ishoda:

glave (G) ili pisma (P), to su moguie sekvence (niz), tada i samo tada, kada smo n puta ponavljali

Bernoullijev proces. Vjerovatnosti povezane s

ovim uzorkom taaka moe se prikazati algebarski

kao: Slika 1-2

gdje je k broj glava (G). U naem prethodnom primjeru: 2 bacanja, moda emo imati

ishode 0, 1 ili 2 glave (G). Dakle, vjerovatnosti se mogu prikazati kao:

Za (G,G) imamo: ( ) Za (G,P) imamo: ( )

i tako dalje.

Na primjeru 3-puta (bacanje novia), moda emo imati 0, 1, 2 ili 3 glave. Dakle,

vjerovatnost se moe prikazati kao: tada, na primjer, za (G, P, G) imamo: ( )

Uopte (ili u cijelini) navodimo, kada imamo n ponavljanja Bernoullijeva procesa, n

dimenzioni uzorak generira 2n uzorak prostor. Za svaku taku uzorkovanja mogui je slijed

(niz ishoda) U i N s vjerovatnostima koje su povezane s ovim primjerom taki, prikazane su

algebarski slijedeom relaciom: ; gdje je k broj uspjeha.

1-2 Binomna raspodjela

U svakoj taki (Slika 1-3) k je broj uspjeha u n, ako je n ukupn broj Bernoullijevih ishoda,

gdje je k = 0, 1, 2, ..., n. Razmotrimo sada k kao sluajnu varijablu, koja se ponekad naziva

binomna varijabla. Tada, na primjer, za n = 2, sluajna varijabla k ima 3 mogua ishoda:

k = 0, 1, 2. Pitanje je: Koja je vjerovatnost da postoji k uspjeha u n pokusa?

Reprodukujemo nau geometrijsku

interpretaciju za n = 2, kao (Slika 1-3). Kao to

smo ranije vidjeli, vjerovatnosti povezane s

uzorkom taaka su

G

Prema naoj novoj interpretaciji, gdje je k

sluajna varijabla (binomna varijabla), za take

(G, G) imamo k = 2, a time i

G P

Slika 1-3


18

( ) ( )

U takama (G, P), i (P, G), koje su razmak uzorak, lako je ukazati, da za k = 1

odnosno, razmak uzork mjesta je isti. Dakle, vjerovatnost za k = 1 je

( ) ( ) ( ) ( )

( ) ( )

i za (P, P) imamo k = 0 i

( ) ( )

Gledano iz drugog aspekta, moemo protumaiti ove rezultate kako slijedi: Kada je

n = 2 i k = 1, ukoliko je to mogue, s jednim uspjehom koji je nastao u drugom

ishodu? Postoje - ( ) (

)

Razliiti naini, ili za bilo koji nain, vjerovatnost je:

i stoga je - ( ) ( )

Za k = 0 sluaj, pitamo se. Koliko razliitih naina postoji odabira za 0 uspjeha u

n = 2 bacanja novia? Podsjeajui da je 0! = 1, imamo po definiciji

( ) (

)

i stoga - ( ) ( )

Konano, za k = 2, pitamo se. Koliko razliitih naina postoji odabira 2 uspjehe u

n = 2 bacanja novia? To je prikazano izrazom - ( ) (

)


Pimjenimo navedena tumaenje i ako se radi o bacanju novia 3 puta. Sluajna

varijabla k ima 4 mogua ishoda: k = 0, 1, 2, 3, i

( ) ( )

Na primjer, kada je k = 1, pitamo: Koliko razliitih naina postoje za odabir 1

uspjeh (u) n = 3 puta bacanje novia? To je prikazano - ( ) (

)


Uopte, kada zadajemo n Bernoulli proces s k uspjeha, vjerovatnost k uspjeha je

( ) ( ) ( )

gdje je p vjerovatnost uspjeha i q = 1 - p vjerovatnost neuspjeha.


19

P(k) takoer piemo kao - ( ) ''B'' je stav za ''binomial'', a ovaj izraz pokazuje izriito dva parametra n i p.

''k'' je sluajna varijabla, a jednaina (1) je raspodjela k koju nazivamo binomna

raspodjela.


20

II Tablice binomne raspodjele

Tablice binomne raspodjele grupiemo prema svojstvima teorijske distribucije

diskretne sluajne varijable. A najee teorijske distribucije diskretne sluajne

varijable su binomna i poissonova distribucija.

2-1 Vjerovatnosti binomne raspodjele

Binomna sluajna varijabla je diskretna sluajna varijabla, a definirana je, tada i

samo tada, kada su ispunjeni uslovi Bernoulijevog eksperimenta:

a) Postoji n pokuaja ponavljanja eksperimenta, b) Svaki ishod ima dva oekivanja (glava, pismo), c) Vjerovatnosti ishoda su konstantne, i d) Eksperiment je nezavisan.

(i) Pojedinane vjerovatnosti i vrijednost djeliminog zbira

Pretpostavimo da imamo kutiju s 3 crvena i 7 crnih kuglica. Odaberimo sluajni

uzorak veliine 5, izabrane kuglice vraamo. Ovaj uzorak se moe tumaiti kao 5

ponovljenih Bernoullijevih procesa. Ishod svakog je crvena ili crna kuglica s

vjerovatnostima p = 0,30 i q = 0,70.

Neka k (sluajna varijabla) pokazuje broj crvenih kuglica u

uzorku. Tada je k = 0, 1, ..., 5. Vjerovatnost k = 2 crvenih

kuglica u n = 5, se ispituje

( ) ( | ) ( ) ( ) ( )

Izraun takvih vjerovatnosti moe postati teak zadatak, sreom, tablice koje su izraunale

ove vjerovatnosti za odreene vrijednosti su na raspolaganju, one su obino dovoljne da

pokriju nae potrebe.3 Za uzorke veliine manje od 50 (to jest, manje od 50 ishoda, n 50),

Tablice Nacionalnalnog ured za standarde e obino biti dovoljne. Za 50 n 100, poznate su tablice binomne raspodjele (esto se koriste u naoj praksi), H. C. Romig.

4 Ove

tablice e pokriti veinu praktinih sluajeva, jer kao to emo kasnije vidjeti, kada n

postaje velik, moemo koristiti normalnu raspodjelu kao aproksimaciju. Tablica 14 su

dodatak, a objaviljene su 1952. godine, za sada se uvaju u Nacionalnom zavodu za

standardizaciju SAD.

-------------------------------------------------------------------- Tablice binomnih vjerovatnosti objavljene su u Dodatku Taro Yamane, Statistics, An Introductory

Analysis, za n = 1, 2, 3, 4, 5, 6, 7, 8, 9,10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 i p = 0,05; 0,10; 0,15;

0,20; 0,25; 0,30; 0,35; 0,40; 0,45; 0,50. str. 1100 -1105 - Izvor: Tablice su izvod tablica binomne

raspodjele vjerovatnosti, Nacionalnog ureda za standarde, primijenjene u matematikim serijama -

6, US Department of Commerce 1952.

3 - Tables of the Binomial Probability Distribution, National Bureau of Standards, Applied

Mathematics Series 6, U. S. Dept. of Commerce 1950.

4 - H. C. Romig, 50-100 Binomial Tables, New York: John Wiley and Sons, 1953.

Urna

3 crvene

7 crnih


21

Koritenjem tablica Nacionalnog ureda za standardizaciju, moemo pronai vrijednosti za

jednainu (1) za razne k, koje su u tablici 2-1. Slika 2 1 korespondira sa jednainom (4)

B(k; n, p) = B(n k; n, 1 p).

Tablica 2-1. n=5; p=0,30

k

P(k)

5

0,0024300

4

0,0283500

3

0,1323000

2

0,3087000

1

0,3601500

0

0,1680700

Slika 2 1

Vrijednost (djeliminog zbira) za k = 5 u pojedinanoj sekciji tablica, omoguit e

izraun vrijednosti te sekcije koritenjem djeliminog zbira -

( )

( | )

Meutim, pomou djelominog zbira (dio tablice), moemo nai

( ) ( )

U tablicama se navode vrijednosti p izmeu 0,01 p 0,50. Kad p > 0,50, moemo pretvoriti vjerovatnosti (da odgovaraju ekvivalentima formule) od

p < 0,50, dakle, koristimo iste tablice. Ta pretvorba se iskazuje kao to je u naem

prethodnom primjeru. U prethodnom primjeru, udio crvenih kuglica p = 0,30.

Recimo da je udio p = 0,70. (Tada, bi smo u navedenom uzorku imali 7 crveni i

3 crne kuglice).

Rjeimo zadataka, za k = 3,

( ) ( ) ( ) ( ) ( )

Meutim, kako vrijedi relacija

( ) (

)

i, uopte

( ) (

)

Takoer, imajte na umu da

( ) ( ) ( ) ( )

Uvrtavanjem ovih rezultata u jednainu (2), nalazimo


22

( ) ( ) ( ) ( ) ( )

(

) ( ) ( ) ( )

Dakle, pomou p = 0,30 i jednaine (3), moemo nai vjerovatnost jednaine (2).

Moemo rei da (traimo): Vjerovatnost 3 uspjeha u 5 ishoda, gdje je p = 0,70;

jednaka vjerovatnosti 5 - 3 = 2 uspjeha u 5 ishoda, dakle p = 1 - 0,70 = 0,30.

Uopte,

( ) ( ) ( )

(ii) Kumulativne vjerovatnosti

Pretpostavimo da smo zainteresirani za pronalaenje vjerovatnost odabira barem 3

crvene kuglice u 5 ishoda. To znai pronalaenje vjerovatnost odabira 3, 4, ili 5

crvenih kuglica zbrajanjem vjerovatnosti.

To jest,

( | ) ( ) ( ) ( )

( ) ( ) ( ) (

) ( ) ( ) (

) ( ) ( )

( ) ( ) ( )

i uopte, imamo

( | ) ( )

Oba izvora imaju kumulativne tablice vjerovatnosti. Tablice Nacionalnog zavoda

za standarde su ''vie nego'' osnova, a Romig tablice su ''manje od'' osnovnih.

Budui da je p = 0,30 i n = 5 u naem primjeru, moemo koristiti tablice

Nacionalnog zavoda za norme.

( | )

Kada je p > 0,50 vrimo transformaciju slinu dogaajima pojedinanih

vjerovatnosti s odgovarajuom ekvivalentnom formulom gdje je p < 0,50.

Iustrirajmo primjer doputajui da je p = 0,70 i pronaimo vjerovatnost najmanje 3

uspjeha za n = 5. To pokazujemo kao slijedei izraz:

( | ) ( ) ( ) ( ) ( ) ( ) ( )

( ) (

) (

)

Podsjeajui da je ( ) (

) postoji


23

( | ) ( ) (

) (

)

( ) ( | )

Ima razloga za tvrdnju da je zaobilazni postupak razvijen jednainom

(1): 1- p = 1 0,70 = 0,30 < 0,50 i (2) tablice Dravnog zavod za norme su ''vie

nego'' kumulativne tablice

( | )

Uopte, moemo rei da je

( | ) ( || )

gdje je q = 1- p.

Primjer 1

Koja je vjerovatnost odabira najmanje 2 crvene kuglice, ako je n = 5, p = 0,7?

) ( | ) ( ) ( ) ( ) ( )

( )

( ) (

) (

) (

)

( | ) ( | )

) ( | ) ( | )

( ) *(

) (

) +

[ ]

Interpretacija:

Vjerovatnost odabira barem 2 crvene kuglice u 5 ispitivanja, gdje je p = 0,70

jednak je vjerovatnosti odabira barem 4 crne kuglice minus 1 u 5 ispitivanja, tada

je q = 0,30 a vjerovatnost je 0,9692200.


24

Primjer 2

Pretpostavimo da je p = 0,40 to je 40 posto, veliki broj porodica u odreenoj

dravi koristi sapun A. Uzmimo uzorak veliine n = 30. Kolika je vjerovatnost da

15 porodica koristiti sapun A?

Budui da pretpostavljamo veliki broj porodica (populacija), pretpostavit emo da

se p ne mijenja, ak i ako se uzorak promijeni.Vjerovatnost emo iskazati, koristei

binomne tablice,

( | )

Po definiciji:

( | ) ( ) (

)

Postoji 8 ansi da u 100 odabira uzorka 30 porodica, 15 porodica koristi

sapun A.

Primjer 3

Koristei podatke iz primjera 2, nai vjerovatnost da postoji barem 15 porodica

koje koriste sapun A za uzork n = 30. Koristei tablice Dravnog zavoda za

standarde,

( | )

Po definiciji:

( | ) ( ) ( ) ( )

(

)

(

) (

) (

)

[ ]


25

Primjer 4

U primjeru 3, p = 0,6 - pronai vjerovatnost barem 15 porodica koje koriste sapun

A.

( | ) ( ) ( ) ( )

( | ) (

)

*(

) (

) (

) +

[ ]

III Uzorci raspodjele s udjelima vjerovatnosti

Uzorci raspodjele u kojima je izbor uzorka sluajan, uz poznatu vjerovatnost

izbora ''uzorka u populaciji'' (''probability'' uzorci) ini odabrana metoda sluajnog

uzorka. Vjerovatnost izbora uzorka p prethodno je poznata. Tada moemo

primjeniti zakon vjerovatnosti binomne raspodjele, a oblik teorijske distribucije

identificiramo pokazateljima (oekivanja i varijance binomne raspodjele). Drugi

pristup uzorkovanja su (''nonprobability'' uzorci) kojima istraiva dobro pozna

svojstva (atribute) populacije, ali tada izborom ''nonprobability'' uzorka se nemogu

koristiti (pretpostavimo) poznate vjerovatnosti.

3-1 Uzorak raspodjele s primjerima udjela p

Mnogi praktini problemi su konkretizacija uzorka p koji moe imati odreena

svojstva. Iz primjera istraivanja trita istraivai mogu biti zainteresirani za udio

porodice koja koristi odreene brend kafe, ili kupac koji moe biti zainteresiran za

udio poremeaja narudbi. Stanovnitvo (populacija) koje se svrsta u dvije klase

moe se nazvati dvojako, ili binomna raspodjela.

Neka sektor jednog razreda bude (recimo - mukarac, ili neispravan) i sektor drugog razreda (recimo - ena, ili ne deformisan). Zatim slijedi

gdje je N ukupan broj populacije. Udio populacije, recimo - mukarci se definiraju

kao

Moemo biti zainteresirani za procjenu, ili testiranja hipoteze za dato , ili

uporevati dva . Za navedene procijene ili testiranje hipoteze, obino odabiremo

uzorak (traimo uzorak p za procjenu ili ispitivanje hipoteze o ).


26

Za procjenu ili ispitivanja , pomou odabranog udjela p, moramo poznavati

raspodjelu uzorka. U naoj prethodnoj raspravi, pretpostavili smo veliinu uzorka

n, a koja nije dovoljno velika da bi koristili normalnu aproksimaciju. Ipak, kada n

nije veliki u modelima za raspodjelu uzorka, jasno se potvruje da raspodjela

uzorka p ima iste karakteristike kao i binomna raspodjela.

Moemo pokazati odnos raspodjele uzorka p i binomne raspodjele izravno. No,

najprije emo napraviti digresiju i raspravljati o razliitim alternativama (naina

eksperimenta) Bernoullijevih procesa, a zatim izvesti raspodjelu uzorka. Razlog za

razgovor o tim razliitim alternativama su razliite osnove Bernoullijeva procesa,

odnosno izvjesne potvrde da je svaki koristan u odreenim situacijama, odnosno,

da slobodno koristimo ove razliite pristupe (kad god je to potrebno).

Uoptavanjem Bernoullijevog procesa neminovno nas vodi diferenciranim

pristupima eksperimenta, to su svojstva uzorka p i ciljevi istraivanja u ovom

procesu: sluajne varijable k, diskretnih varijabli X, i raspodjela.

(i) Tri tumaenja n niza Bernoullijeva procesa

Pretpostavimo da bacamo kovanicu 10 puta sa sljedeim ishodima:

Tablica 3-1

Bernoullijev proces

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

G G P G P P P G G G

Uz pretpostavku fer bacanja novia, ako dodijelilimo vjerovatnosti ishoda glava

, tada je ishod pisma

Neka je X sluajna varijabla dodijeljena bacanjem novia, gdje je

{

Zatim slijedi 10 bacanja novia, tada ishode bacanja novia moemo prikazati

kao

Tablica 3-2

Binomna raspodjela

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) G G P G P P P G G G

1 1 0 1 0 0 0 1 1 1

Zbir (suma) od je


27

Koliki je zbir glava od deset (10) bacanja, te u pogledu naeg prethodnog zapisa,

moemo pisati

gdje je k binomna varijabla. S toliko izneenim razlozima e nam se razlikovati

sljedei pristupi.

1. Prvi pristup (razmilja o 10 bacanja novia) kao Bernoullijev proces sa 10 neovisnih ishoda sluajne varijable k za ukupan broj uspjeha u 10 opita.

Raspodjela vjerovatnosti je

( ) ( ) ( ) ( )

gdje je k = 0,1, , 10.

2. Drugi pristup razmilja o diskretnoj varijabli X, a definira se kao

( ) ( ) {

Tada e 10 bacanja generirati niz od 10 nezavisnih sluajnih varijabli:

Iz navedene diskretne raspodjele moemo nai oekivanu vrijednost i varijancu

diskretne varijable X kako slijedi:

( ) ( ) ( )

( ) ( ) ( )

( ) ( )( )

( )[ ( ) ( )] ( )

Koritenjem ovih rezultata, nai emo srednju vrijednost i varijancu sluajne

varijable k prvim pristupom. Ako nam je poznato da

( )

Dakle, koristei rezultate (3) i (4), oekivana vrijednost varijance za k su,

ostavljajui n = 10,

( ) ( )

( ) ( ) ( ) ( ) ( ) ( )


28

3. Prvi pristup k smatra sluajnom varijablom. Drugi pristup smatra niz

nezavisnih sluajnih varijabli i redefinirani k diskretnom varijablom Trei pristup, o kojem emo razgovarati, smatra raspodjelom.

Objanjavajui ovaj trei pristup, najprije emo pretpostaviti populaciju i uzorak.

Neka populacija ima 10 vrijednosti

gdje sada raspodjelu definiramo kao

{

Dakle, funkcija gustoe X je

( ) ( )

gdje je K agregat populacije

Zatim, budui da je X = 0 ili 1, K je ukupn (ili agregat) populacije. U naem

sadanjem primjer, imamo K = 6, dok smo prije imali 6 ishoda (glava).

Srednja vrijednost populacije je

( )

i jednak je omjeru populacije. emo smatrati posebnim sluajem . Sada emo uzeti sluajni uzorak veliine n = 4 iz populacije i pretpostaviti da je to

Tablica 3-3

Poseban sluaj za uzorka n = 4 G G P G

1 1 0 1

Tada ukupan (agregat) i prosjena vrijednost uzorka su

( )

Dakle, prosjena vrijednost uzoraka je srazmjerna populaciji.


29

Varijanca uzorka je

( )

( )

*

+

No, imamo

i zamjenom u jednaini gore, nalazimo

( )

Prethodno smo vidjeli da je nepristrasna procjena varijance populacije

( ) ( )

Uvrtavanjem (11) u (12), nailazimo

( )

kao nepristrasne procjene

(ii) Varijanca uzoraka

Ilustrirajmo ove rezultate s naim primjerom.

Tablica 3-4

Varijanca uzoraka n = 4

x

( )

1

1/4

1/16

1

1/4

1/16

0

- 3/4

9/16

1

1/4

1/16

3

0

12/6

( )


30

Udio uzorka je

Iz (11), nailazimo varijancu kao

(

) (

)

dakle, to je isti rezultat kao da je izvoden koritenjem tablice.

(iii) Raspodjela uzorka p u prostoru

Neka nam sljedei primjer omogui raspodjelu uzorka p. Uzeli smo uzorak

veliine n = 4, a budui da sluajna varijabla x ima samo 2 ishoda (koji su

vjerovatnosti i 1- ), imamo 4- dimenzioni uzorak, u prostoru sa uzorak taaka. Nabrojmo tih 16 uzorak taaka (tablica 3-5).

Tablica 3-5

Funkcija raspodjele uzorka p u prostoru

( )

1 1 1 1

( )

0 1 0 1

( )

1 1 1 0

( )

0 0 1 1

( )

1 1 0 1

( )

0 1 1 0

( )

1 0 1 1

( )

1 0 0 0

( )

0 1 1 1

( )

0 1 0 0

( )

1 1 0 0

( )

0 0 1 0

( )

1 0 1 0

( )

0 0 0 1

( )

1 0 0 1

( )

0 0 0 0

Budui da vjerovatnost za 1 jeste i vjerovatnost za 0 jeste 1- , funkcija gustoe

povezana sa svakom od tih taaka prikazan je kao funkcija raspodjele

( ) ( )

za 4- dimenzioni uzork, n = 4, uzorak taka (1) u prethodnoj tablici je funkcija

gustoe za varijablu n = 4

( ) ( )

i tako dalje.

Iako imamo 16 razliitih uzorak taaka (to i jesu apsulutno mogui ishodi

raspodjele), na primjer, uzorak take (1, 1, 1, 0), (1, 1, 0, 1), (1,0,1,1) i (0,1,1,1) su

uzorak take istog uzorka p sa istim frekvencijama varijable k. Neka sada

pregrupirama uzork u smislu diskretne varijable X: X = 1, i pokazateljima

frekvencije varijable koju smo oznaili s k.


31

Tablica 3-6

Uzorak take i frekvencije

k

Uzorak take

f

4

(1)

1

3

(2), (3), (4), (5)

4

2

(6), (7), (8), (9), (10), (11)

6

1

(12), (13), (14), (15)

4

0

(16)

1

Broj uzorak toaka koje odgovaraju k mogu se nai pomou formule

( )

Na primjer, za k = 2,

( ) (

)

to pokazuje da postoji 6 naina naruivanja (neke robe sa svojstvima krajnje

potronje) po dvije narudbe u 4 mjesta.

Raspodjela vjerovatnosti k je ova

( ) ( ) ( )

to je binomna raspodjela vjerovatnosti.

Budui da udio uzorka p jeste

moemo zamijeniti k s p u tablici: dakle, kako

se vidi raspodjela vjerovatnost p je ista kao i k.

To se moe napisati kao

(

) (

) ( )


32

To je raspodjela uzorka p, odnosno binomna raspodjela vjerovatnosti. Rezultati za

na primjer navedeni su u tablici 3-5, grafiki na Slici 3-1 za

.

6/16

5/16

1/16

Slika 3-1

Tablica 3-7

Uzorak take i frekvencije odabranog niz B(k; n = 4, 0< p


33

(iv) Srednja vrijednost i varijanca uzorka p

Iz jednaine (1), (6) i (7), slijedi da binomna varijabla k ima binomnu raspodjelu

( ) ( ) ( )

sa oekivanjem ( ) i varijancom ( )

( ) ( )

( ) ( ) ( )

Ve smo konstatovali da je udio uzorka

Dakle, iz jednaine (15) i (16),

nailazimo

( ) (

) ( )

( ) (

) ( )

( )

( )

Dakle, to je srednja vrijednost i varijance uzorka p.

Primjer 1

Pretpostavimo da imamo veliku populaciju puaa i nepuaa i neka udio

populacije puaa bude = 0,4 a nepuaa 1 - = 0,6. Uzmimo uzorak od

n = 10. Tada broj puaa k (koji je sluajna varijabla) moe poprimiti vrijednosti

k = 0, 1, 2, ..., 10. Sluajna varijabla k moe se izraziti po udjelu uzorka p kao

Vjerovatnosti navedenih primjerima (omjeri za

)

nalazimo u tablicama Nacionalni ured za standarde, kao to je prikazano

tablicom 3-6.

Tablica 3-8

Primjenjeni omjeri za p tablicu Nacionalnog ureda za standarde

P(p = 0/10) = 0,0060

P(p = 6/10) = 0,1115000

P(p = 1/10) = 0,0403

P(p = 7/10) = 0,0425000

P(p = 2/10) = 0,1209

P(p = 8/10) = 0,0106000

P(p = 3/10) = 0,2150

P(p = 9/10) = 0,0015720

P(p = 4/10) = 0,2508

P(p = 10/10) = 0,0001049

P(p = 5/10) = 0,2006


34

Slika 3-2 je grafiki prikaz binomne raspodjele P(p = 4/10) = 0,2508, za navedeni primjer,

znai da ako smo uzeli uzorak veliine 10, vjerovatnost da je k = 4 puaa (p = 4/10 = 0,4)

je 0,2508. Ili da to postavimo na drugi nain, ako smo odabrali 100 uzoraka odabrane

populacije veliine 10, moemo oekivati da oko 25 posto tog uzoraka e imati k = 4

puaa. Visina grafikona pokazuje relativnu frekvenciju s kojom moemo oekivati uzork s

k puaa.

0,25

0,10

0,05

n = 10,

Slika 3-2

Srednja vrijednost i varijanca raspodjele su

( )

( ) ( )

( )

Budui da je E(p) = 0,40 je u intervalu (0 < 0,50) - vidimo da je grafikon raspodjele

pomjeren udesno. Za > 0,50 grafikon raspodjele je pomjeren u lijevo, a za = 0,50

grafikon raspodjele je simetrin.

Primjer 2

Pretpostavimo da za = 0,25 (Slika 3-3), porodica koristi sapun A.

0,10

0,05

0 1 2 3 4 5 6 7 8 9 10 k

Slika 3-3


35

Uzork od n = 10 i neka je p udio porodica koje koriste sapun A u uzorku. Tada je

raspodjela vjerovatnosti za uzorak p

( ) ( )

( )

gdje je k = 0, 1, ..., 10. Iz binomne tablice: B(k; n = 10, = 0,25), nalazimo

vjerovatnost ( ) ( ) koja je iskazano u tablici 3-7.

Tablica 3-9

Binomna tablica: B(k; n = 10, = 0,25)

k

P(k)

0

0,00

0,05600 1

0,10

0,18800

2

0,20

0,28200

3

0,30

0,25000 4

0,40

0,14600

5

0,50

0,05800

6

0,60

0,01600 7

0,70

0,00300

8

0,80

0,00040

9

0,90

0,00003 10

1,00

0,00000

Srednja vrijednost i varijanca uzorka p je

( )

( ) ( )( )

IV Hipoteze i testovi

Razumno je prije postavljene hipoteze i testiranja populacije odrediti traene

parametre uzorka p koristei statistiku analizu. Razloge ovakoj obradi prikupljenih

informacija traimo u brojnosti polaznog skupa (populaciji), u tom sluaju mogue

je da koristimo teoriju uzoraka ili teoriju reprezentativnih metoda, kojom emo

ustanoviti:

(1) Svojstva populacije na temelju svojstava uzorka, i

(2) (Greke), koliko dobiveni rezultati odstupaju od tanih vrijednosti populacije.

4-1 Testovi binomne raspodjele

U ovom podnaslovu ispitujemo testove hipoteza o proporciji, koristei binomnu

raspodjelu proporcija uzorka p (koje su prethodno izvedene). S razlogom su

ukljueni i testovi koji razlikuju testove odbacivanja regije. Prvo emo dati

primjere test hipoteze, a zatim objasniti (protumaiti) Clopper - Pearson ljestvice.


36

(i) Ispitivanje hipoteze

Pretpostavimo da e Companija odbiti poiljku odreenog proizvoda, ako ih je vie

od 25 posto u kvaru, i da e prihvatiti poiljku ako ih je manji ili jednak 25 posto

neispravno. Companija je odgovorna (zabrinuta da bi izbjegli pogreku

odbacivanja poiljke kada ne bi trebali). Tada null i alternativne hipoteze

postavljamo, kao slijedei primjer:

Takoer pretpostavimo da je n = 10, dok je razina znaajnosti = 10 posto.

Problem (hipotezu) emo predstaviti shematski kao to slijedi:

Odluka

( | )

( | )

Vjerovatnost za eljeno p* - utvrena je u Binomnoj tablici: B(k; n = 10, = 0,25).

To je reprodukcije s dodatnim kumulativnim i dekumulativnim stupcima. Imajmo

na umu da za vjerovatnosti p, poznate su i tablice: B(k; n = 10, = 0,25).

Tablica 4-1

Binomna tablica: B(k; n = 10, = 0,25)

k

p = k/n

P(k)

Kumulativ

Decumulativ

0

0,00

0,05600

0,05600

0,99943

1

0,10

0,18800

0,24400

0,94343

2

0,20

0,28200

0,52600

0,75543

3

0,30

0,25000

0,77600

0,47343

4

0,40

0,14600

0,92200

0,22343

5

0,50

0,05800

0,98000

0,07743

6

0,60

0,01600

0,99600

0,01943

7

0,70

0,00300

0,99900

0,00343

8

0,80

0,00040

0,99940

0,00043

9

0,90

0,00003

0,99943

0,00003

10

1,00

0,00000

0,99943

0,00000

0,99943

( ) ( )

( ) ( ) ( ) ( )

Hipoteza pokazuje da je kritina vrijednost p* ustvari raspodjela uzorka p. Dakle,

koristimo kumulativni stupac tablice 3-8 odreen sa p*. Kao to to pokazuje

kumulativni stupac,

( )

( )


37

Neka p = 0,50 zadovoljava uvjet = 0,10 dok p = 0,40 ne zadovoljava. Budui da

je p diskretna varijabla, ne moemo odabrati vrijednosti izmeu 0,40 i 0,50. Dakle,

kritina vrijednost p* je 0,50.

Zakljuak (pravilo postavljene hipoteze) je: uzeti uzorak p veliine n = 10. Ako

Varijable k i p, kao i binomnu raspodjelu B(k; n = 10, = 0,50) ilustriramo

Slikom 4-1 u pravokutnom koordinatnom sistemu, gdje je x osa: (k/n) za

k = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.

Slika 4-1

(ii) Clopper - Pearson

Raspodjela uzorka p je ustvari binomna raspodjela varijable P(p), kao to slijedi:

( ) ( )

( )

Kao to to prikazuje jednaina, P(p) ovisi o n, p, i . U naim prethodnim

primjerima testiranja hipoteza, odrat emo n i fiksnim i neka p diferenciramo.

Ono to elimo uiniti sada (prva solucija) n je fiksno, i neka i p variraju, a

zatim emo pokazati kako odbaciti interval pouzdanosti. Ponimo nau raspravu s

jednostavnim ilustracijama.

Prvo emo pripremiti (Tablicu), gdje su p i promjenjive varijable, drei veliinu

uzorka n = 10 konstantnom. Vidimo da se vrijednosti iz tablice 3-9, za vrijednosti

= 0,40 odgovara nizu n za = 0,40.

Rezultati tablice 3-9, gdje smo pretpostavili uzorak = 0,25 (porodice koriste

sapun), nalaze se u nizu odgovara = 0,25 tablici 3-9. A sada emo raspravljati o

nekim primjerima i pokazati kako se ova tablica moe koristiti.


38

- Koritenje Clopper - Pearson ljestvica

Primjer 1

Tvrtka prima poiljke (inputi proizvodnje) dijelovi za proizvodnju televizora. Ako ih je 20

posto ili manje neispravnih, tvrtka e prihvatiti poiljku (ulaz dijelova na skladite za

proizvodnju). Ako ih je vie od 20 posto neispravnih - poiljka e biti odbijen.Tvrtka je

zabrinuta za eventualne greke (kako izbji greke odbacivanja poiljke):

Odluka

( | )

( | )

postavljen je rizik = 10 posto, a veliina uzorka n = 10. Nulta i alternativna hipoteze su

Tabelica 4-2

Clopper Pearson ljestvice

/p 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00

0,95

0,001 0,010 0,075 0,315 0,599

0,90

0,002 0,011 0,057 0,194 0,387 0,349

0,85

0,001 0,008 0,040 0,130 0,276 0,347 0,197

0,80

0,001 0,006 0,026 0,088 0,201 0,302 0,268 0,107

0,75

0,003 0,016 0,058 0,146 0,250 0,282 0,188 0,056

0,70

0,001 0,009 0,037 0,103 0,200 0,267 0,233 0,121 0,028

0,65

0,001 0,004 0,021 0,069 0,154 0,238 0,252 0,176 0,072 0,013

0,60

0,002 0,011 0,042 0,111 0,201 0,251 0,215 0,121 0,040 0,006

0,55

0,004 0,023 0,075 0,160 0,234 0,238 0,166 0,076 0,021 0,003

0,50 0,001 0,010 0,044 0,117 0,205 0,246 0,205 0,117 0,044 0,010 0,001

0,45 0,003 0,021 0,076 0,166 0,238 0,234 0,160 0,075 0,023 0,004

0,40 0,006 0,040 0,121 0,215 0,251 0,201 0,111 0,042 0,011 0,002

0,35 0,013 0,072 0,176 0,252 0,238 0,154 0,069 0,021 0,004 0,001

0,30 0,028 0,121 0,233 0,267 0,200 0,103 0,037 0,009 0,001

0,25 0,056 0,188 0,282 0,250 0,146 0,058 0,016 0,003

0,20 0,107 0,268 0,302 0,201 0,088 0,026 0,006 0,001

0,15 0,197 0,374 0,276 0,130 0,040 0,008 0,001

0,10 0,349 0,387 0,194 0,057 0,011 0,002

0,05 0,599 0,315 0,075 0,010 0,001

Izvor:Taro Yamane, Aoyama Gakuin University, Tokyo; STATISTIKA, Uvodna analiza;

19. - Binomna raspodjela - 19.6. Testovi hipoteza, (koristei binomnu raspodjelu), str. 699


39

Slika 4-2

Grafikoni (slika 4-2), u rasponu vrijednosti glatkih funkcija P(p) zorno

predstavlja raspodjelu varijablih P(p) za sve vrijednosti uzorka p, odnosno

Ovim testom trebamo pronai raspodjelu uzorka p kojoj odgovara tablica

= 20 posto. Pokaimo ove vjerovatnosti grafiki, kao to je na Slici 4-3, grafikon

koristimo kao vizualnu pomo (ali sada diskretne varijable k i raspodjele P(k)).

P(k)

0,2

0,1

0 1 2 3 4 5 6 7 8 9 10 k

Slika 4-3

Prema naem testu, elimo nai kritinu vrijednost p* za koje imamo 10 posto

podruja (vjerovatnosti). (Prethodne tablice) ukazuju da vjeroatnost izvan p = 0,50

je

( )


40

Vjerovatnost izvan p = 0,40 je

0,088 + 0,033 = 0,121 (12,10%)

Tumaenjem tih vjerovatnosti slijedi: Kada je udio stanovnika = 0,20 -

vjerovatnost odabira uzoraka veliine n = 10 za p 0,50 je 3,30 posto.Vjerovatnost odabira uzoraka s p 0,40 iznosi 12,10 posto.

Dakle, ako je = 10 odsto strogo potovan, i kritina vrijednost p* = 0,50

( - rizik je 3,30 posto), znatno je manja od 10 posto, a to je prema uslovima

prihvatanja narudbe tvrtka spremna dopustiti.

Ako tvrtka osjea ovaj prag previe ozbiljanim, potrebno je rizik analizirati u

drugim granicama - rizika, i neka je rizik povean na 12 posto, umjesto 10 posto.

Kritina vrijednost e biti p* = 0,40. Koristei ovu drugu kritinu vrijednost,

odnosno pravilo odluke je: Uzmimo uzorak veliine n = 10.

ako je

Tada je - rizik 12 posto. -rizik ne izraunavamo.

Primjer 2

- rizik u naem prethodnom primjeru je 10 posto. Razmotrimo sada dva sluaj s 5

posto na svakom kraju, udio stanovnika je = 0,25. Na donjem (lijevo) kraku,

vrijednost 0,056 vei je od 5 posto. No, varijabla p je diskretna, a p = 0 je

najmanja vrijednost koja je mogua: koristiti emo pribline vrijednosti 0,056 a

koji e zadovoljiti uvjet da je = 5 posto.

Za gornji kraj, vrijednost raspodjele za p = 0,60 (koji za k = 6) je zaokruen. Kao

to pokazuje tablica 3-9, vjerovatnost da u gornjem kraju postaje

0,016 + 0,003 = 0,019

to je znatno manje od 5 posto. Meutim, vjerovatnost p = 0,50 je 0,058; Dakle,

odbacujemo regiju koja poinje sa p = 0,50 - rizik postaje

0,058 + 0,019 = 0,077

i postaje vei od 0,05 (od 5%). Dakle, dopustiti emo start za p = 0,60.

Neka je na pogled usmjeren na crveno = 0,30 a zatim obavimo istu operaciju.

Da bi bio 5 posto ili manji, uoimo vrijednost 0,028 koji odgovara p = 0

(ili k = 0). Vrijednost koja odgovara p = 0,10 (ili k = 1) je 0,121, to znatno prelazi

0,05.


41

Za vrijednosti 0,037, to odgovara p = 0,60 (ili k = 6), kumulativni zbroj za gornji

dio kraka je

Vrijednost koja odgovara p = 0,50 je 0,103 i mnogo je vei od 0,05 a time je

iskljuena.

Granine vrijednosti su pocrtane crvenim u tablici 3-9, na slian nain i mjesto tih

zaokruenih vrijednosti nam daje granicu gornje i donje kritine regije.

Na slian nain moemo nai granice kada je = 5 posto (odnosno 2,5 posto u

svakom kraju) ili 2 posto (odnosno 1 posto u svakom kraju) ili neke druge

vrijednosti. Kada je = 15 posto, na primjer, i manji od 10 posto, granica e biti

izvan onih vrijednosti to su izvuene za = 10 posto.

Nadalje, izvuene granice nisu glatke, jer su vrijednosti p i koje smo koristili

diskretne. No, teoretski, kao i vrijednosti p i (skok malim koracima) se pribliava

kontinuiranim varijablama, granice e postati glatke krivulje.

Imajte na umu da ove krivulje pretpostavljaju veliinu uzorka n = 10. U praksi,

meutim, veliina uzorka e obino varirati ovisno o problemu. Pa neka nam

sljedei primjer razmotra sluaj gdje je = 5 posto ( je nepromijenj, ali gdje n

varira). Sada veliina uzorka postaje vea, varijanca raspodjele uzorka p postaje

manji. To jest,

( ) ( )

varijanca postaje manja, kada n postaje vei. Grafiki (Slika. 4-4), gdje su zorno

predstavljene raspodjele: a) B(k; n = 10, p = 0,50) i b) B(k; n = 30, p = 0,50),

kao to vidimo za konstantan p i Dakle, binomna krivulja uz konstantan p s veim n postaje izduena.

a) ( ) b) ( )

Slika 4-4


42

To pak implicira sada suenu regiju, to znai kada je uzorak veliki, moemo

oekivati da e udio uzorka biti blizu udjelu . Tako da granine linije

(vee od n = 10) e se nai unutar graninih crta za n = 10.

(iii) Koordinatni sistem uzorka p

Imajmo na umu da grafikoni dvije binomne raspodjele a) B(k; n =30, p = 0,5) i

b) B(k; n = 50, p = 0,5) impliciraju prethodna stajalita ali istovremeno varijable

raspodjele predstavljene su u razmjeri svojstava binomne raspodjele. Tako da

bitna svojstva binomne raspodjele ini varijabla n.

) ( ) ) ( )

Slika 4-5

Bitna svojstva binomne raspodjele, zasebnim grafikonom fiksne varijable n

mogue je predstaviti ako (su binomne varijable konstantne: n i uzorak p), tada i

samo tada za svako n i fiksni uzorak p mogue je zorno predstaviti: P(p), E(p) i

rizik.

- Uzorak p i varijabla n = 50 (konstantna varijabla n)

a) Uzorak p = 0,30 < 0,50

Slika 4-6 B(k;n = 50, p = 0,30)


43

b) Uzorak p = 0,50

c) Uzorak p = 0,70 > 0,50

b) B(k; n = 50, p = 0,5) c) B(k; n = 50, p = 0,7)

Slika 4-7

d) Tri uzorka p (konstantna varijabla n = 50)

Slika 4-8


44

Ako smo imali grafikon s graninim crtama koje pokazuju odbijanje (regije) za

odreeni rizik (recimo, = 5 posto) za razliite veliine uzorka, trebali bismo

moi oitati iz grafikona odbacivanja regije. C.J. Clopper i E.S. Pearson su dobili

takav grafikon koji je prikazan5 (Taro Yamane, p. 702),a to su granine linije za

odbijanje regija rizika = 5 posto i n = 10, 15, 20, 30, 50, 100, 250, i 1000.

Primjer 3

Razmislimo o uzorku stanovnika gdje 100 posto obitelji koristi sapun A.

Provjerimo je li ili nije 100 = 30 posto, dakle, hipoteza je

Sluajnim uzorakom od 100 obitelji uzimamo uzorak i udio obitelji koje koriste

sapun A, te se utvrdi da je p = 0,38. Da li ovaj rezultat podrava hipotezu da je =

0,30?

Sada inimo korak koji odgovara rezultatu = 0,30. Zatim gledamo na dvije

krivulje kojima odgovara n = 100, nalazimo donje i gornje vrijednosti, 0,20 i

0,40.Tumaenje je kako slijedi: Ako je u stvari = 0,30 vjerojatnost p pada izvan

granica 0,20 i 0,40 za = 5 posto. Pod pretpostavkom da je nivo znaajnosti 5

posto, jer je p = 0,38, prihvaamo nultu hipotezu.6

--------------------------------------------------

Ovim komentarom pojanjavamo izvor grafikona s graninim crtama koje pokazuju uslove

za odbijanje (regije) odreenog rizika () razliitih veliina uzorka p, recimo za uzorak p

= 0,30 i = 0,70 i konstantnu varijablu n = 10 za rizik = 5% potrebno je odbiti (ne

prihvatit osnovnu hipotezu rizika . Taro Yamane

5 Taro Yamane, grafikona Clopper Pearson preuzeto uz saglasnost urednika uvaenog

asopisa: Biometrica, 26, 1934, str. 404 -413.

6 Navedenim primjerom, autor Yaro Yamane istie u najoptijem smislu kako izabrani

primjer moe da se koristiti u demostriranju Clooper Pearson grafikona s graninim

crtama koje pokazuju uslove za odbijanje regije odreenog rizika .

- Yaro Yamane, Statistics An Intraductory Analysiis, The Binomial Distribution, p. 702.


45

V - OC krivulja (Operating Characteristic Curves)

OC krivulja je ''glatka'' krivulja, ima oblik ''S'' krivulje, istorijski gledano rezultat je

ispitivanja procesa uzorkovanja (''probability'' raspodjele) u statistikim analizama

populacije poznatog uzorka p. Uzorkovanje znatno smanjuje trokove statistike

analize ili (i) smanjuje rezidium parametara kao to su: oekivana vrijednost,

srednja vrijednos i varijanca.

Uinak poveane veliine uzorka na OC krivulje

Slika 5-1

5-1 Hipoteze i izraun p*

Prethodno su hipoteze testirane na temelju -rizika, ali nita nije reeno o

-riziku. U ovom naslovu pokazat emo kako proraunati -rizik, a zatim, pomou

izrauna rizika, emo pojasniti OC krivulju (odnosno zakrivljenost krivulje).

Proces razmiljanja je isti kao kada smo uvodno raspravljali o ovim pitanjima. to

e razlikovati nain na koji se raunaju vjerovatnosti, naime, mi emo koristiti

binomne tablice za izraun vjerovatnosti, to je prilino zahtjevan proces. Neka se

isti postupak ilustruje s primjerom.

Pretpostavimo da imamo populaciju porodica i neka je udio porodica koje koriste

sapun A. Ako je 20 posto ili manje, uprava eli poveati izdatke (trokove) za

sve vidove reklama, a ako je vie od 20 posto, uprava e napustiti oglaavanja na

sadanjem nivou. Uprava oekuje da e na postojeem nivou reklama izbjei

poveane trokove, odnosno da e potvrditi hipotezu:

( | )

http://www.micquality.com/six_sigma_glossary/oc_curve.htm


46

Hipoteza je prikazana shematski kao to slijedi:

Odluka

( | )

( | )

U smislu da su hipoteze nulta ili alternativna, imamo

Neka uprava bude spremna dopustiti -rizik od 5 posto.Problem je pronai kritinu

vrijednost p*, s obzirom na vrijednost n takav da -rizik je zadovoljavajui. Zatim

emo nai kritine vrijednosti p* koje odgovaraju uzoraku veliine n = 20, 40, 60,

80 i 100.

(i) Izraun p*

S obzirom da je n = 20, p* nalazimo u tablicama Nacionalnog ureda za standarde

(pojedinane i kumulativne binomne vjerojatnosti).

Tablica 5-1

Binomna tablica B(k; n = 20, p = 0,20); kolona: dekumulativ - ( )

s = k

p = k/n

P(s = k)

P(s k)

0

0,000

0,0115

1,0000

1

0,050

0,0576

0,9885

2

0,100

0,1369

0,9308

3

0,150

0,2054

0,7939

4

0,200

0,2182

0,5886

5

0,250

0,1746

0,3704

6

0,300

0,1091

0,1958

7

0,350

0,0545

0,0867

8

0,400

0,0222

0,0321

9

0,450

0,0074

0,0100

10

0,500

0,0020

0,0026

11

0,550

0,0005

0,0006

12

0,600

0,0001

0,0001

13

0,650

0,0000

0,0000

14

0,700

0,0000

0,0000

15

0,750

0,0000

0,0000

16

0,800

0,0000

0,0000

17

0,850

0,0000

0,0000

18

0,900

0,0000

0,0000

19

0,950

0,0000

0,0000

20

1,000

0,0000

0,0000


47

Slika 5-2

Kao to to pokazuje tablica, imamo

( | ) ( | )

( | ) ( | )

Budui da elimo = 0,05 ili manje, mi emo uzeti k = 8 ili p* = 8/20 = 0,40 kao

kritinu vrijednost.

Tablica 5-2

Binomne tablice: ( | ) ( | )

n = 20 s = k p = k /n P(k k0| = 0,20) ( ) = P(k k0| = 0,40) ( )

20 0 0,000 0,0115

0,0000 0,0000

20 1 0,050 0,0576

0,0005 0,0005

20 2 0,100 0,1369

0,0031 0,0036

20 3 0,150 0,2054

0,0123 0,0159

20 4 0,200 0,2182

0,0350 0,0509

20 5 0,250 0,1746

0,0746 0,1256

20 6 0,300 0,1091

0,1244 0,2500

20 7 0,350 0,0545 0,0867 0,1659 0,4159

20 8 0,400 0,0222 0,0321 0,1797 0,5956

20 9 0,450 0,0074 0,0100 0,1597 0,7553

20 10 0,500 0,0020 0,0026 0,1171 0,8724

20 11 0,550 0,0005 0,0006 0,0710

20 12 0,600 0,0001 0,0001 0,0355

20 13 0,650 0,0000 0,0000 0,0146

20 14 0,700 0,0000 0,0000 0,0049

20 15 0,750 0,0000 0,0000 0,0013

20 16 0,800 0,0000 0,0000 0,0003

20 17 0,850 0,0000 0,0000 0,0000

20 18 0,900 0,0000 0,0000 0,0000


48

Nastavak

20 19 0,950 0,0000 0,0000 0,0000

20 20 1,000 0,0000 0,0000 0,0000

a) B(k;n = 20, p = 0,20) b) B(k;n = 20, p = 0,40)

Slika 5-3

Tablica 5-3

Binomne tablice: ( | ) ( | )

s = k p = k /n ( | ) ( ) = P(k k0|=0,40) P(s k)

1 2 3 4 5 6

0 0,000 0,0001

0,0000 0,0000

1 0,025 0,0013

0,0000 0,0000

2 0,050 0,0065

0,0000 0,0000

3 0,075 0,0205

0,0000 0,0000

4 0,100 0,0475

0,0000 0,0000

5 0,125 0,0854

0,0001 0,0001

6 0,150 0,1246

0,0005 0,0006

7 0,175 0,1513

0,0015 0,0021

8 0,200 0,1560

0,0040 0,0061

9 0,225 0,1386

0,0095 0,0156

10 0,250 0,1075

0,0196 0,0352

11 0,275 0,0733

0,0357 0,0709

12 0,300 0,0443 0,0875 0,0576 0,1285

13 0,325 0,0238 0,0432 0,0827 0,2112

14 0,350 0,0115 0,0194 0,1063

15 0,375 0,0050 0,0079 0,1228

16 0,400 0,0019 0,0029 0,1279


49

Nastavak

17 0,425 0,0007 0,0010 0,1204

18 0,450 0,0002 0,0003 0,1026

19 0,475 0,0001 0,0001 0,0792

20 0,500 0,0000 0,0000 0,0554

21 0,525 0,0000 0,0000 0,0352

22 0,550 0,0000 0,0000 0,0203

23 0,575 0,0000 0,0000 0,0106

24 0,600 0,0000 0,0000 0,0050

25 0,625 0,0000 0,0000 0,0021

26 0,650 0,0000 0,0000 0,0008

27 0,675 0,0000 0,0000 0,0003

28 0,700 0,0000 0,0000 0,0001

29 0,725 0,0000 0,0000 0,0000

30 0,750 0,0000 0,0000 0,0000

31 0,775 0,0000 0,0000 0,0000

32 0,800 0,0000 0,0000 0,0000

33 0,825 0,0000 0,0000 0,0000

34 0,850 0,0000 0,0000 0,0000

35 0,875 0,0000 0,0000 0,0000

36 0,900 0,0000 0,0000 0,0000

37 0,925 0,0000 0,0000 0,0000

38 0,950 0,0000 0,0000 0,0000

39 0,975 0,0000 0,0000 0,0000

40 1,000 0,0000 0,0000 0,0000

a) B(k; n = 40, p = 0,20) b) B(k; n = 40, p = 0,4)

Slika 5-4


50

Na slian nain, moemo pronai kritine vrijednosti p* za razliite n. Rezultati su

prikazani u Tablici 5-4.

Tablica 5-4

Izraun p* za n = 20, 40, 60, 80, 100 uzoraka p = 0,20 i p = 0,40

n

k p*

( | ) ( | )

20 7

0,0867

8* 0,400

0,0322

0,5955

40 12

0,0878

13* 0,325

0,0432

0,2111

60 16

0,0773

17* 0,283

0,0427

0,0413

80 21

0,0660

22* 0,275

0,0390

0,0137

100 26

0,0558

27* 0,270

0,0342

0,0046

Na primjer, ako je n = 60, vidimo da je za

ako je k = 17 ili p* = 17/60 = 0,283 kao kritina vrijednost.


51

(ii) OC krivulja

Nakon kritine vrijednosti p* = 0,283 lako nalazimo (moda) i -rizik, a time i OC

krivulju. Pokaimo sada na dijagramu ( rizik i rizik) dvije binomne

raspodjele kao vizualnu pomo. Slika 5-4. prikazuje binomne raspodjele

) ( ) b) ( )

Slika 5-5

Na primjer, za alternativnu hipotezu - rizik

( | )

gdje je p* = 0,283, n = 60, te Tada e - rizik odgovarati nivou alternativnih hipoteza, izraunava se na slian nain, a prikazane su u tablici 5-4.


52

Tablica 5-5

Parametri (neke vrijednosti) alternativnih hipoteza

n = 60, p* = 0.283, ( | )

0.40

0.04

0.96

0.35

0.17

0.83

0.30

0.45

0.55

0.25

0.78

0.22

0.20

0.96

0.04

0.15

0.99

0.01

0.10

0.99

0.01

Izvor:Taro Yamane, STATISTICS An introductory analysis,

19.7. Calculation of the OC kurve, p. 705

Parametar 1- nazivamo ''snaga testa'', iste parametre emo elaborirati u

narednom periodu. Dakle, svi parametri ''snage testa'' odnose se na alternativne

hipoteze a pokazatelj su vjerovatnost da e alternativna hipoteza biti tana

hipotezu. Osnovna pravila (zakon veliki brojeva) vrijedi iza alternativnu hipotezu.

Dakle, za vee n, parametar 1- je pouzdaniji.

- Uzorka (zakon velikih brojeva)

Svaki odabrani uzorak populacije, odnosno serija varijable k korespondira sa

varijablom

Dakle, sasvim je jasno, ve iz ranijih razmatranja da e

preciznost izrauna parametara odabranog uzorka p ovisiti o veliini varijable

(n) uzorka p.7

Upravo naredna tabela parametra uzorka kritinih vrijednosti varijable: p* = 8/2, p* = 13/40, p* = 17/60, p* = 22/80, i p* = 27/100 zorno e nam

predstaviti nezavisnu varijablu u odnosu na zavisne varijable p* = k/n.

-------------------------------------------------------

7 Ako, veliina uzorka postaje vea, varijanca raspodjele uzorka p postaje manji. To jest,

( ) ( )

varijanca postaje manja, kada n postaje vei. U narednom tekstu upravo emo analizirati

vrijednosti parametra uzorka sa kritinim vrijednostima varijable: n = 20, p* =8/20; n = 40, p* = 13/14; n = 60,

p* = 17/60; n = 80, p* = 22/80; i n = 100, p* = 27/100.


53

Tablica 5-6

Varijabla p* za n = 20, uzoraka 2 = 0,40

n = 20 s = k p = n/k P( s = k) (5) (6) 1 -

1 2 3 4 5 6 7 8 20 0 0,00 0,000037 0,000037 1,000000 0,000000 1,000000

20 1 0,05 0,000487 0,000524 0,999963 0,000037 0,999963

20 2 0,10 0,003087 0,003612 0,999476 0,000524 0,999476

20 3 0,15 0,012350 0,015962 0,996389 0,003611 0,996389

20 4 0,20 0,034991 0,050952 0,984039 0,015961 0,984039

20 5 0,25 0,074647 0,125599 0,949048 0,050952 0,949048

20 6 0,30 0,124412 0,250011 0,874401 0,125599 0,874401

20 7 0,35 0,165882 0,415893 0,749989 0,250011 0,749989

20 8 0,40 0,179706 0,595599 0,584107 0,415893 0,584107

20 9 0,45 0,159738 0,755338 0,404401 0,595599 0,404401

20 10 0,50 0,117142 0,872479 0,244663 0,755337 0,244663

20 11 0,55 0,070995 0,943474 0,127521 0,872479 0,127521

20 12 0,60 0,035497 0,978972 0,056526 0,943474 0,056526

20 13 0,65 0,014563 0,993535 0,021029 0,978971 0,021029

20 14 0,70 0,004854 0,998389 0,006466 0,993534 0,006466

20 15 0,75 0,001294 0,999683 0,001612 0,998388 0,001612

20 16 0,80 0,000270 0,999953 0,000317 0,999683 0,000317

20 17 0,85 0,000042 0,999995 0,000047 0,999953 0,000047

20 18 0,90 0,000005 1,000000 0,000005 0,999995 0,000005

20 19 0,95 0,000000

0,000000

20 20 1,00 0,000000

Kazatelji iz naslova tabele:

Osnovne pretpostavke binomne raspodjele B(k; n = 20, ) odnosno serije

su: (varijable k korespondiraju sa varijablom (

)

(5) ( | ) (6) ( | ) (7) ( | )

a) P(s = k/n) b) P(s = k/n), i 1 -

Slika 5-6


54

OC krivulja binomne raspodjele B(k; n = 20, 2 = 0,40), prikazana na Slici 5-5,

gdje je ( | ) (

| )

a) 1 = 1 P( k k*|n, 2) b) = P(k k*|n, 2)

Slika 5-7

Istim postupkom za n = 20, 40, 80 i 100, nalaze se odgovarajue OC krivulje. To

su OC krivulje koje odgovaraju razliitim veliinama uzorka

(iii) Upotreba OC krivulje

Sada kada imamo krivulju OC, prirodno je da se pitamo: Kako moe da se koristi?

Krivulja OC predstavlja pravilo za donoenje odluka i stoga se moe koristiti za

dizajn uzorka p. Objasniti ovo s hipotetzom i primjerom. Pretpostavimo da postoji

OC krivulja kao to je prikazano na Slici 5-6. Sjetitimo se kako horizontalna skala

pokazuje razliite alternativne hipoteze a vertikalna skala pokazuje vrijednosti (parametar )

Tablica 5-7

( | ) ( | )

n = 20

p* = 8/20

n = 40

p* = 13/40

n = 60

p* = 17/60

n = 80

p* = 22/80

n = 100

p* = 27/100

0,10

0,999

0,999

0,999

0,999

0,999

0,15

0,998

0,998

0,997

0,998

0,999

0,20

0,990

0,981

0,957

0,961

0,981

0,25

0,959

0,897

0,775

0,745

0,722

0,30

0,887

0,704

0,451

0,363

0,296

0,35

0,763

0,441

0,172

0,097

0,055

0,40

0,595

0,211

0,041

0,013

0,005

0,45

0,415

0,075

0,006

0,001

0,000

0,50

0,252

0,019

0,001

0,000

0,000

0,55

0,60

1,00

Izvor:Taro Yamane, STATISTICS An introductory analysis,

19.7. Calculation of the OC kurve, p. 707


55

Slika 5- 8

Neka nam 1 oznaava nultu hipotezu, koja je takoer prikazan na Slici. 5-8.

Zatim visina krivulje u pokazuje ( | )

gdje je, u ovom sluaju, a time u ovom trenutku na horizontalnoj skali imamo

( | )

Tako udaljenost MK je

( | ) ( | )

To jest, MK jednaka je -riziku. Drugim rijeima, toka na horizontalnoj skali (to

pokazuje 2) gdje 2 postaje jednak nul-hipotezi 1, gornji dio OC krivulje - MK,

kao to smo to pokazali,

e biti jednak -riziku. Tako toka K moe biti prikazana simboliki kao

( ) Sljedee, neka nam odabir vrijednosti ' pomogne pronai odgovarajuu toku R na

krivulji OC, i neka bude '. Onda je to toka R, moe biti prikazan simboliki kao

(', ').

Posmatrajmo sada obrnuti postupak i pretpostavimo da imamo statistiki test gdje

je

i i -rizika su poznati. Tada moemo planirati dvije toke na OC grafu, naime

(1,1-) i (2, ), kao to je prikazano na Slici 5-9.


56

Slika 5-9

Traiti OC krivulju koja prolazi kroz ove dvije toke, dopustite da su pokazane na

krivulji n3.

Ova krivulja pokazuje (kada se uzima uzorak veliine n), vjerojatnost prihvaanja

nulte hipoteze, zapravo udio stanovnitva 2, bit e . Napominjemo da je u ovom

sluaju pogreka tolerirana razlika 2 - 1 = e.

Moemo nastaviti nau raspravu OC krivulje i razmotriti temu kontrole

uzorkovanja. Meutim, daljnja rasprava zahtijeva poznavanje normalne

aproksimacije na binomnu distribuciju i Poisson distribuciju. Dakle, razmotrimo

ove teme prvi put i odgodimo daljnju raspravu o krivulji OC.

5-2 Procjena i p

Do sada smo rijeavali probleme, koristei binomnu raspodjelu, a obzirom na

pretpostavku da je poznat. Meutim, u mnogim praktinim problemima, se ne

zna; U tom sluaju potrebno je procijeniti . U ovom dijelu emo prvo raspravljati

o procjeni , a zatim procjeniti razliita odstupanja.

(i) Procjena

Spomenuli smo u poglavlju 8. da udio uzorka p je objektivno maksimalna

vjerojatnost procjene . Dakle, moemo pisati

i

( )

Dakle, p je objektivan, dosljedan, i dovoljn procjenitelj .

Primjer. Izabran je sluajni uzorak od 100 trgovaca, a utvreno je da je 20 od njih doivjelo

neuspjeh u poslovanju u odreenom mjesecu. Dakle, objektivna procjena maksimalne

vjerojatnosti djela trgovaca koji su doivjela pad u poslovanju


57

(ii) Procjena varijance

Vidjeli smo da postoji nekoliko naina posmatranja Bernoullijeva procesa.

Jedanom je uzeti u obzir broj uspjehe k kao sluajne varijable. Druga je bila da

biste vidjeli Bernoullijeva proces kao niz sluajnih varijabilnog xi, gdje je xi = 1 ili

0, i neka je k = x1 + x2 + + xN.Trei je pristup razmotriti raspodjelu xi. Mi emo koristiti ovaj trei pristup kako bi razgovarali o raznim odstupanja.

Pretpostavimo da imamo dvojaku (ili binomna ili dihotomno) stanovnitvo

x1, x2, , xN, gdje je

{

Uzorak x1, x2, , xn veliine n.

Vidjeli smo da je ukupno stanovnitva

Na primjer, pretpostavimo stanovnitvo se svrstati u puaa i nepuaa. Neka xi = 1

biti pua i xi = 0 biti nepua. Zatim K je ukupno (ili ukupni) broj puaa u

populaciji. Srednja stanovnitva i varijanca su definirani kao

( )

( ) ( )

Na primjer, je udio puaa u omjeru puaa u populaciji, 2 je varijanca xi u

populaciji.

Na slian nain definira smo, uzorak,

( )

( )

Na primjer, k ukupni broj puaa u uzorku; p je udio puaa u uzorku; i s2 je

varijanca distribucije x u uzorku.


58

Za distribucije uzorka p, imamo

( )

( )

( ) ( )

Od ranije, znamo da je

Koritenje tih odnosa i rezultate dobivene gore, nai emo

kao nepristran procjenitelj varijance populacije.

Koristei ovaj rezultat, nai emo, uz napomenu da je = p,

(

)

kao nepristran procjenitelj varijance p.

Meutim, u praksi, pojednostavljena formula

Koristi, za najpraktinije sluajeve, razlikujemo upotrebu n i n - 1, kada je n

(prebrojiv) mali. Mi emo koristiti ovu pojednostavljenu formulu za

Primjer 1

Sluajni uzorak veliine odabranih 100 osoba, utvreno je da 30 osoba nosi

naoale. Procjena udjela osoba koje nose naoale u populaciji je

Procjena varijance populacije je

( )( )


59

Procjena varijance distribucije uzorka p je

( )( )

Primjer 2

Razmislite o populaciji od 10 studenata, njih 4 etvorica su puai.

i varijance populacija je

( )( )

Izraunajmo koristei definiciju

( )

U tablici 19.12 nalazimo

( )

koji je isti kao i gore dobiveni rezultat.

Neka smo sada uzeti uzorak od 5 studenata, gdje smo pronali 3 od njih da su

puai. Udio uzorka p = 3/5 = 0,6. Uzorak varijance je

( ) ( )( )

Tablica 5-8

x

( )

1 1

1 0,4 = + 0,6

0,36

2 1

1 0,4 = + 0,6

0,36

3 1

1 0,4 = + 0,6

0,36

4 1

1 0,4 = + 0,6

0,36

5 0

0 0,4 = - 0,4

0,16

6 0

0 0,4 = - 0,4

0,16

7 0

0 0,4 = - 0,4

0,16

8 0

0 0,4 = - 0,4

0,16

9 0

0 0,4 = - 0,4

0,16

10 0

0 0,4 = - 0,4

0,16

= 0,00 2,40


60

To se takoer moe izraunati kao to je prikazano u tablici 5-9.

Tablica 5-9 x

( )

1

1 0,6 = 0,4

0,16

1

1 0,6 = 0,4

0,16

1

1 0,6 = 0,4

0,16

0

0 0,6 = - 0,6

0,36

0

0 0,6 = - 0,6

0,36

= 0,00

1,20

Iz tablice nalazimo

( )

Nepristrana procjena varijance populacije je

( )( )

Procjena varijance p je

( )

VI - Normalna aproksimacija binomne raspodjele

Za velike n binomni pouak ( ) ( ) u redovitim procedorama

smatramo sloenim. Ako je n veliki i tada je binomna raspodjela simetrina. U navedenim primjerima je aproksimacija izvedena koritenjem

normalne umjesto binomne raspodjele. Istu aproksimaciju i za vjerovatnosti za

koje vrijedi ako su np i nq dovoljno veliki.

Tada moemo koristiti empirijska pravila, normalna raspodjela je dobra

aproksimacija binarne ako je np > 5 i nq > 5.

Tada koristimo procedure:

a) Izraunati za binomnu distribuciju. b) Transformirati diskretnu sluajnu varijablu u kontinuiranu. c) Izraunati vjerovatnost koristei normalnu raspodjelu.


61

6-1 Normalna distribucija (priblina binomnoj distribuciji)

Kao to smo razmatrali u naoj prethodnoj raspravi, izrauni binomne

vjerovatnosti su u mnogim sluajevima vrlo teak zadatak. Sreom, pod odreenim

uvjetima, binomna raspodjela pribliava se normalnoj distribuciju i Poissonovoj

distribuciji, koje su lake za izraun. U ovom poglavlju emo objasniti odnos

izmeu normalne i binomne distribucije pomou jednostavne ilustracije i pokazati

heuristiki kako binomna raspodjela pristupa normalnoj distribuciji kada n postane

velik. Poissonovu aproksimaciju binomne distribucije emo objasniti naknadno

(izborom odgovarajue teme).

Pretpostavimo da je = 0,40 populacija studenata puaa. Jednostavna veliine

n = 10 uzima se zamjenom, koja se moe smatrati kao 10 ponovljenih

Bernoullijevih pokusa. Neka je k broj puaa (to jest, uspjesi) u uzorku. Tada

binomne vjerovatnosti B(k; n = 10, = 0,40) za k = 0,1, 2, , 10 smo dobili tablicama Nacionalnog ureda za standarde, tablici i histogram tih vjerovatnosti su

prikazano (Tablice 6-1 i Sl. 6-1).

Moemo vidjeti (kada heuristiki n postaje vei), irina pravokutnika i koraci u

histogramu e postati manji,

Tablice 6-1 k

p = k/n

( )

0

0,00

0,006

1

0,10

0,040

2

0,20

0,121

3

0,30

0,215

4

0,40

0,251

5

0,50

0,201

6

0,60

0,111

7

0,70

0,042

8

0,80

0,011

9

0,90

0,002

10

1,00

0,000

1,000

Slika 6-1


62

krivulja e postati glatka krivulja. Nai navodi nisu rigorozni, i (bez dokaza je

jasno) kada , glatka krivulja e postati normalna krivulja. To jest binomna distribucija e postati normalna distribucija.

Kada je rije o normalnoj distribuciji, do sada smo koristili standardizirane tabele.

Standardizirana varijabla je prikazan kao

Gdje su , i (srednja vrijednost i standardna devijacija raspodjele).

Za binomnu distribuciju, sluajna varijabla k sa srednjom vrijednou i varijancom

je

( ) ( ) ( )

Dakle, standardizirana binomna varijabla e biti

( )

Iz navedenog teorema slijedi, ako , tada k moe se smatrati standardom normalne varijable s prosjenom vrijednosti 0 i varijancom 1.

Prethodno smo raspravljali o korekciji i kontinuitetu, moe se primijeniti na

sluajne varijable k. Koji (odgovarajui k*), k treba prilagoditi (+1/2) ili (-1/2),

ovisno o problemu. Dakle, normalizirana varijabla k* treba da je

(

)

( )

U mnogim problemima, ova statistika metoda je vie prikladna za koritenje

udijela uzorka p = k/n umjesto k kao sluajne varijable. Zatim normalizirana

varijabla postaje

( )

(

)

( )

vidimo da je

( ) ( ) ( )

Ilustrirajmo koritenje tih formula s primjerima.


63

Primjer 1

Dosadanja istraivanja pokazuju da 40 posto porodica u odreenoj zemlji su

demokrate. Odabran je sluajni uzorak od 50 porodica. Koja je vjerovatnost da e

25 ili vie demokratskih obitelji u ovom uzorku?

a) Binomna raspodjela po k b) Binomna raspodjela po p

Slika 6-2

Situacija je shematski prikazano na Sl.6-2 kao vizualna pomo. Oito je da

moemo koristiti k ili p kao sluajne

Documents

BINOMNA RASPODJELA