Download ppt - Osnove teorije verjetnosti

Osnove teorije Osnove teorije verjetnostiverjetnosti

V tednu je sedem dni. Kolikšna je verjetnost, da bo jutri petek?

Verjetnost, da sta na letalu dve bombi je neprimerno manjša kot verjetnost, da je na letalu ena bomba. Za koliko se zmanjša verjetnost, da je na letalu bomba, če eno bombo prinesemo s seboj?

Polovici razreda se pouk zaključi ob dvanajstih, polovici pa ob dveh. Torej se jim pouk v povprečju zaključi ob sedmih ( (12+2)/2=7 ).Kolikšna je verjetnost, da pri 100 metih kovanca dobimo 50 cifer? 1, 0.5 ali kaj drugega?

Statistično je dokazano, da večja, ko je teža mladostnika, višja je njegova stopnja izobrazbe. Torej čim več jejte!

Teorija verjetnosti obravnava situacije, ki jim pravimo poskusi, pri katerih je izid odvisen od naključja.

Prostor izidov je množica vseh izidov nekega poskusa.

PrimeriMed vožnjo na faks pelje študent mimo treh semaforjev. Pri vsakem se bodisi ustavi (R) ali pa pelje brez ustavljanja (Z). Prostor izidov je { ZZZ , ZZR , ZRZ , RZZ , ZRR , RZR , RRZ ,RRR }.

Letna količina padavin v nekem kraju je zelo odvisna od naključja. Če jo gledamo kot izid poskusa je prostor izidov množica vseh pozitivnih realnih števil {t | t 0}.

Uvrstitev tekmovalca na kolesarski dirki ‘Franja’ lahko gledamo kot na izid pri poskusu - tekmi - in za prostor izidov vzamemo množico {1,2,...,N}, kjer je N število udeležencev. Ker se število udeležencev iz leta v leto spreminja, je še bolj smiselno vzeti za prostor izidov množico vseh naravnih števil {1,2,3,...}.

Podmnožicam prostora izidov pravimo dogodki.

Dogodek, da se študent ustavi pri drugem semaforju je {ZRZ,ZRR,RRZ,RRR}. Dogodek,da se kolesar uvrsti med prvih deset je {1,2,3,4,5,6,7,8,9,10}. Interval [500,1200] ustreza dogodku, da pade med 500 in 1000 milimetrov dežja.

Primeri

dogodka sta nezdružljiva, če je njun produkt nemogoč dogodek: npr., da se študent hkrati ustavi in ne ustavi na prvem semaforju.

Na dogodkih izvajamo iste operacije kot na množicah (unija, presek,komplement...), le da jih drugače

imenujemo.SLOVAR

element izid

množica dogodek

unija vsota

presek produkt

komplement nasprotni dogodek

prazna množica nemogoč dogodek

cela množica gotov dogodek

tuji množici nezdružljiva dogodka

ZZZ,ZZR,ZRZ,RZZ,ZRR,RZR,RRZ,RRR

A+B je dogodek, da se študent ustavi na prvem, ali na drugem semaforju ali pa na obeh:

A+B={RZZ,RZR,ZRZ,ZRR,RRZ,RRR}

A je dogodek, da se študent ustavi na prvem, B pa, da se ustavi na drugem semaforju:

A={RZZ,RZR,RRZ,RRR}, B={ZRZ,ZRR,RRZ,RRR}

AB je dogodek, da se študent ustavi na prvem in na drugem semaforju: AB={RRZ,RRR}

G={ZZZ,ZZR,ZRZ,RZZ,ZRR,RZR,RRZ,RRR}

N=∅

A je dogodek, da se študent ne ustavi na prvem semaforju A ={ZRZ,ZZR,ZZZ,ZRR}.

G

Verjetnost je funkcija, ki vsakemu dogodku A priredi število P(A)[0,1] tako, da velja: • P(G)=1

• AB=N P(A+B)=P(A)+P(B)

BA

P(B)=P(A+(B-A))= P(A)+P(B-A) ≥ P(A)

A BAB

BABA AB

• P(A+B)=P(A)+P(B)-P(AB)

Sledi: • P( A )=1- P(A) P(A)+P(A )=P(G)=1

• P(N)=0

• A B P(A) P(B)

A A

Primer Naj bo pri metu kocke A dogodek, da pade sodo število pik. Klasična definicija: P(A)=½, ker je A={2,4,6} v množici izidov {1,2,3,4,5,6}, za katere privzamemo, da so enako verjetni.

Statistična definicija: P(A) je frekvenca sodega števila pik pri velikem številu metov kocke.

Po 1000 metih kovanca dobimo 700 grbov

pri 1001. metu sta oba izida enako verjetna

pri 1001. metu je bolj verjetno, da pade grb

klasično

statistično

Klasična definicija verjetnosti Če ima poskus končno število enako verjetnih izidov, potem je

izidov vsehštevilo AAP dogodkuvizidovštevilo)(

Statistična definicija verjetnosti Frekvenca dogodka A pri n ponovitvah poskusa je

P(A) je limita frekvenc dogodka A pri velikem številu ponovitev poskusa.

nA izidom zposkusov število

Za uporabo je odločilna verjetnost, ‘izmerjena’ po statistični definiciji. Klasična definicija je običajno dober približek.

Primer Kovanec s premerom 2 cm vržemo na tla pokrita s ploščicami s stranico 10 cm. Kolikšna je verjetnost dogodka A, da kovanec ne pokrije stik dveh ploščic?

P(A)=82/102=0.64

Včasih izidov ne moremo preštevati, lahko pa jih predstavimo geometrično. V tem primeru je klasična defnicija verjetnosti P(A) opredeljena kot razmerje med velikostjo (dolžino, ploščino, prostornino...) množice A in velikostjo množice vseh izidov.

Tudi v tem primeru se klasična in statistična definicija včasih razlikujeta.Na primer: želimo določiti verjetnost, da se bo voznik ustavil pri nekem semaforju.

Klasično: če je r čas trajanja rdeče luči na semaforju, z pa čas trajanja zelene luči, potem je verjetnost, da se voznik ustavi enaka r/(r+z).

Statistično: verjetnost je razmerje med številom ustavljanj in številom vseh voženj pri zadosti veliku številu voženj.

Pogojna verjetnost

Voznik se vsak dan vozi po isti poti in opaža, da na nekem semaforju skoraj vsakič pripelje na rdečo luč. Sčasoma ugotovi, da v povprečju le enkrat na vsakih deset voženj pripelje na zeleno. Ali lahko sklepa, da je trajanje rdeče luči devetkrat daljše od trajanja zelene?

Po opazovanju semaforja ugotovi, da sta rdeča in zelena prižgani enako dolgo časa. Kako je potem mogoče, da vedno pripelje na rdečo?

Izkaže se, da na svoji poti pelj mimo dveh semaforjev. Na prvega pripelje povsem naključno, mimo pa gre le pri zeleni luči. Semaforja sta pa tako (ne)vsklajena, da se v času, ko pripelje do drugega ravno prižge rdeča luč.

Izid na drugem semaforju je pogojen z izidom na prvem semaforju.

A,B dogodka ( P(B)≠ 0 )Pogojna verjetnost dogodka A pri pogoju B je delež dogodka A med poskusi, pri katerih se zgodi dogodek B.

PrimerV tovarni pri kontroli kakovosti 30% izdelkov ocenijo kot prvovrstne, 50% kot drugovrstne, ostale pa kot neuporabne. V trgovino seveda pošljejo le uporabne izdelke. Kolikšna je verjetnost, da je naključno izbrani izdelek v trgovini prvovrsten?

A: izdelek je prvovrstenU: izdelek je uporabenZanima nas P(A|U).

P(AU)=P(A)=30 %

P(U)=80 %

P(A|U)=30/80=0.375

)()()|(

BPABPBAP

S pomočjo pogojne verjetnosti lahko izračunamo verjetnost dogodka, ki je rezultat dvo- ali večstopenjskega poskusa:Primer

Iz škatle s petimi rdečimi in tremi belimi kroglicami na slepo prenesemo dve kroglici v škatlo, v kateri so tri rdeče in tri bele kroglice. Nato iz druge škatle izvlečemo eno kroglico. Kolikšna je verjetnost, da je rdeča? ? ?

možnosti na 1. koraku

možnosti na 2. koraku

prenesemo dve beli krogliciprenesemo dve rdeči krogliciprenesemo eno rdečo in eno belo kroglico

izvlečemo belo kroglico

izvlečemo rdečo kroglico

566

72

83 P

5620

74

85

P

5630

73

85

75

83 P

83P

85P

84P

531.0448238

84

5630

85

5620

83

566)( RP

V splošnem najprej določimo možnosti na prvem koraku: H1,H2,...,Hn in njihove verjetnosti P(H1),P(H2),...,P(Hn).

Nato določimo pogojne verjetnosti, da se dogodek A zgodi pri vsaki od teh možnosti P(A|H1),P(A|H2),...,P(A|Hn).

formula o popolni verjetnosti

Potem je

P(Hi|A)=P(AHi )/P(A)= P(A|Hi ).P(Hi

)/P(A)

Bayesova formula

Včasih nas zanima, po kateri poti je prišlo do opaženega izida:

)|()(...)|()()|()()( nn HAPHPHAPHPHAPHPAP 2211

)()()|()|(

APHPHAPAHP ii

i

A je neodvisen od B, če je P(A|B)=P(A).

Primer Iz škatle, v kateri imamo 7 polnih in 3 prazne baterije naključno

vzamemo dve. Naj bo A dogodek, da je prva baterija polna, B pa dogodek, da je druga baterija polna. Ali sta dogodka A in B neodvisna?

P(B|A) )AP()A P(B|P(A)P(B|A)P(B)

)A P(B|) P(B|AP(A)

107

103

97

107

96

97

96

107

Dogodka A in B sta odvisna.

A in B sta neodvisna P(AB)=P(A).P(B)

P(A|B)=P(A) P(AB)=P(A)P(B)

Odvisnost in neodvisnost dogodkov

Primer• V sobi je n oseb. Kolikšna je verjetnost, da imata dve rojstni dan na isti dan?

Dogodek A: dve osebi imata rojstni dan na isti dan.Lažje obravnavamo nasprotni dogodek: vsi rojstni dnevi so različni. Ai dogodek, da ima (i+1)-vi različen rojstni dan od prvih i; Ai so medsebojno neodvisni

365365 i)P(Ai

3651365

365363

365364

121121)-n(APAPAPAAAP nn

)()...()()...(

3651365

365363

3653641 )-n(-P(A)

23 oseb ⇒ P(A)>50%32 oseb ⇒ P(A)>75%47 oseb ⇒ P(A)>95%

Če vržemo dve kocki, dobimo za vsoto pik število med 2 in 12, vendar te vsote ne moremo vnaprej napovedati, saj je odvisna od slučaja. Podobno velja za število šestic v dveh metih.

Primeri količin odvisnih od slučaja:• število potnikov mestnega avtobusa, ki izstopijo na postaji• število metov potrebnih, da igralec z določene razdalje zadane koš• število bonbonov v vrečki• življenjska doba žarnice• teža hlebca kruha

......Slučajna spremenljivka je funkcija, katere vrednosti so odvisne od slučaja.

Določa jo njena: zaloga vrednosti = nabor vrednosti, ki jih lahko zavzame, in porazdelitev = verjetnost, da zavzame eno ali več vrednosti iz zaloge

SluSlučajne spremenljivkečajne spremenljivke

PrimerPri metu dveh kock je možnih 36 različnih in enako verjetnih izidov. Če z V označimo vsoto pik, je pripadajoča porazdelitev verjetnosti:

3667

36586

36495

363104

362113

361122

)P(V

)P(V)P(V

)P(V)P(V

)P(V)P(V

)P(V)P(V

)P(V)P(V

Vsi ostali izidi imajo verjetnost 0.

Funkcija pV(n) = P(V=n) je verjetnostna gostota slučajne spremenljivke V.

Slučajna spremenljivka X je diskretna, če zavzame končno ali največ števno mnogo vrednosti x1, x2, x3,...

Njena porazdelitev je povsem določena z gostoto pX( xi )=P ( X=xi ).Običajno naštejemo le neničelne vrednosti: p(x1),p(x2),p(x3),...

Primeri diskretnih porazdelitev enakomerna porazdelitevenakomerna porazdelitev • X zavzame vrednosti x1, x2,..., xn

• pX (x)=1/n, če je x∈{x1, x2,... xn}

pX (x)=0, sicer

Število pik pri metu kocke je enakomerno porazdeljeno: zaloga vrednosti je {1,2,3,4,5,6}, vse vrednosti imajo verjetnost 1/6.

110 i

ii xpxp )()( Velja:

binomska porazdelitevbinomska porazdelitev Poskus ponovimo n-krat: naj bo vsakič verjetnost uspeha enaka p (in verjetnost neuspeha 1-p).

(npr. žogo vržemo 10-krat na koš; zadanemo z verjetnostjo 70%)

Slučajna spremenljivka B naj bo število uspešnih poskusov. Kako je porazdeljena?

(tj. kolikšna je verjetnost, da bomo imeli k zadetkov?)

n-kkB p)( p

kn

k) P(B(k) p

1

%.. . p 20200030706

106 46

)(npr. verjetnost, da koš zadanemo natanko 6-krat je

• Zaloga vrednosti spremenljivke B je {0,1,2,...,n}

• Privzamemo, da so izidi poskusov medsebojno neodvisni.

Obstaja različnih zaporedij k uspešnih in (n-k) neuspešnih poskusov;

verjetnost vsakega zaporedja je pk(1-p)n-k .

kn

Porazdelitev spremenljivke B za n=10 in p=0.7:

binomska porazdelitev b(n,p)

b(20,0.4)

b(100,0.65)

Lastnosti binomske porazdelitve b(n,p):

značilna zvonasta oblika grafa maksimum pri n.p (približno) za velike n so vse verjetnosti zelo majhne ali celo zanemarljive • tedaj je bolj smiselno verjetnosti opazovati kumulativno: P(B ≤ k) ali intervalsko: P(j ≤ B ≤ k)

Primer Žogo vržemo na koš 100-krat (verjetnost zadetka je 70%). Kolikšna je verjetnost, da bomo zadeli več kot 65-krat?

83703070100

10065100

66

100 .. . k

) B P(k

kk

računanje je zelo zamudno in numerično zahtevno

83.7%

Kaj je bolj verjetno: da bomo v 10 metih zadeli 10-krat ali v 100 metih več kot 80-krat?

n=5, p=0.1, N=100

Verjetnost, da bo en signal brez napake:

(od treh poslanih je bilo 0 ali 1 narobe sprejetih)

Verjetnost, da bo 100 signalov brez napake: P100=0.423

9910901052

0

5 .. . k

Pk

kk

Primer Ko signal (0 ali 1) pošiljamo po povezavi obstaja verjetnost p, da pri sprejemu pride do napake. Pri zelo moteni povezavi pošljemo vsak signal n-krat (n liho), sprejemnik pa šteje za pravilen tisti znak, ki ga dobi večkrat. Kolikšna je verjetnost, da bo N znakov dolgo sporočilo sprejeto brez napake?

9720901031

0

3 .. . k

Pk

kk

n=3, p=0.1, N=100

Verjetnost, da bo en signal brez napake:

(od treh poslanih je bilo 0 ali 1 narobe sprejetih)

Verjetnost, da bo 100 signalov brez napake: P100=0.058

geometrična porazdelitevgeometrična porazdelitev

Ponavljamo poskus z verjetnostjo uspeha p. Slučajna spremenljivka G je število poskusov, potrebnih za prvi uspeh. Kako je porazdeljena?

p=0.2

• Zaloga vrednosti spremenljivke G je {1,2,3,... }

• P(G=k)=p.(1-p)k-1

Poissonova porazdelitevPoissonova porazdelitev

Poissonova porazdelitev P(a)

• zaloga: {0,1,2,3,... } • porazdelitev:

-ak

ek!a kp )(

Uporaba: modeliranje emisije -delcev v danem časovnem intervalu modeliranje časovnih vrst (vrste pred bančnimi okenci, gostota prometa, obremenitve telefonskega omrežja) modeliranje redkih nesreč v zavarovalništvu (npr. čebelji piki, padci pod tušem) .......

Če je a=n.p majhen, je Poissonova porazdelitev zelo dober približek za binomsko porazdelitev.

n.p=a, n → ∞binomska porazdelitev b(n,p): n-kk p)( p

kn

k) P(B

1

-knkknkn-kk

na

na

nnn)(n-k)n(n-

k!a

na

na

k)(n-k)n(n- p)( p

kn

1111121

111

e-a 1 1

-ak

ek!a

Zvezne slučajne Zvezne slučajne spremenljivkespremenljivke

Kadar je zaloga slučajne spremenljivke X neštevna (npr. življenjska doba žarnice), potem ne moremo našteti verjetnosti posameznih izidov in jim povrhu običajno sploh ne moremo pripisati pozitivne verjetnosti.

Pomagamo si s kumulativno verjetnostjo: P(X ≤ x) = verjetnost, da X zavzame vrednost največ x (npr. da žarnica pregori po x urah)

FX(x) = P(X ≤ x) je (kumulativna) porazdelitvena funkcija spremenljivke XPorazdelitvena funkcija slučajne spremenljivke je • naraščajoča • na (-∞,∞) zraste od 0 do 1

Spremenljivka X je zvezna če je njena porazdelitvena funkcija FX zvezna.

porazdelitvena funkcija diskretne in zvezne slučajne spremenljivke

Če je spremenljivka X zvezna, potem obstaja funkcija pX(x), da je dt(t)p(x)Fx

XX

pX(x) je gostota slučajne spremenljivke X

dt(t)p (x)p XX 110

Za gostoto slučajne spremenljivke velja:Kjer je pX zvezna je pX=FX ’.

dx(x)pbXaPb

aX )(

S pX računamo podobno, kot z diskretno gostoto, le da vsote nadomestimo z integrali: P(a≤X ≤ b) = verjetnost, da X zavzame vrednost med a in b (npr. da je življenjska doba žarnice med a in b ur)

Primeri zveznih porazdelitev

enakomerna porazdelitevenakomerna porazdelitev

sicer0

101 xp(x)

na [0,1], gostota:

sicer0

1 bxaabp(x)

na [a,b], gostota:

0 1

1

a b

ab1

eksponentnaeksponentna porazdelitev porazdelitev

xeax

p(x) -ax 0

00

Podobna Poissonovi; uporaba pri modeliranju življenjske dobe, modeliranju vpliva mamil na živčne receptorje, napovedovanju potresov...

Normalna porazdelitev Normalna porazdelitev N(a,N(a,))

2

21

21

σx-a-

eπσ

p(x)podana z gostoto:

Primeri

zvonasta oblika maksimum pri a simetrična glede na a

gostota N(0,) za različne :

N(0,1) je standardizirana normalna porazdelitev;njena gostota je

2

2

21

x-e

π(x)

)σ

x-a(σ

(x)pN(a,σ 1

) poljubno normalno porazdelitev lahko izrazimo s pomočjo standardizirane

dteπ

Φ(x)x t-

0

2

2

21

Porazdelitvena funkcija standardizirane normalne porazdelitve je

dteπ

(x)Fx

-

t-),N(

210

2

21

F(x)

(x)

Poljubno normalno porazdelitveno funkcijo lahko izrazimo s standardizirano:

)σ

x-a(Fdu(u) dt) σ

t-a(σ

dt(t) p(x)F ),N(

σx-a

-

x

-

x

-N(a,σ N(a,σ( 10)

1

σx-a -u

x -t

dt

σ du

σatu 1

Integral ni elementarna funkcija - pomagamo si s tabelami za funkcijo

Φ(x)(x)F ),N( 21

10

(x) (x)

0 1 2 3 4 5 6 7 8 90.0 0.0000 0.0039 0.0079 0.0119 0.0159 0.0199 0.0239 0.0279 0.0318 0.03580.1 0.0398 0.0437 0.0477 0.0517 0.0556 0.0596 0.0635 0.0674 0.0714 0.07530.2 0.0792 0.0831 0.0870 0.0909 0.0948 0.0987 0.1025 0.1064 0.1102 0.11400.3 0.1179 0.1217 0.1255 0.1293 0.1330 0.1368 0.1405 0.1443 0.1480 0.15170.4 0.1554 0.1590 0.1627 0.1664 0.1700 0.1736 0.1772 0.1808 0.1843 0.18790.5 0.1914 0.1949 0.1984 0.2019 0.2054 0.2088 0.2122 0.2156 0.2190 0.22240.6 0.2257 0.2290 0.2323 0.2356 0.2389 0.2421 0.2453 0.2485 0.2517 0.25490.7 0.2580 0.2611 0.2642 0.2673 0.2703 0.2733 0.2763 0.2793 0.2823 0.28520.8 0.2881 0.2910 0.2938 0.2967 0.2995 0.3023 0.3051 0.3078 0.3105 0.31320.9 0.3159 0.3185 0.3212 0.3238 0.3263 0.3289 0.3314 0.3339 0.3364 0.33891.0 0.3413 0.3437 0.3461 0.3484 0.3508 0.3531 0.3554 0.3576 0.3599 0.36211.1 0.3643 0.3665 0.3686 0.3707 0.3728 0.3749 0.3769 0.3789 0.3809 0.38291.2 0.3849 0.3868 0.3887 0.3906 0.3925 0.3943 0.3961 0.3979 0.3997 0.40141.3 0.4031 0.4049 0.4065 0.4082 0.4098 0.4114 0.4130 0.4146 0.4162 0.41771.4 0.4192 0.4207 0.4221 0.4236 0.4250 0.4264 0.4278 0.4292 0.4305 0.43181.5 0.4331 0.4344 0.4357 0.4369 0.4382 0.4394 0.4406 0.4417 0.4429 0.44401.6 0.4452 0.4463 0.4473 0.4484 0.4494 0.4505 0.4515 0.4525 0.4535 0.45441.7 0.4554 0.4563 0.4572 0.4581 0.4590 0.4599 0.4607 0.4616 0.4624 0.46321.8 0.4640 0.4648 0.4656 0.4663 0.4671 0.4678 0.4685 0.4692 0.4699 0.47061.9 0.4712 0.4719 0.4725 0.4731 0.4738 0.4744 0.4750 0.4755 0.4761 0.47672.0 0.4772 0.4777 0.4783 0.4788 0.4793 0.4798 0.4803 0.4807 0.4812 0.48162.1 0.4821 0.4825 0.4829 0.4834 0.4838 0.4842 0.4846 0.4849 0.4853 0.48572.2 0.4860 0.4864 0.4867 0.4871 0.4874 0.4877 0.4880 0.4883 0.4886 0.48892.3 0.4892 0.4895 0.4898 0.4900 0.4903 0.4906 0.4908 0.4911 0.4913 0.49152.4 0.4918 0.4920 0.4922 0.4924 0.4926 0.4928 0.4930 0.4932 0.4934 0.49362.5 0.4937 0.4939 0.4941 0.4942 0.4944 0.4946 0.4947 0.4949 0.4950 0.49522.6 0.4953 0.4954 0.4956 0.4957 0.4958 0.4959 0.4960 0.4962 0.4963 0.49642.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4971 0.4972 0.49732.8 0.4974 0.4975 0.4975 0.4976 0.4977 0.4978 0.4978 0.4979 0.4980 0.49802.9 0.4981 0.4981 0.4982 0.4983 0.4983 0.4984 0.4984 0.4985 0.4985 0.49863.0 0.4986 0.4986 0.4987 0.4987 0.4988 0.4988 0.4988 0.4989 0.4989 0.4989

Ker je funkcija xliha, so tabelirane le njene vrednosti za pozitivne x.

(1.02)=0.3461

(-0.89)=-(0.89)=-0.3132

F(-0.89)=0.5+(-0.89)=0.1868

Če je X standardizirano normalna N(0,1), je )Φ(x)Φ(x)xXP(x 1221

Če pa je X normalna N(a,), je )σ

axΦ()σ

axΦ()xXP(x

12

21

Primer Slučajna spremenljivka X je porazdeljena po zakonu N(1.5,0.2). Kolikšna je verjetnost, da X zavzame vrednost med 1 in 1.5?

4937052)5.2(0511 20511

205151 .).Φ(Φ)Φ()Φ()Φ().X P( .

.-.

.-.

X porazdeljena po N(a,):

682601211 .)()-)- )σ

a-σ-σ)-σσ-aa )σaX P(a-σ

((((

954402222 .)()σaXσ P(a-

997203233 .)( )σaXσ P(a-

- 2-2 3-368%

95%

99.5%

)-p)np( N(np, 1Normalna porazdelitev je dober približek za binomsko porazdelitev b(n,p):

b(10,0.4)N(4,1.55)

b(20,0.6)N(12,2.19) b(100,0.2)

N(20,4)

Laplaceovi približni formuli (X porazdeljena po b(n,p), q=1- p):

lokalna

integralska

npqk-np

npqe

π npqq p

kn

(k)p npq(k-np)-

n-kkX 1

21 2

2

npq-npxΦ

npq-npxΦ) x X P(x

1221

Primerjava binomske, Poissonove in normalne porazdelitve

b(100,0.02)P(2)N(2,1.4)

b(50,0.4)P(20)N(20,1.4)

Normalna porazdelitev je običajno boljši približek za binomsko kot Poissonova.Ko je produkt n.p majhen (in n dovolj velik) pa je Poissonov približek boljši.

Povezave med verjetnostjo P, porazdelitveno funkcijo FX in gostoto porazdelitve pX

P FX

pX

FX(x) = P(X ≤ x)

P(a ≤ X ≤ b)=FX(b)-FX(a)

p X(x)

=F ’ X(x)

x

F X(x)

= ∫p X(t)

dt

-∞

b

P(a ≤ X ≤ b) =∫ p

X (t) dt

a

X je porazdeljen standardizirano normalno. Kako je porazdeljen Y=X2?

Primeri Slučajna spremenljivka X ima gostoto pX. Kakšno gostoto ima Y=kX+l?

Funkcije sluFunkcije slučajne spremenljivke - čajne spremenljivke - gostotagostota

)0()()()()(

kk

lyFk

lyXPylkXPyYP(y)F XY

)(11)()(k

lypkkk

lyF(y)Fyp XXYY

Posebej, če je X porazdeljena po N(a,), je )(1)(

axxpX

))((1)(1)(

k

lkayk

ak

yp kly

Y

)()()()()( 2 yyyXyPyXPyYP(y)FY

)0(21)(1

21)(

21)()( 2

ye

yy

yyy

yyyp

y

Y

Porazdelitev z gostoto se imenuje 2 (hi-kvadrat).)0(21)( 2

xe

xxp

x

tudi kX+l je normalno porazdeljena in sicer po N(ka+l,k).

PovprePovprečna čna vrednost vrednost

X diskretna, vrednosti xk, gostota p(xk) X zvezna, gostota p(x)

k

kk xpxE(X) )( povprečna vrednost

spremenljivke X

x p(x) dxE(X)

PrimerRuleta ima številke od 1 do 36 ter še 0 in 00. Če vložiš 1 Euro na sode, dobiš ali zgubiš 1 Euro glede na to ali kroglica pade na sodo oziroma liho številko. Dobiček X je +1 z verjetnostjo 18/38 in -1 z verjetnostjo 20/38.Povprečni dobiček je

191

38201

38181 )(E(X)

Če vložiš 1 Euro na izbrano številko (npr. 25) dobiš 36 Eurov če kroglica pade na 25, v nasprotnem pa zgubiš 1 Euro.Povprečni dobiček je

381

38371

38136 )(E(X)

xex

p(x) x- 0010

00010..

PrimerŽivljenjska doba žarnice je porazdeljena eksponentno. Kolikšna je, v povprečju, njena življenjska doba?

ur 1000101

0101

0101

0101010

010

0

010

0

010

0

010

0

010

..

...

.

.

..

.

e-

dx e

x e-

dxx eE(X)

x-

x-x-

x-

Primeri V neki tovarni je približno en izdelek od desetih pokvarjen. Vsak dan izdelke pregledujejo enega po enega dokler ne najdejo pokvarjenega. Koliko izdelkov morajo v povprečju pregledati?

1

1

1 k-

k-p)(pkE(X)

trik:

221

1

21

1

0

11111

11

11

p-p)-(-p)k (

-xk x

-xx

k

k-

k

k-

k

k

p1

Povprečno morajo dnevno pregledati po 10 izdelkov.

Igralec na ruleti igra po naslednjem sistemu. Vsakič igra igro z verjetnostjo 0.5 (npr. rdeče, izidov 0 in 00 ne štejemo). Najprej vloži 1 Euro; če izgubi, podvoji vložek in to ponavlja, dokler ne zmaga; ob vsaki zmagi je na dobičku 1 Euro (zaporedja vložkov so 1-2, 1-2-4, 1-2-4-8, 1-2-4-8-16 itn.). Po zmagi spet začne z 1 Eurom... Ali je to zanesljiva pot do zaslužka?

1

0 212 k

k

kE(X)Povprečna vrednost slučajne spremenljivke X ni definirana!‘Sistem’ zahteva neskončno zalogo denarja (in možnost za neomejene stave).

Naj bo X količina denarja vložena pri zadnji igri (tisti, v kateri igralec zmaga).Zaloga vrednosti X je {1,2,4,8,...}, tj. {2k; k=0,1,2,3,...}; porazdelitev je P(X=2k)=2-(k+1).

X je geometrično porazdeljena s p=0.1:

k

kk p)f(xE(f(X))

p(x) dxf(x)E(f(X))oziroma

o V vodiču smo prebrali, da je junija povprečna maksimalna dnevna temperatura v Rimu 77oF. Kolikšno je povprečje v Co?

2532779532

95

)()(TT oo FC Domneva: povprečje je 25oC.

o Stroj izdeluje svinčene kroglice, katerih premer je v povprečju 1 cm. Kolikšna je povprečna masa teh kroglic (=11.2 g/cm3)?

Težava: iz E(X) ne moremo izračunati E(X 3).

Y=f(X); E(Y)=?

Funkcije slučajne spremenljivke – povprečna vrednost

ikik yxfkAxXPkp )(|),()(

i Ak k

kki i Ak

iiiii

kpxfkpxfkpyyYPyYE )()()()()()()(

baE(X)(x) dxpb(x) dxpxa(x) dxpb)(axb)E(aX

Primeri

(zato smemo preračunati povprečje iz Fo v Co)

0

223

22

2222

dxexxD

mmXE Dx

00

223

232

242

2dueumDdu

uDeuD

Dm uu

duu

DdxD

xu2

,2

2

43

23mD

Hitrost molekule plina je slučajna spremenljivka X in je porazdeljena po Maxwellovem porazdelitvenem zakonu z gostoto

Dx-

X e xπD

(x)p 223

2

2

(x ≥ 0, D je odvisen od temperature)

Kolikšna je povprečna kinetična energija molekule?

Razpršenost

Mera za odstop od povprečne vrednosti:

k

kk )p(xm)(xD(X) 2

p(x) dxm)(xD(X) 2

m=E(X)

praktična formula:

2))(( XEXED(X) razpršenost (varianca, disperzija)

22 )()( XEXED(X)

2222222

222

22

2

)-mE(Xmm)-E(Xp(x) dxmp(x) dxxmp(x) dx-x

p(x) dx)mmx-(xp(x) dx(x-m)D(X)

D(X)σ(X) standardni odklon slučajne spremenljivke X

σ(X)ab)σ(aXD(X)ab)D(aX

2

53621

616

615

614

613

612

611 .)( XE

691

6136

6125

6116

619

614

6112 )(XE

9221235

621

691 2

.)(

XD

Primer Kako je razpršeno število pik pri metu kocke?

Primer Standardni odklon pri metu kocke je 711922 ..

Lastnosti razpršenosti in standardnega odklona

vpeljemo:

E(X)=n.p

D(X)=n.p.(1-p)

Binomska b(n,p): zaloga {0,1,2,...,n}, n-kkk p)( p

kn

p

1

Poissonova P(a): zaloga {0,1,2,3,...},

-ak

k ek!a p

E(X)=a

D(X)=a

Povprečna vrednost in razpršenost nekaterih pomembnih porazdelitev

sešteti moramo in

n

k

n-kk p)( pkn

kXE0

1)(

n

k

n-kk p)( pkn

kXE0

22 1)(

kn

k

n-kkn xq pkn

qpx

0

)(

pqpxnqpxxq pkn

k nnkn

k

n-kk

11

0

)())((

nppqpnq pkn

kx nn

k

n-kk

1

0

)1(1

222

0

))(1())(()1( pqpxnnqpxxq pkn

kk nnkn

k

n-kk

)1()1)(1(1 2221

0

2 pnppnnppqpnnq pkn

kx nn

k

n-kk

aeeaekakee

kxk

kxe aa

k

ak

xx

k

k

k

kx

00

1

0 !)(

!!

0

222

0

2

0

2

!!)(

!)1(

k

ak

k

ak

k

kx aae

kakae

kakk

kxkke

Normalna N(a,):

σx-a

σe

πσp(x) σ

x-a-1

21

2

21

=0(liha funkcija)

=1

E(X)=a

=1=0

D(X)=2

(X)=

dx

σx-a

σxXE 1)(

dttadtttdttat )(

dxdtaxt1,

dttadtttadtttdttatdxσ

x-aσ

x 22222 2)(1

2222 )( aadtttt

)()( tvdtttdvdtdutu

a

enakomerna

n,...,,21

]),[()( baxxp ab 1

21n

1212 n

1212 n

binomska b(n,p) n,...,,, 210 knk ppkn

kp

)()( 1 np )( pnp 1 )( pnp 1

geometrijska ,...,, 321 11 kppkp )()( p1

2

1p

pp

p1

Poissonova P(a) ,...,, 210a

ka ekp k !)( a a a

enakomerna

],[ ba 2ba

12

2)( ab32)( ab

eksponentna ),[ 0 axaexp )(

nkp 1)(

a1

a1

21a

normalna N(a,) ),( 221

21

ax

exp )( a 2

porazdelitev zaloga gostota E(X) D(X) (X)

Povprečna vrednost in razpršenost nekaterih porazdelitev - povzetek

disk

retn

ezv

ezne

Skupne porazdelitve veSkupne porazdelitve več slučajnih č slučajnih spremenljivkspremenljivkPrimer

Trikrat vržemo kovanec. Naj bo X število grbov pri prvem metu (0 ali 1), Y pa skupno število grbov (0,1,2 ali 3). Zanima nas, kako sta spremenljivki X in Y odvisni druga od druge.

Vsota po vrsticah je porazdelitev X, vsota po stolpcih pa je porazdelitev Y.

81

83

83

81

21

81

82

81

21

81

82

81

01003210x\y

Vpeljemo porazdelitev dveh slučajnih spremenljivk pi,j=p(xi,yj)=P(X=xi, Y=yj)

Možni izidi so {ggg,ggc,gcg,cgg,gcc,cgc,ccg,ccc}, zato dobimo

81

82

81

81

82

81

01003210x\y

Diskretna porazdelitev (X,Y) z gostoto p(xi,yj)

robni porazdelitvi j

jiiX ),yp(x)(xp i

jijY ),yp(x)(yp

Zvezna porazdelitev (X,Y) z gostoto p(x,y)

robni porazdelitvi

p(x,y) dy(x)pX

p(x,y) dx(y)pY

Porazdelitvena funkcija F(x,y)=P(X ≤ x, Y ≤ y)

(X,Y) zvezno porazdeljena

x y

dvp(u,v) du F(x,y)

(x,y)Fp(x,y) xy

Povprečna vrednost vsote slučajnih spremenljivk

E(X+Y)=E(X)+E(Y)

E(a1X1+a2X2+...+anXn)=a1E(X1)+a2E(X2)+...+anE(Xn)

Neodvisnost slučajnih spremenljivk

X in Y sta neodvisni, če je P(X ≤ x, Y ≤ y)=P(X ≤ x).P(Y ≤ y) za vse pare x,y.Ekvivalentno: F(x,y)=FX(x).FY(y), oziroma p(x,y)=pX(x).pY(y).

Primer

81

83

83

81

21

81

82

81

21

81

82

81

01

00

3210y\x

X in Y nista neodvisna(npr. p(1,2)=1/8, pX(1).pY(2)=3/16)

X,Y neodvisna ⇒ E(XY)=E(X).E(Y)

)()()()(

),(),(),()()(

YEXEdyypydxxpx

dydxyxpydxdyyxpxdydxyxpyxYXE

YX

-

)()()()(),()( YEXEdyypydxxpxdydxyxpxyXYE YX

-

Razpršenost vsote slučajnih spremenljivk

D(X+Y)=E((X+Y)2)-E(X+Y)2=

=E(X2+2XY+Y2)-(E(X)+E(Y))2=

=E(X2)+2E(XY)+E(Y2)-E(X)2-2E(X)E(Y)-E(Y)2=

=D(X)+D(Y)+2(E(XY)-E(X)E(Y))

K(X,Y) kovarianca slučajnih spremenljivk X in Y

X,Y neodvisna ⇒ X,Y nekorelirana ⇔ D(X+Y)=D(X)+D(Y)

Primeri

81

83

83

81

21

81

82

81

21

81

82

81

01

00

3210y\x

81

86

87

812

813

832

831

21

87

813

822

811

K(X,Y)

E(Y)E(X)

E(XY)

⇒ X in Y nista neodvisna

X porazdeljena po N(0,1), Y=X2

E(XY)=E(X3)=0 (ker je integrand liha funkcija) E(X)E(Y)=0 (ker je E(X)=0)

X in Y sta odvisna in vendar nekorelirana

X,Y sta nekorelirana, če je K(X,Y)=0

σ(X)σ(Y)K(X,Y)r(X,Y) korelacijski koeficient X in Y

81

83

83

81

21

81

82

81

21

81

82

81

01003210x\y

Primer

2887032

123(3

819

834

831

21(

21

81

812

21

22

.r(X,Y)

Y) σ )Y E(X) σ )E(X

K(X,Y) E(Y)E(X)

12

σ(X)D(X)

σ(X)XD r(X,Y)

σ(X)σ(Y)K(X,Y)

σ(Y)Y

σ(X)XD 22211

razpršenost je vedno ≥ 0 ⇒ r(X,Y) ≥ -1r(X,Y)=-1 ⇒ konst.

σ(Y)Y

σ(X)X

σ(Y)Y

σ(X)XD

0

podobno:

|r(X,Y)| ≤ 1|r(X,Y)| = 1 ⇒ X in Y sta linearno odvisna

1220 r(X,Y) r(X,Y) σ(Y)Y

σ(X)X D

Zakon velikih števil

Pri večjem številu poskusov je odklon od povprečja manj verjeten.

Primer Igralec zadane v povprečju 70% metov na koš. Kaj je bolj verjetno: da bo v 10 metih zadel 10-krat ali v 100 metih več kot 80-krat?

P(10 zadetkov iz 10 poskusov)=0.710=0.028

008803070100100

81

100 .. . kk

kk

P(več kot 80 zadetkov iz 100 poskusov)=

Prva možnost je trikrat (!) bolj verjetna. Zakaj je tako?

Zakoni velikih Zakoni velikih številštevil

X slučajna spremenljivka z gostoto p(x), m=E(X), =(X)

L

σ(X) L ) | P(|X-E(X)2

ocena

Čebiševa(verjetnost znatnega odstopanja od povprečne vrednosti je omejena s standardnim odklonom)

k

σ(X) ) k| P(|X-E(X) 21Druga oblika ocene Čebiševa:

Primer P(|X-E(X)| ≥ 2) ≤ 0.25 ocena velja za poljubno porazdelitev za primerjavo: pri normalni porazdelitvi je P(|X-E(X)| ≥ 2) ≤ 0.05

(X)=0 ⇒ P(X=m)=1 (če je razpršenost enaka 0, je X konstantna)

| |

( )x m L

P(| X - m| L ) p x dx

2

2| |

( ) ( )x m L

x m p x dxL

22

22

1)()(1 L

dxxpmxL

ker na območju velja

1)(2

2

Lmx

Pomen standardnega odklona

Povprečje izidov: nX...XXS n

n

21

n neodvisnih ponovitev nekega poskusa ⇒ izidi so slučajne spremenljivke X1,X2,...Xn neodvisne in enako porazdeljene

npr. kocko vržemo n-krat in za Xk vzamemo število pik pri k-tem metu;

žogo vržemo n-krat, Xk je število zadetkov (0 ali 1) pri k-tem metu.

Porazdelitev spremenljivke Sn je zapletena.

npr. pri metu kocke imamo 5n+1 izidov, z različnimi verjetnostmi pri metu na koš je Sn relativna frekvenca zadetkov, porazdeljena je binomsko

D(X)n

D(X) nn

X...XX Dn

X...XXn

D)D(S nnn1111

221221

Z naraščanjem števila poskusov pada razpršenost povprečja izidov proti 0.

Povprečna vrednost in razpršenost Sn:

X1,X2,...Xn neodvisne (zadošča nekorelirane) in porazdeljene enako kot X

E(X)E(X) nn

X...XX En

X...XXn

E)E(S nnn

1112121

E(Sn)=E(X)

D(X)n

)D(Sn1

Sn = povprečje slučajnih spremenljivk X1,X2,...Xn ,,

ki so nekorelirane in porazdeljene kot X

L

D(X)n

LE(X)SP n 2

1

LE(X)S P nn0lim

zakon velikih števil: z naraščanjem števila poskusov pada verjetnost, da se povprečje spremenljivk razlikuje od njihove povprečne vrednosti proti 0.

Primer Xk = število šestk pri k-tem metu kocke X1+X2+...+Xn = število šestk po n metih kocke Sn = relativna frekvenca šestk po n metih

061

n

n LSP

ocena Čebiševa ⇒

zakon velikih števil ⇒

Kaj se zgodi s porazdelitvijo vsote X1+X2+...+Xn ko gre n → ∞ ?

Primeri Xk neodvisne, diskretno porazdeljene P(Xk=1)=p, P(Xk=0)=1-p

X1+X2+...+Xn je porazdeljena binomsko b(n,p)

Xk neodvisne, enakomerno zvezno porazdeljene na intervalu [0,1] porazdelitev za X1+X2+...+Xn :

Xk neodvisne, zvezno eksponentno porazdeljene z gostoto p(x)=e - x za x ≥ 0 porazdelitev za X1+X2+...+Xn :

Porazdelitve vsote X1+X2+...+Xn zavzamejo zvonasto obliko, vendar jih težko primerjamo ker se ‘premikajo’.

X

poljubna spremenljivka

σ(X)X-E(X)Z

standardizirana spremenljivka 1

0

2

σ(X)D(X)

σ(X)X-E(X)DD(Z)

σ(X)E(X)-E(X)

σ(X)X-E(X)EE(Z)

X1,X2,X3,... neodvisne, enako porazdeljene slučajne spremenljivke;standardiziramo: )X...Xσ(X

)X...X)-E(XX...X(XZn

nnn

21

2121

(x)F(x) F ),N(Zn n 10lim

centralni limitni izrek: standardizirana porazdelitev vsote konvergira proti standardni normalni porazdelitvi

Rešitev: vsoto standardiziramo

PrimerNaj bodo X1,X2,...,X20 rezultati 20 neodvisnih meritev količine m z razpršenostjo D(Xi)=2. Ocenimo verjetnost, da povprečje meritev odstopa od m za več kot polovico standardnega odklona .

Čebišev:20

2201

2 2

2

20 .σσσmSP

Povprečje meritev je S20: E(S20)=m, D(S20)=2/20.

Centralni limitni izrek:

9742023222202

220

20220

22220

2020

.).Φ(Φ

σmSP σmSσP σmSP

02580974201220 ..σmS P

Ocena, ki jo dobimo

iz centralnega limitnega izreka je veliko natančnejša.

StatistikStatistikaaFormulacija

problema: opazujemo neko množico (končno ali neskončno), ki ji pravimo populacija; (npr. prebivalci Slovenije, izdelki neke tovarne, bolniki z neko boleznijo, delnice na borzi) vsak element populacije ima neko merljivo lastnost X; (npr. starost, kakovost izdelka, učinek zdravila, cena delnice)

vrednost X je zaradi nekega razloga (velikost populacije, način ugotavljanja,...) znana le na delu populacije, ki mu pravimo vzorec;

Osnovni problem statistike: Kaj lahko povemo o lastnosti X na podlagi njenih vrednosti na danem vzorcu?

V nekaterih primerih skušamo reprezentativnost doseči z dirigiranim vzorčenjem (npr. onesnaženje običajno merijo na stalnih lokacijah). Obstaja nevarnost, da je takšno vzorčenje pristransko.

Če je vzorec naključno izbran, so vrednosti X na vzorcu slučajna spremenljivka. Enako velja za vse količine (povprečja, standardni odkloni...), ki jih lahko izračunamo iz teh vrednosti.

Idealni vzorec je reprezentativen, tj. značilnosti X na vzorcu se ujemajo z značilnostmi na celotni populaciji. Pri naključnem vzorcu lahko določimo verjetnost, da je reprezentativen.

Omejili se bomo na primere, ko je izbira vzorca povsem naključna. To pomeni, da vzorec izbiramo zaporedoma in pri tem ima vsak element populacije enako verjetnost, da se znajde v vzorcu.

Vzorčenje

(gre za izbiro z vračanjem; če je velikost vzorca majhna v primerjavi z velikostjo populacije smemo izbirati brez vračanja)

Populacijski parametri:

velikost populacije: N

vrednosti X na populaciji: x1,x2,...,xN

N

kkx

N 1

1

populacijsko povprečje:

mxN

σN

kk

1

22 1

populacijska razpršenost:

Vzorčni parametri:

velikost vzorca: n

vrednosti X na vzorcu: X1,X2,...,Xn

vzorčno povprečje:

n

kkX

nX

1

1

vzorčna razpršenost:

XXn-

sn

kk

1

22

11

Povprečna vrednost in razpršenost vzorčnih parametrov

vzorec velikosti 1:

E(Xk)= populacijsko povprečje

D(Xk)=2 2 populacijska razpršenost

μ )E(Xn

Xn

E)XE(n

kk

n

kk

11

11

nσ)X, σ

nσ)XD( (

2

vzorec velikosti n:

korekcijski faktor za primer relativno velikega vzorca

(enostavno vzorčenje)

μ )XE(

111

1

22

N-n--

nσ

N-N-n

nσ)XD(

nσ)D(X

nX

nD)XD(

n

kk

n

kk

2

12

1

11

(vzorčenje z vračanjem)

XXn

En

kk

1

21Izračun

22

2222

2222

μnσ)XE()XD()XE(

μσ)E(X)D(X)E(X kkk

)XE()E(Xn

XXn

En

kk

n

kk

2

1

2

1

2 11

2

1

22

11

2

1

22

1

2 1121211 XXn

XXn

XXn

XXXXn

XXn

n

kk

n

kk

n

kk

n

kkk

n

kk

Povprečna vrednost količine na množici vseh vzorcev ni enaka 2. Pravimo, da gre za pristransko oceno populacijske razpršenosti.

XXn

n

kk

1

21

E(s2)= 2

222

22 1 σn

n μnσμσ

XXn

sn

kk

1

22

11

Pri dovolj velikih vzorcih je razlika zanemarljiva, pri majhnih vzorcih pa ne, zato kot mero vzorčne razpršenosti vzamemo

Povzetek: vzorčno povprečje je nepristranska ocena za populacijsko povprečje standardni odklon pri tej oceni je ( , kadar je vzorec velik v primerjavi s populacijo) vzorčna razpršenost s2 je nepristranska ocena za populacijsko razpršenost 2

X

111

Nn

nσ n

σ

Opisovanje podatkov in računanje parametrov

rezultati kolokvija

40196848592831302525363941886660573794449098592992556443545287343674618054

0

1

2

3

4

5

6

7

8

9

1-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 81-90 91-100

0

1

2

3

4

5

6

1-5 6-10 11-15 16-20 21-25 26-30 31-35 36-40 41-45 46-50 51-55 56-60 61-65 66-70 71-75 76-80 81-85 86-90 91-95

0

1

2

3

1 11 21 31 41 51 61 71 81 91

16229753

..

sX

95218352

..

sX

93211753

..

sXintervali

dolžine 5

intervali dolžine 10

Običajno tvorimo 10-20 kategorij. Zaželjeno je, da je v večini kategoriji vsaj 5 enot. Pri računanju povprečja in razpršenosti upoštevamo sredine intervalov.

Intervalsko Intervalsko ocenjevanjeocenjevanjeVzorčno povprečje in razpršenost sta približka za populacijsko povprečje in

razpršenost. Primer simulirali smo 10 zaporedij po 100 metov kocke in dobili naslednjo tabelo:1.simulacija

5 5 6 3 2 6 4 6 4 3 5 4 5 4 2 6 6 1 4 2 6 6 5 2 5 4 3 5 1 5 6 6 3 2 2 6 6 6 1 3 3 6 4 1 4 1 3 6 4 1 6 2 1 2 1 4 6 5 3 1 1 4 6 1 4 5 4 6 4 2 3 6 3 3 4 2 6 3 2 6 4 5 3 1 1 4 1 6 1 6 3 5 1 1 1 3 2 2 2 2 2.simulacija 1 4 6 4 5 4 6 2 6 1 4 4 2 4 6 2 1 2 3 6 2 1 3 1 5 2 6 5 1 3 2 1 1 1 5 3 5 3 1 6 5 2 4 5 2 6 1 3 5 4 5 4 1 6 1 6 4 1 2 2 4 4 6 2 5 3 2 3 6 5 2 5 4 5 3 3 1 2 4 2 3 1 2 6 4 4 6 5 4 4 3 4 5 2 3 3 2 6 6 4 3.simulacija 4 5 5 4 6 6 3 5 6 2 2 5 5 4 6 1 6 4 5 5 4 1 5 2 6 3 3 5 5 4 4 2 4 5 4 4 2 6 6 5 2 6 4 4 5 5 6 1 2 5 2 5 6 6 6 3 6 4 4 2 5 1 6 3 4 1 3 5 2 1 3 1 3 5 2 2 2 5 5 4 6 6 4 6 5 3 1 3 6 1 4 5 4 4 5 5 3 2 4 1 4.simulacija 6 1 5 6 4 2 6 5 3 3 4 1 2 3 5 4 2 2 3 6 6 5 2 6 1 1 1 6 2 1 5 1 5 3 4 1 6 2 6 3 2 6 2 6 1 6 6 1 1 2 3 3 5 6 5 2 5 1 1 3 1 6 5 2 1 1 6 1 6 2 6 6 2 5 2 2 5 4 3 6 5 6 4 5 2 6 1 6 4 4 1 1 3 1 3 1 1 5 5 1 5.simulacija 2 3 3 5 5 1 4 4 4 1 6 6 6 4 3 5 6 3 3 5 5 2 3 5 3 3 6 2 5 4 2 4 2 4 2 5 4 5 1 1 2 3 5 4 4 1 4 5 4 4 2 5 2 5 4 5 4 1 3 5 6 4 5 1 1 2 3 4 6 2 5 6 5 1 6 6 5 5 1 4 5 4 6 4 2 5 2 2 5 2 1 2 5 2 4 5 4 2 6 3 6.simulacija 1 4 1 2 3 1 6 1 3 6 6 5 6 1 3 2 2 2 2 2 4 2 2 2 2 6 3 5 5 4 1 2 6 3 2 3 4 1 6 1 5 1 1 4 5 1 1 2 4 1 2 4 1 5 5 4 6 6 5 5 5 1 1 3 2 6 4 1 5 4 1 1 2 5 6 4 6 5 6 4 2 3 4 4 1 3 6 4 5 1 4 1 6 1 3 1 3 3 5 5 7.simulacija 4 2 4 4 2 5 5 2 3 1 1 6 4 3 1 6 6 6 4 1 6 2 4 5 4 5 4 1 5 6 3 2 3 6 4 2 3 4 6 5 1 5 4 4 5 5 2 4 5 1 5 2 2 1 1 3 3 4 2 5 5 2 4 3 3 5 5 3 3 5 2 5 1 1 4 3 5 4 2 2 6 1 4 6 3 5 2 2 2 2 3 6 6 4 6 2 4 3 4 1 8.simulacija 2 6 2 2 5 4 4 1 3 4 5 2 1 6 6 1 5 4 1 1 4 1 6 3 6 5 5 6 5 3 5 1 6 3 1 4 2 1 6 4 3 5 3 4 6 5 2 3 4 3 1 2 3 2 4 1 4 5 1 4 2 6 2 4 2 4 3 6 2 4 3 1 5 5 6 5 1 2 5 2 5 1 1 2 6 3 1 3 6 2 3 5 3 3 6 3 4 1 4 4 9.simulacija 2 5 5 3 2 3 2 1 3 5 3 5 6 6 3 3 2 5 2 3 6 2 2 6 5 4 6 6 3 2 4 2 1 6 5 2 3 2 2 1 1 6 3 1 1 4 1 2 4 2 5 2 5 2 6 4 6 1 3 5 1 5 1 4 4 2 3 5 6 2 2 3 2 4 5 6 3 5 6 4 3 3 2 5 6 3 2 3 3 4 6 1 1 4 2 2 5 1 6 4 10.simulacija 5 5 3 2 6 4 2 4 5 4 1 3 3 4 1 3 4 1 6 4 1 1 4 6 3 5 1 2 5 6 4 3 6 3 1 1 6 5 1 1 5 5 3 3 1 2 3 6 4 5 2 6 1 5 2 5 5 2 6 4 4 3 4 1 3 5 6 1 3 3 2 6 4 5 4 5 2 2 1 2 4 3 6 4 2 5 4 3 2 2 5 3 6 2 4 3 4 4 3 5

3.59 1.800 3.47 1.687 3.94 1.605 3.44 1.930 3.68 1.567 3.28 1.789 3.53 1.602 3.43 1.692 3.42 1.668 3.50 1.609

X s

Kolikšna sta povprečna vrednost in standardni odklon pri metu kocke?

...pač pa lahko določimo interval, za katerega je zelo verjetno, da vsebuje iskani populacijski parameter.

Osnovno vprašanje:kako na podlagi vzorčnih parametrov oceniti dejanske populacijske parametre?

(pri metu kocke je teoretično povprečje 3.5, standardni odklon pa 1.707)

Pri numeričnih metodah določimo približek in oceno za napako približka. Dejanska vrednost je nekje na intervalu okoli približka.

Na podlagi vzorca ni mogoče sklepati o parametrih populacije s 100% zanesljivostjo,...

Velja: je normalno porazdeljena; je porazdeljena po N(0,1).

X .n

σ)Xa, σ)XE( (

nσ-aX

95440222 .)Φ(nσ-aXP

%.

nσXa

nσXP 449522

Z več kot 95% verjetnostjo lahko zagotovimo, daje populacijsko povprečje na intervalu .

nσX,

nσX 22

XNa vzorcu velikosti n dobimo vrednosti X1,X2,...,Xn in izračunamo njihovo povprečje

Naj bo količina X normalno porazdeljena na celotni populaciji.Privzemimo, da je standardni odklon znan, povprečje a pa ne.

997203233 .)Φ(nσXa

nσXP

Podobno dobimo:

Z več kot 99.7% verjetnostjo je populacijskopovprečje vsebovano v intervalu .

nσX,

nσX 33

Verjetnost, s katero se iskani parameter nahaja na nekem intervalu je stopnja zaupanja.

Pripadajoči interval je interval zaupanja.

Večja stopnja zaupanja ali večja razpršenost ⇒ potreben je širši interval zaupanja.

Večji vzorec ⇒ zadošča ožji interval zaupanja.

Splošni postopek za določanje intervalaSplošni postopek za določanje intervalazaupanja za populacijski parameter zaupanja za populacijski parameter uu::

1) določimo vzorčni parameter ū, ki je primerni približek za u (npr. za povprečje ali s 2 za razpršenost) 2) določimo porazdelitveni zakon vzorčnega parametra ū (npr. normalni, binomski,...; to je najzahtevnejši korak - praviloma

se omejimo na standardne primere)

3) izberemo stopnjo zaupanja (običajno =95% ali =99%)

4) na podlagi porazdelitve in vrednosti vzorčnega parametra ū na danem vzorcu določimo interval zaupanja [U1,U2] za u, ki pripada izbrani stopnji zaupanja

( tako, da velja P(U1 ≤ u ≤ U2) = ).

X

Primer Na podlagi simulacij določimo intervale zaupanja s 95% stopnjo zaupanja za povprečno število točk pri metu kocke.

1) populacijski parameter je povprečje , približek pa vzorčno povprečje

2) vzorec je sorazmerno velik (n=100), zato smemo privzeti, da je porazdeljen normalno po N(,0.8)

3) pri stopnji zaupanja =95% je rešitev enačbe

P(|Z| ≤ z)=0.95 (oziroma (z)=0.4750)

z0.95=1.96 (preberemo iz tablic)

4) Iz sledi , torej je interval zaupanja

XX

(standardizirano povprečje pa je porazdeljeno po N(0,1))10080.-μXZ

961100 .s-μX

100

961100

961 s.Xμs.-X

100

961100

961 s.X,s.-X

Podobno dobimo z0.99=2.58 in interval

zaupanja na stopnji zaupanja 99% je

100

582100

582 s.X,s.-X

X s 3.59 1.800 [3.237,3.942] [3.125,4.054] 3.47 1.687 [3.139,3.800] [3.034,3.905] 3.94 1.605 [3.625,4.254] [3.495,4.354] 3.44 1.930 [3.061,3.818] [2.941,3.938] 3.68 1.567 [3.372,3.987] [3.275,4.084] 3.28 1.789 [2.929,3.630] [2.818,3.741] 3.53 1.602 [3.215,3.844] [3.116,3.943] 3.43 1.692 [3.098,3.761] [2.993,3.866] 3.42 1.668 [3.092,3.747] [2.989,3.850] 3.50 1.609 [3.184,3.815] [3.084,3.915]

interval zaupanja 95% 99%

100100szX,s-zX

pri 3. poskusu je dejansko povprečje izven 95%-intervala zaupanja in komajda znotraj 99%-intervala zaupanja.

Pri manjših vzorcih in neznanem standardnem odklonu privzetek o normalni porazdeljenosti ni več upravičen. Običajno dobimo za približek porazdelitev, ki je odvisna od velikosti vzorca.

Primer Količina X je porazdeljena normalno po N(a,), pri čemer sta oba parametra neznana. Dobiti želimo interval zaupanja za populacijsko povprečje a.

Dan je vzorec velikosti n: parameter a ocenimo z , parameter 2 pa z s2 in tvorimo novo spremenljivko

Velja: T je porazdeljena po t.im. Studentovem zakonu S(n-1) Nadaljevanje je kot prej: za izbrano stopnjo zaupanja iz tabel določimo t,, da velja

P(|T| ≤ t)= Interval zaupanja za a na stopnji zaupanja je

X

ns-aXT

nstX,

ns- tX αα

Studentova porazdelitev S(n-1) ima gostoto 22

11

n-

n n-xkp(x)

...... .

)x(): p(x)S(

)x(): p(x)S(

)x(π): p(x)S(

25

2

23

2

2

3

363

2

12

111

S(1) S(2) S(3) S(4) ... N(0,1)

Tabela majhnih vrednosti porazdelitve S(n):

parameter n(‘stopnje prostosti’)

mejna vrednost na stopnji zaupanja 1- ( P(|T| ≤ t)=1- )

95% 99%

Porazdelitvena gostota ni simetrična,zato za izbrano stopnjo zaupanja poiščemo 2

a in 2b , da velja

P( 2 ≤ 2a )=P( 2 ≥ 2

b )=1-/2

⇒ P(2a ≤ 2 ≤ 2

b )=

2a 2

b

Intervalska ocena za standardni odklon pri normalni porazdelitvi

2

22 1

σs)(nχ Populacijsko razpršenost 2 primerjamo z vzorčno s2:

Velja: 2 je porazdeljena pozakonu ‘hi-kvadrat’ 2(n-1)

2

2

2

2 11

ab χsn,

χsnInterval zaupanja za 2 na stopnji zaupanja je

.....

ex): p(x)(χ

exπ

): p(x)(χ

e): p(x)(χ

xe

π): p(x)(χ

x-

x-

x-

x-

22

22

22

22

414

213

212

211

Hi-kvadrat porazdelitev 2(n) ima gostoto (x > 0) 21

2x-n

n exk p(x)

Za velike n (n > 30) je ), N( n- -χ 10122 2

mejna vrednost 2

( P( 2 ≥ 2 )= )

Tabela majhnih vrednosti porazdelitve 2(n)

parameter n(‘stopnje prostosti’)

PreskuPreskušanje statističnih domnevšanje statističnih domnev

Statistična domneva je trditev o porazdelitvenem zakonu slučajne spremeljivke, ki jo želimo potrditi ali ovreči na podlagi vrednosti, ki jih zavzame na nekem vzorcu.

parametrične domneve

(trditve o parametrih znanega porazdelitvenega zakona, npr. Poissonovo porazdeljena spremenljivka ima povrečje a)

neparametrične domneve(trditve o naravi porazdelitvenega zakona, npr. spremenljivka je normalno porazdeljena)

Domneva je enostavna, če v celoti določa porazdelitev (tip in parametre), sicer pravimo, da je sestavljena.

(npr. če H0 trdi, da je porazdelitev Poissonova z neznanim parametrom - H1 pa, da ni Poissonova, sta obe sestavljeni)

Omejili se bomo na nekaj značilnih primerov preskušanja parametričnih domnev, ko je vsaj ničelna domneva enostavna.

primerjamo dve domnevi:

H0: ničelna domneva in H1: alternativna domneva

(npr. H0 trdi, da porazdelitev ustreza zakonu P(2), H1 pa, da ustreza zakonu P(3.5))

Primer

Leta 2003 je bilo v Sloveniji 17321 živorojenih otrok, od tega 8930 dečkov in 8391 deklic. Zanima nas, ali so te številke v nasprotju s privzetkom, da je rojstvo dečka enako verjetno kot rojstvo deklice.

Izberemo majhno število (npr. 0.05 ali 0.01) in poiščemo kritično vrednost c,da je pri pogoju p=0.5 verjetnost P(X > c)=.

Za slučajno spremenljivko X vzamemo število rojstev dečkov. Privzeti smemo, da je X porazdeljena po binomskem zakonu b(n,p).

Za H0 vzamemo enostavno domnevo, da je pri tem p=0.5, za alternativo H1 pa sestavljeno domnevo, da je p > 0.5.

Če je število dečkov večje od c, bomo H0 zavrnili, v nasprotnem primeru pa ne.

je značilnost preskusa

.c ..

.c ..

.cΦ

..

.cΦ)cP(X)cP(X

...

...

587686518065

586604508065

58660

0508065

586602111

050050050

050050050

Binomsko porazdelitev b(17321,0.5) aproksimiramo z N(a,), kjer je a=17321.0.5=8660.5, 2=17321.0.5.(1-0.5)=4330.25 in =65.80. Za značilnost preskusa vzamemo =0.05.

Ker je dejanska vrednost (8930) večja od c0.05, ničelno domnevo zavrnemo.

Pri 1% značilnosti preskusa bi dobili c0.01=8813.5, torej bi domnevo zavrnili tudi pritem ostrejšem preskusu.

Enostavna parametrična domneva u=u0 ima tri alternativne parametrične domneve:

u > u0

u < u0

u ≠ u0

Za prvo in drugo alternativo pravimo, da sta enostranski, za tretjo pa, da je dvostranska.

u0 c

sprejmemo zavrnemo

c u0

zavrnemo sprejmemo

c1 u0 c2

zavrnemo sprejmemo zavrnemo

Primer Pri preskušanju trdnosti nekega materiala je smiselna enostranska alternativa, saj nas ne moti, če je le-ta trdnejši kot pričakujemo. Pri preskušanju odstopov velikosti vijaka glede na matico pa raje oblikujemo dvostransko alternativo.

Z porazdeljena po N(0,1) - kako določimo c?

2

1211 αc Φ cΦ )cZP()cZP(α αααα

-αc Φ cΦ )cP(Z)cP(Zα αααα 21

2111

21

21

αc Φ cΦ)cP(Zα ααα

Podobno ravnamo pri drugih preskusih. Pri t-testu tvorimo in upoštevamo, da je T porazdeljen po zakonu S(n-1).

Kritične vrednosti za dvostranski poskus pri značilnosti so v (n-1)-vivrstici in stolpcu, ki ustreza .

Kritične vrednosti za enostranski poskusa pa so v stolpcu, ki ustreza .

ns-aXT

2α

dvostranski preskus:

enostranski preskus:

Primer Povprečje 10 meritev gostote neke snovi nam je dalo 1.35 g/cm3, čeprav bi teoretično pričakovali gostoto 1.2 g/cm3. Na podlagi izkušenj vemo, da je pri tovrstnem merjenju standardna napaka =0.25g/cm3. Ali na podlagi tega lahko zavrnemo H0( =1.2 g/cm3)? Značilnost preskusa naj bo 5%.

1.) H1( ≠1.2) (dvostranski preskus)

89110250

21351 ..

..nσ-ρXZ

. c .cΦ .. 9614750 050050 Ničelne domneve ne zavrnemo.(testna vrednost je manjša od kritične)

2.) H1( > 1.2) (enostranski preskus) . c .cΦ .. 651450 050050 Ničelno domnevo

zavrnemo.(testna vrednost je večja od kritične)

Pri sestavljeni alternativi lahko manj verjetni del alternative zmanjša možnost za izključitev ničelne domneve.

Odvisna vzorca Bolnik Število dodatnih ur spanja

X (zdravilo A) Y (zdravilo B) 1 1.9 0.7 2 0.8 -1.6 3 1.1 -0.2 4 0.1 -1.2 5 -0.1 -0.1 6 4.4 3.4 7 5.5 3.7 8 1.6 0.8 9 4.6 0.0 10 3.4 2.0

PrimerNa bolnikih so preskušali vpliv dveh zdravil (A in B) proti nespečnosti. Ali lahko na podlagi podatka o dodatnem številu ur spanja sklepamo o tem, da je eno zdravilo bolj učinkovito od drugega?Privzemimo, da imamo rezultate vpliva obeh zdravil na istih bolnikih. (parni t-test)

Tvorimo razliko Z=X-Y, za katero se izkaže, da je porazdeljena po Studentovem zakonu S(n-1).Primerjamo H0(a=0) proti H1(a≠0).

Z Z2 1.2 1.44 2.4 5.76 1.3 1.69 1.3 1.69 0.0 0.00 1.0 1.00 1.8 3.24 0.8 0.64 4.6 21.16 1.4 1.96

15.8 38.58

231511

5812 .,

.

s.sZ

06410231

0581 ..

.

t

0642620250 ... t

Pri 95% stopnji zaupanja domnevo, da sta zdravili enakovredni zavrnemo.

PrimerKovanec vržemo 50 krat in 29-krat dobimo cifro. Ali lahko sklepamo, da je kovanec popačen?

Imamo vzorec x1,...,xn in nas zanima ali smemo sklepati, da je populacija porazdeljena po nekem zakonu F(x) ?

To je primer naslednjega splošnega problema:

Lotimo se ga takole:

1. Realno os razdelimo na intervale I1,...,IK tako, da vsak vsebuje vsaj 5 elementov vzorca. Število vzorcev na intervalu Ik označimo z bk.2. Ob privzetku, da je porazdelitev populacije F(x) izračunamo teoretično število vzorcev na intervalu Ik in ga označimo z ek.

K

k k

kk

eebχ

1

220

)(3. Izračunamo deviacijo Dejstvo: 0

2 je porazdeljena po zakonu 2(K-1).

4. Za izbrano stopnjo značilnosti določimo 2 iz enačbe P( 2 ≥ 2

)= Domnevo zavrnemo, če je 0

2 ≥ 2

V našem primeru postavimo grb=0, cifra=1 in vzamemo intervala I1=(-∞,0.5] in I1=(0.5,+∞).

Dobimo: b0=21, b1=29, e0=e1=25 in 02 = 16/25+16/25=1.28

Za 2(1) in pri stopnji značilnosti =5% je mejna vrednost 2 =3.841, zato

domneve, da je kovanec pošten ne zavrnemo.

Koliko cifer bi morali dobiti pri 50 metih, da bi lahko na 5% stopnji značilnosti zavrnili domnevo o poštenosti kocke?

Odstop označimo z a in rešimo a2/25+a2/25>3.841, kar nam da a ≥ 7. To pomeni, da bi pri 32 cifrah ali več zavrnili domnevo o poštenosti kocke.

Na stopnji značilnosti 1% pa bi jo zavrnili pri 35 cifrah ali več.

G. Mendel je pri enem svojih znamenitih poskusov dobil 355 rumenih in 123 zelenih grahov. Ali je to v skladu z domnevo, da je razmerje med rumenimi in zelenimi 3:1?

Za konec…