Osnove teorije Osnove teorije verjetnostiverjetnosti
V tednu je sedem dni. Kolikšna je verjetnost, da bo jutri petek?
Verjetnost, da sta na letalu dve bombi je neprimerno manjša kot verjetnost, da je na letalu ena bomba. Za koliko se zmanjša verjetnost, da je na letalu bomba, če eno bombo prinesemo s seboj?
Polovici razreda se pouk zaključi ob dvanajstih, polovici pa ob dveh. Torej se jim pouk v povprečju zaključi ob sedmih ( (12+2)/2=7 ).Kolikšna je verjetnost, da pri 100 metih kovanca dobimo 50 cifer? 1, 0.5 ali kaj drugega?
Statistično je dokazano, da večja, ko je teža mladostnika, višja je njegova stopnja izobrazbe. Torej čim več jejte!
Teorija verjetnosti obravnava situacije, ki jim pravimo poskusi, pri katerih je izid odvisen od naključja.
Prostor izidov je množica vseh izidov nekega poskusa.
PrimeriMed vožnjo na faks pelje študent mimo treh semaforjev. Pri vsakem se bodisi ustavi (R) ali pa pelje brez ustavljanja (Z). Prostor izidov je { ZZZ , ZZR , ZRZ , RZZ , ZRR , RZR , RRZ ,RRR }.
Letna količina padavin v nekem kraju je zelo odvisna od naključja. Če jo gledamo kot izid poskusa je prostor izidov množica vseh pozitivnih realnih števil {t | t 0}.
Uvrstitev tekmovalca na kolesarski dirki ‘Franja’ lahko gledamo kot na izid pri poskusu - tekmi - in za prostor izidov vzamemo množico {1,2,...,N}, kjer je N število udeležencev. Ker se število udeležencev iz leta v leto spreminja, je še bolj smiselno vzeti za prostor izidov množico vseh naravnih števil {1,2,3,...}.
Podmnožicam prostora izidov pravimo dogodki.
Dogodek, da se študent ustavi pri drugem semaforju je {ZRZ,ZRR,RRZ,RRR}. Dogodek,da se kolesar uvrsti med prvih deset je {1,2,3,4,5,6,7,8,9,10}. Interval [500,1200] ustreza dogodku, da pade med 500 in 1000 milimetrov dežja.
Primeri
dogodka sta nezdružljiva, če je njun produkt nemogoč dogodek: npr., da se študent hkrati ustavi in ne ustavi na prvem semaforju.
Na dogodkih izvajamo iste operacije kot na množicah (unija, presek,komplement...), le da jih drugače
imenujemo.SLOVAR
element izid
množica dogodek
unija vsota
presek produkt
komplement nasprotni dogodek
prazna množica nemogoč dogodek
cela množica gotov dogodek
tuji množici nezdružljiva dogodka
ZZZ,ZZR,ZRZ,RZZ,ZRR,RZR,RRZ,RRR
A+B je dogodek, da se študent ustavi na prvem, ali na drugem semaforju ali pa na obeh:
A+B={RZZ,RZR,ZRZ,ZRR,RRZ,RRR}
A je dogodek, da se študent ustavi na prvem, B pa, da se ustavi na drugem semaforju:
A={RZZ,RZR,RRZ,RRR}, B={ZRZ,ZRR,RRZ,RRR}
AB je dogodek, da se študent ustavi na prvem in na drugem semaforju: AB={RRZ,RRR}
G={ZZZ,ZZR,ZRZ,RZZ,ZRR,RZR,RRZ,RRR}
N=∅
A je dogodek, da se študent ne ustavi na prvem semaforju A ={ZRZ,ZZR,ZZZ,ZRR}.
G
Verjetnost je funkcija, ki vsakemu dogodku A priredi število P(A)[0,1] tako, da velja: • P(G)=1
• AB=N P(A+B)=P(A)+P(B)
BA
P(B)=P(A+(B-A))= P(A)+P(B-A) ≥ P(A)
A BAB
BABA AB
• P(A+B)=P(A)+P(B)-P(AB)
Sledi: • P( A )=1- P(A) P(A)+P(A )=P(G)=1
• P(N)=0
• A B P(A) P(B)
A A
Primer Naj bo pri metu kocke A dogodek, da pade sodo število pik. Klasična definicija: P(A)=½, ker je A={2,4,6} v množici izidov {1,2,3,4,5,6}, za katere privzamemo, da so enako verjetni.
Statistična definicija: P(A) je frekvenca sodega števila pik pri velikem številu metov kocke.
Po 1000 metih kovanca dobimo 700 grbov
pri 1001. metu sta oba izida enako verjetna
pri 1001. metu je bolj verjetno, da pade grb
klasično
statistično
Klasična definicija verjetnosti Če ima poskus končno število enako verjetnih izidov, potem je
izidov vsehštevilo AAP dogodkuvizidovštevilo)(
Statistična definicija verjetnosti Frekvenca dogodka A pri n ponovitvah poskusa je
P(A) je limita frekvenc dogodka A pri velikem številu ponovitev poskusa.
nA izidom zposkusov število
Za uporabo je odločilna verjetnost, ‘izmerjena’ po statistični definiciji. Klasična definicija je običajno dober približek.
Primer Kovanec s premerom 2 cm vržemo na tla pokrita s ploščicami s stranico 10 cm. Kolikšna je verjetnost dogodka A, da kovanec ne pokrije stik dveh ploščic?
P(A)=82/102=0.64
Včasih izidov ne moremo preštevati, lahko pa jih predstavimo geometrično. V tem primeru je klasična defnicija verjetnosti P(A) opredeljena kot razmerje med velikostjo (dolžino, ploščino, prostornino...) množice A in velikostjo množice vseh izidov.
Tudi v tem primeru se klasična in statistična definicija včasih razlikujeta.Na primer: želimo določiti verjetnost, da se bo voznik ustavil pri nekem semaforju.
Klasično: če je r čas trajanja rdeče luči na semaforju, z pa čas trajanja zelene luči, potem je verjetnost, da se voznik ustavi enaka r/(r+z).
Statistično: verjetnost je razmerje med številom ustavljanj in številom vseh voženj pri zadosti veliku številu voženj.
Pogojna verjetnost
Voznik se vsak dan vozi po isti poti in opaža, da na nekem semaforju skoraj vsakič pripelje na rdečo luč. Sčasoma ugotovi, da v povprečju le enkrat na vsakih deset voženj pripelje na zeleno. Ali lahko sklepa, da je trajanje rdeče luči devetkrat daljše od trajanja zelene?
Po opazovanju semaforja ugotovi, da sta rdeča in zelena prižgani enako dolgo časa. Kako je potem mogoče, da vedno pripelje na rdečo?
Izkaže se, da na svoji poti pelj mimo dveh semaforjev. Na prvega pripelje povsem naključno, mimo pa gre le pri zeleni luči. Semaforja sta pa tako (ne)vsklajena, da se v času, ko pripelje do drugega ravno prižge rdeča luč.
Izid na drugem semaforju je pogojen z izidom na prvem semaforju.
A,B dogodka ( P(B)≠ 0 )Pogojna verjetnost dogodka A pri pogoju B je delež dogodka A med poskusi, pri katerih se zgodi dogodek B.
PrimerV tovarni pri kontroli kakovosti 30% izdelkov ocenijo kot prvovrstne, 50% kot drugovrstne, ostale pa kot neuporabne. V trgovino seveda pošljejo le uporabne izdelke. Kolikšna je verjetnost, da je naključno izbrani izdelek v trgovini prvovrsten?
A: izdelek je prvovrstenU: izdelek je uporabenZanima nas P(A|U).
P(AU)=P(A)=30 %
P(U)=80 %
P(A|U)=30/80=0.375
)()()|(
BPABPBAP
S pomočjo pogojne verjetnosti lahko izračunamo verjetnost dogodka, ki je rezultat dvo- ali večstopenjskega poskusa:Primer
Iz škatle s petimi rdečimi in tremi belimi kroglicami na slepo prenesemo dve kroglici v škatlo, v kateri so tri rdeče in tri bele kroglice. Nato iz druge škatle izvlečemo eno kroglico. Kolikšna je verjetnost, da je rdeča? ? ?
možnosti na 1. koraku
možnosti na 2. koraku
prenesemo dve beli krogliciprenesemo dve rdeči krogliciprenesemo eno rdečo in eno belo kroglico
izvlečemo belo kroglico
izvlečemo rdečo kroglico
566
72
83 P
5620
74
85
P
5630
73
85
75
83 P
83P
85P
84P
531.0448238
84
5630
85
5620
83
566)( RP
V splošnem najprej določimo možnosti na prvem koraku: H1,H2,...,Hn in njihove verjetnosti P(H1),P(H2),...,P(Hn).
Nato določimo pogojne verjetnosti, da se dogodek A zgodi pri vsaki od teh možnosti P(A|H1),P(A|H2),...,P(A|Hn).
formula o popolni verjetnosti
Potem je
P(Hi|A)=P(AHi )/P(A)= P(A|Hi ).P(Hi
)/P(A)
Bayesova formula
Včasih nas zanima, po kateri poti je prišlo do opaženega izida:
)|()(...)|()()|()()( nn HAPHPHAPHPHAPHPAP 2211
)()()|()|(
APHPHAPAHP ii
i
A je neodvisen od B, če je P(A|B)=P(A).
Primer Iz škatle, v kateri imamo 7 polnih in 3 prazne baterije naključno
vzamemo dve. Naj bo A dogodek, da je prva baterija polna, B pa dogodek, da je druga baterija polna. Ali sta dogodka A in B neodvisna?
P(B|A) )AP()A P(B|P(A)P(B|A)P(B)
)A P(B|) P(B|AP(A)
107
103
97
107
96
97
96
107
Dogodka A in B sta odvisna.
A in B sta neodvisna P(AB)=P(A).P(B)
P(A|B)=P(A) P(AB)=P(A)P(B)
Odvisnost in neodvisnost dogodkov
Primer• V sobi je n oseb. Kolikšna je verjetnost, da imata dve rojstni dan na isti dan?
Dogodek A: dve osebi imata rojstni dan na isti dan.Lažje obravnavamo nasprotni dogodek: vsi rojstni dnevi so različni. Ai dogodek, da ima (i+1)-vi različen rojstni dan od prvih i; Ai so medsebojno neodvisni
365365 i)P(Ai
3651365
365363
365364
121121)-n(APAPAPAAAP nn
)()...()()...(
3651365
365363
3653641 )-n(-P(A)
23 oseb ⇒ P(A)>50%32 oseb ⇒ P(A)>75%47 oseb ⇒ P(A)>95%
Če vržemo dve kocki, dobimo za vsoto pik število med 2 in 12, vendar te vsote ne moremo vnaprej napovedati, saj je odvisna od slučaja. Podobno velja za število šestic v dveh metih.
Primeri količin odvisnih od slučaja:• število potnikov mestnega avtobusa, ki izstopijo na postaji• število metov potrebnih, da igralec z določene razdalje zadane koš• število bonbonov v vrečki• življenjska doba žarnice• teža hlebca kruha
......Slučajna spremenljivka je funkcija, katere vrednosti so odvisne od slučaja.
Določa jo njena: zaloga vrednosti = nabor vrednosti, ki jih lahko zavzame, in porazdelitev = verjetnost, da zavzame eno ali več vrednosti iz zaloge
SluSlučajne spremenljivkečajne spremenljivke
PrimerPri metu dveh kock je možnih 36 različnih in enako verjetnih izidov. Če z V označimo vsoto pik, je pripadajoča porazdelitev verjetnosti:
3667
36586
36495
363104
362113
361122
)P(V
)P(V)P(V
)P(V)P(V
)P(V)P(V
)P(V)P(V
)P(V)P(V
Vsi ostali izidi imajo verjetnost 0.
Funkcija pV(n) = P(V=n) je verjetnostna gostota slučajne spremenljivke V.
Slučajna spremenljivka X je diskretna, če zavzame končno ali največ števno mnogo vrednosti x1, x2, x3,...
Njena porazdelitev je povsem določena z gostoto pX( xi )=P ( X=xi ).Običajno naštejemo le neničelne vrednosti: p(x1),p(x2),p(x3),...
Primeri diskretnih porazdelitev enakomerna porazdelitevenakomerna porazdelitev • X zavzame vrednosti x1, x2,..., xn
• pX (x)=1/n, če je x∈{x1, x2,... xn}
pX (x)=0, sicer
Število pik pri metu kocke je enakomerno porazdeljeno: zaloga vrednosti je {1,2,3,4,5,6}, vse vrednosti imajo verjetnost 1/6.
110 i
ii xpxp )()( Velja:
binomska porazdelitevbinomska porazdelitev Poskus ponovimo n-krat: naj bo vsakič verjetnost uspeha enaka p (in verjetnost neuspeha 1-p).
(npr. žogo vržemo 10-krat na koš; zadanemo z verjetnostjo 70%)
Slučajna spremenljivka B naj bo število uspešnih poskusov. Kako je porazdeljena?
(tj. kolikšna je verjetnost, da bomo imeli k zadetkov?)
n-kkB p)( p
kn
k) P(B(k) p
1
%.. . p 20200030706
106 46
)(npr. verjetnost, da koš zadanemo natanko 6-krat je
• Zaloga vrednosti spremenljivke B je {0,1,2,...,n}
• Privzamemo, da so izidi poskusov medsebojno neodvisni.
Obstaja različnih zaporedij k uspešnih in (n-k) neuspešnih poskusov;
verjetnost vsakega zaporedja je pk(1-p)n-k .
kn
Porazdelitev spremenljivke B za n=10 in p=0.7:
binomska porazdelitev b(n,p)
b(20,0.4)
b(100,0.65)
Lastnosti binomske porazdelitve b(n,p):
značilna zvonasta oblika grafa maksimum pri n.p (približno) za velike n so vse verjetnosti zelo majhne ali celo zanemarljive • tedaj je bolj smiselno verjetnosti opazovati kumulativno: P(B ≤ k) ali intervalsko: P(j ≤ B ≤ k)
Primer Žogo vržemo na koš 100-krat (verjetnost zadetka je 70%). Kolikšna je verjetnost, da bomo zadeli več kot 65-krat?
83703070100
10065100
66
100 .. . k
) B P(k
kk
računanje je zelo zamudno in numerično zahtevno
83.7%
Kaj je bolj verjetno: da bomo v 10 metih zadeli 10-krat ali v 100 metih več kot 80-krat?
n=5, p=0.1, N=100
Verjetnost, da bo en signal brez napake:
(od treh poslanih je bilo 0 ali 1 narobe sprejetih)
Verjetnost, da bo 100 signalov brez napake: P100=0.423
9910901052
0
5 .. . k
Pk
kk
Primer Ko signal (0 ali 1) pošiljamo po povezavi obstaja verjetnost p, da pri sprejemu pride do napake. Pri zelo moteni povezavi pošljemo vsak signal n-krat (n liho), sprejemnik pa šteje za pravilen tisti znak, ki ga dobi večkrat. Kolikšna je verjetnost, da bo N znakov dolgo sporočilo sprejeto brez napake?
9720901031
0
3 .. . k
Pk
kk
n=3, p=0.1, N=100
Verjetnost, da bo en signal brez napake:
(od treh poslanih je bilo 0 ali 1 narobe sprejetih)
Verjetnost, da bo 100 signalov brez napake: P100=0.058
geometrična porazdelitevgeometrična porazdelitev
Ponavljamo poskus z verjetnostjo uspeha p. Slučajna spremenljivka G je število poskusov, potrebnih za prvi uspeh. Kako je porazdeljena?
p=0.2
• Zaloga vrednosti spremenljivke G je {1,2,3,... }
• P(G=k)=p.(1-p)k-1
Poissonova porazdelitevPoissonova porazdelitev
Poissonova porazdelitev P(a)
• zaloga: {0,1,2,3,... } • porazdelitev:
-ak
ek!a kp )(
Uporaba: modeliranje emisije -delcev v danem časovnem intervalu modeliranje časovnih vrst (vrste pred bančnimi okenci, gostota prometa, obremenitve telefonskega omrežja) modeliranje redkih nesreč v zavarovalništvu (npr. čebelji piki, padci pod tušem) .......
Če je a=n.p majhen, je Poissonova porazdelitev zelo dober približek za binomsko porazdelitev.
n.p=a, n → ∞binomska porazdelitev b(n,p): n-kk p)( p
kn
k) P(B
1
-knkknkn-kk
na
na
nnn)(n-k)n(n-
k!a
na
na
k)(n-k)n(n- p)( p
kn
1111121
111
e-a 1 1
-ak
ek!a
Zvezne slučajne Zvezne slučajne spremenljivkespremenljivke
Kadar je zaloga slučajne spremenljivke X neštevna (npr. življenjska doba žarnice), potem ne moremo našteti verjetnosti posameznih izidov in jim povrhu običajno sploh ne moremo pripisati pozitivne verjetnosti.
Pomagamo si s kumulativno verjetnostjo: P(X ≤ x) = verjetnost, da X zavzame vrednost največ x (npr. da žarnica pregori po x urah)
FX(x) = P(X ≤ x) je (kumulativna) porazdelitvena funkcija spremenljivke XPorazdelitvena funkcija slučajne spremenljivke je • naraščajoča • na (-∞,∞) zraste od 0 do 1
Spremenljivka X je zvezna če je njena porazdelitvena funkcija FX zvezna.
porazdelitvena funkcija diskretne in zvezne slučajne spremenljivke
Če je spremenljivka X zvezna, potem obstaja funkcija pX(x), da je dt(t)p(x)Fx
XX
pX(x) je gostota slučajne spremenljivke X
dt(t)p (x)p XX 110
Za gostoto slučajne spremenljivke velja:Kjer je pX zvezna je pX=FX ’.
dx(x)pbXaPb
aX )(
S pX računamo podobno, kot z diskretno gostoto, le da vsote nadomestimo z integrali: P(a≤X ≤ b) = verjetnost, da X zavzame vrednost med a in b (npr. da je življenjska doba žarnice med a in b ur)
Primeri zveznih porazdelitev
enakomerna porazdelitevenakomerna porazdelitev
sicer0
101 xp(x)
na [0,1], gostota:
sicer0
1 bxaabp(x)
na [a,b], gostota:
0 1
1
a b
ab1
eksponentnaeksponentna porazdelitev porazdelitev
xeax
p(x) -ax 0
00
Podobna Poissonovi; uporaba pri modeliranju življenjske dobe, modeliranju vpliva mamil na živčne receptorje, napovedovanju potresov...
Normalna porazdelitev Normalna porazdelitev N(a,N(a,))
2
21
21
σx-a-
eπσ
p(x)podana z gostoto:
Primeri
zvonasta oblika maksimum pri a simetrična glede na a
gostota N(0,) za različne :
N(0,1) je standardizirana normalna porazdelitev;njena gostota je
2
2
21
x-e
π(x)
)σ
x-a(σ
(x)pN(a,σ 1
) poljubno normalno porazdelitev lahko izrazimo s pomočjo standardizirane
dteπ
Φ(x)x t-
0
2
2
21
Porazdelitvena funkcija standardizirane normalne porazdelitve je
dteπ
(x)Fx
-
t-),N(
210
2
21
F(x)
(x)
Poljubno normalno porazdelitveno funkcijo lahko izrazimo s standardizirano:
)σ
x-a(Fdu(u) dt) σ
t-a(σ
dt(t) p(x)F ),N(
σx-a
-
x
-
x
-N(a,σ N(a,σ( 10)
1
σx-a -u
x -t
dt
σ du
σatu 1
Integral ni elementarna funkcija - pomagamo si s tabelami za funkcijo
Φ(x)(x)F ),N( 21
10
(x) (x)
0 1 2 3 4 5 6 7 8 90.0 0.0000 0.0039 0.0079 0.0119 0.0159 0.0199 0.0239 0.0279 0.0318 0.03580.1 0.0398 0.0437 0.0477 0.0517 0.0556 0.0596 0.0635 0.0674 0.0714 0.07530.2 0.0792 0.0831 0.0870 0.0909 0.0948 0.0987 0.1025 0.1064 0.1102 0.11400.3 0.1179 0.1217 0.1255 0.1293 0.1330 0.1368 0.1405 0.1443 0.1480 0.15170.4 0.1554 0.1590 0.1627 0.1664 0.1700 0.1736 0.1772 0.1808 0.1843 0.18790.5 0.1914 0.1949 0.1984 0.2019 0.2054 0.2088 0.2122 0.2156 0.2190 0.22240.6 0.2257 0.2290 0.2323 0.2356 0.2389 0.2421 0.2453 0.2485 0.2517 0.25490.7 0.2580 0.2611 0.2642 0.2673 0.2703 0.2733 0.2763 0.2793 0.2823 0.28520.8 0.2881 0.2910 0.2938 0.2967 0.2995 0.3023 0.3051 0.3078 0.3105 0.31320.9 0.3159 0.3185 0.3212 0.3238 0.3263 0.3289 0.3314 0.3339 0.3364 0.33891.0 0.3413 0.3437 0.3461 0.3484 0.3508 0.3531 0.3554 0.3576 0.3599 0.36211.1 0.3643 0.3665 0.3686 0.3707 0.3728 0.3749 0.3769 0.3789 0.3809 0.38291.2 0.3849 0.3868 0.3887 0.3906 0.3925 0.3943 0.3961 0.3979 0.3997 0.40141.3 0.4031 0.4049 0.4065 0.4082 0.4098 0.4114 0.4130 0.4146 0.4162 0.41771.4 0.4192 0.4207 0.4221 0.4236 0.4250 0.4264 0.4278 0.4292 0.4305 0.43181.5 0.4331 0.4344 0.4357 0.4369 0.4382 0.4394 0.4406 0.4417 0.4429 0.44401.6 0.4452 0.4463 0.4473 0.4484 0.4494 0.4505 0.4515 0.4525 0.4535 0.45441.7 0.4554 0.4563 0.4572 0.4581 0.4590 0.4599 0.4607 0.4616 0.4624 0.46321.8 0.4640 0.4648 0.4656 0.4663 0.4671 0.4678 0.4685 0.4692 0.4699 0.47061.9 0.4712 0.4719 0.4725 0.4731 0.4738 0.4744 0.4750 0.4755 0.4761 0.47672.0 0.4772 0.4777 0.4783 0.4788 0.4793 0.4798 0.4803 0.4807 0.4812 0.48162.1 0.4821 0.4825 0.4829 0.4834 0.4838 0.4842 0.4846 0.4849 0.4853 0.48572.2 0.4860 0.4864 0.4867 0.4871 0.4874 0.4877 0.4880 0.4883 0.4886 0.48892.3 0.4892 0.4895 0.4898 0.4900 0.4903 0.4906 0.4908 0.4911 0.4913 0.49152.4 0.4918 0.4920 0.4922 0.4924 0.4926 0.4928 0.4930 0.4932 0.4934 0.49362.5 0.4937 0.4939 0.4941 0.4942 0.4944 0.4946 0.4947 0.4949 0.4950 0.49522.6 0.4953 0.4954 0.4956 0.4957 0.4958 0.4959 0.4960 0.4962 0.4963 0.49642.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4971 0.4972 0.49732.8 0.4974 0.4975 0.4975 0.4976 0.4977 0.4978 0.4978 0.4979 0.4980 0.49802.9 0.4981 0.4981 0.4982 0.4983 0.4983 0.4984 0.4984 0.4985 0.4985 0.49863.0 0.4986 0.4986 0.4987 0.4987 0.4988 0.4988 0.4988 0.4989 0.4989 0.4989
Ker je funkcija xliha, so tabelirane le njene vrednosti za pozitivne x.
(1.02)=0.3461
(-0.89)=-(0.89)=-0.3132
F(-0.89)=0.5+(-0.89)=0.1868
Če je X standardizirano normalna N(0,1), je )Φ(x)Φ(x)xXP(x 1221
Če pa je X normalna N(a,), je )σ
axΦ()σ
axΦ()xXP(x
12
21
Primer Slučajna spremenljivka X je porazdeljena po zakonu N(1.5,0.2). Kolikšna je verjetnost, da X zavzame vrednost med 1 in 1.5?
4937052)5.2(0511 20511
205151 .).Φ(Φ)Φ()Φ()Φ().X P( .
.-.
.-.
X porazdeljena po N(a,):
682601211 .)()-)- )σ
a-σ-σ)-σσ-aa )σaX P(a-σ
((((
954402222 .)()σaXσ P(a-
997203233 .)( )σaXσ P(a-
- 2-2 3-368%
95%
99.5%
)-p)np( N(np, 1Normalna porazdelitev je dober približek za binomsko porazdelitev b(n,p):
b(10,0.4)N(4,1.55)
b(20,0.6)N(12,2.19) b(100,0.2)
N(20,4)
Laplaceovi približni formuli (X porazdeljena po b(n,p), q=1- p):
lokalna
integralska
npqk-np
npqe
π npqq p
kn
(k)p npq(k-np)-
n-kkX 1
21 2
2
npq-npxΦ
npq-npxΦ) x X P(x
1221
Primerjava binomske, Poissonove in normalne porazdelitve
b(100,0.02)P(2)N(2,1.4)
b(50,0.4)P(20)N(20,1.4)
Normalna porazdelitev je običajno boljši približek za binomsko kot Poissonova.Ko je produkt n.p majhen (in n dovolj velik) pa je Poissonov približek boljši.
Povezave med verjetnostjo P, porazdelitveno funkcijo FX in gostoto porazdelitve pX
P FX
pX
FX(x) = P(X ≤ x)
P(a ≤ X ≤ b)=FX(b)-FX(a)
p X(x)
=F ’ X(x)
x
F X(x)
= ∫p X(t)
dt
-∞
b
P(a ≤ X ≤ b) =∫ p
X (t) dt
a
X je porazdeljen standardizirano normalno. Kako je porazdeljen Y=X2?
Primeri Slučajna spremenljivka X ima gostoto pX. Kakšno gostoto ima Y=kX+l?
Funkcije sluFunkcije slučajne spremenljivke - čajne spremenljivke - gostotagostota
)0()()()()(
kk
lyFk
lyXPylkXPyYP(y)F XY
)(11)()(k
lypkkk
lyF(y)Fyp XXYY
Posebej, če je X porazdeljena po N(a,), je )(1)(
axxpX
))((1)(1)(
k
lkayk
ak
yp kly
Y
)()()()()( 2 yyyXyPyXPyYP(y)FY
)0(21)(1
21)(
21)()( 2
ye
yy
yyy
yyyp
y
Y
Porazdelitev z gostoto se imenuje 2 (hi-kvadrat).)0(21)( 2
xe
xxp
x
tudi kX+l je normalno porazdeljena in sicer po N(ka+l,k).
PovprePovprečna čna vrednost vrednost
X diskretna, vrednosti xk, gostota p(xk) X zvezna, gostota p(x)
k
kk xpxE(X) )( povprečna vrednost
spremenljivke X
x p(x) dxE(X)
PrimerRuleta ima številke od 1 do 36 ter še 0 in 00. Če vložiš 1 Euro na sode, dobiš ali zgubiš 1 Euro glede na to ali kroglica pade na sodo oziroma liho številko. Dobiček X je +1 z verjetnostjo 18/38 in -1 z verjetnostjo 20/38.Povprečni dobiček je
191
38201
38181 )(E(X)
Če vložiš 1 Euro na izbrano številko (npr. 25) dobiš 36 Eurov če kroglica pade na 25, v nasprotnem pa zgubiš 1 Euro.Povprečni dobiček je
381
38371
38136 )(E(X)
xex
p(x) x- 0010
00010..
PrimerŽivljenjska doba žarnice je porazdeljena eksponentno. Kolikšna je, v povprečju, njena življenjska doba?
ur 1000101
0101
0101
0101010
010
0
010
0
010
0
010
0
010
..
...
.
.
..
.
e-
dx e
x e-
dxx eE(X)
x-
x-x-
x-
Primeri V neki tovarni je približno en izdelek od desetih pokvarjen. Vsak dan izdelke pregledujejo enega po enega dokler ne najdejo pokvarjenega. Koliko izdelkov morajo v povprečju pregledati?
1
1
1 k-
k-p)(pkE(X)
trik:
221
1
21
1
0
11111
11
11
p-p)-(-p)k (
-xk x
-xx
k
k-
k
k-
k
k
p1
Povprečno morajo dnevno pregledati po 10 izdelkov.
Igralec na ruleti igra po naslednjem sistemu. Vsakič igra igro z verjetnostjo 0.5 (npr. rdeče, izidov 0 in 00 ne štejemo). Najprej vloži 1 Euro; če izgubi, podvoji vložek in to ponavlja, dokler ne zmaga; ob vsaki zmagi je na dobičku 1 Euro (zaporedja vložkov so 1-2, 1-2-4, 1-2-4-8, 1-2-4-8-16 itn.). Po zmagi spet začne z 1 Eurom... Ali je to zanesljiva pot do zaslužka?
1
0 212 k
k
kE(X)Povprečna vrednost slučajne spremenljivke X ni definirana!‘Sistem’ zahteva neskončno zalogo denarja (in možnost za neomejene stave).
Naj bo X količina denarja vložena pri zadnji igri (tisti, v kateri igralec zmaga).Zaloga vrednosti X je {1,2,4,8,...}, tj. {2k; k=0,1,2,3,...}; porazdelitev je P(X=2k)=2-(k+1).
X je geometrično porazdeljena s p=0.1:
k
kk p)f(xE(f(X))
p(x) dxf(x)E(f(X))oziroma
o V vodiču smo prebrali, da je junija povprečna maksimalna dnevna temperatura v Rimu 77oF. Kolikšno je povprečje v Co?
2532779532
95
)()(TT oo FC Domneva: povprečje je 25oC.
o Stroj izdeluje svinčene kroglice, katerih premer je v povprečju 1 cm. Kolikšna je povprečna masa teh kroglic (=11.2 g/cm3)?
Težava: iz E(X) ne moremo izračunati E(X 3).
Y=f(X); E(Y)=?
Funkcije slučajne spremenljivke – povprečna vrednost
ikik yxfkAxXPkp )(|),()(
i Ak k
kki i Ak
iiiii
kpxfkpxfkpyyYPyYE )()()()()()()(
baE(X)(x) dxpb(x) dxpxa(x) dxpb)(axb)E(aX
Primeri
(zato smemo preračunati povprečje iz Fo v Co)
0
223
22
2222
dxexxD
mmXE Dx
00
223
232
242
2dueumDdu
uDeuD
Dm uu
duu
DdxD
xu2
,2
2
43
23mD
Hitrost molekule plina je slučajna spremenljivka X in je porazdeljena po Maxwellovem porazdelitvenem zakonu z gostoto
Dx-
X e xπD
(x)p 223
2
2
(x ≥ 0, D je odvisen od temperature)
Kolikšna je povprečna kinetična energija molekule?
Razpršenost
Mera za odstop od povprečne vrednosti:
k
kk )p(xm)(xD(X) 2
p(x) dxm)(xD(X) 2
m=E(X)
praktična formula:
2))(( XEXED(X) razpršenost (varianca, disperzija)
22 )()( XEXED(X)
2222222
222
22
2
)-mE(Xmm)-E(Xp(x) dxmp(x) dxxmp(x) dx-x
p(x) dx)mmx-(xp(x) dx(x-m)D(X)
D(X)σ(X) standardni odklon slučajne spremenljivke X
σ(X)ab)σ(aXD(X)ab)D(aX
2
53621
616
615
614
613
612
611 .)( XE
691
6136
6125
6116
619
614
6112 )(XE
9221235
621
691 2
.)(
XD
Primer Kako je razpršeno število pik pri metu kocke?
Primer Standardni odklon pri metu kocke je 711922 ..
Lastnosti razpršenosti in standardnega odklona
vpeljemo:
E(X)=n.p
D(X)=n.p.(1-p)
Binomska b(n,p): zaloga {0,1,2,...,n}, n-kkk p)( p
kn
p
1
Poissonova P(a): zaloga {0,1,2,3,...},
-ak
k ek!a p
E(X)=a
D(X)=a
Povprečna vrednost in razpršenost nekaterih pomembnih porazdelitev
sešteti moramo in
n
k
n-kk p)( pkn
kXE0
1)(
n
k
n-kk p)( pkn
kXE0
22 1)(
kn
k
n-kkn xq pkn
qpx
0
)(
pqpxnqpxxq pkn
k nnkn
k
n-kk
11
0
)())((
nppqpnq pkn
kx nn
k
n-kk
1
0
)1(1
222
0
))(1())(()1( pqpxnnqpxxq pkn
kk nnkn
k
n-kk
)1()1)(1(1 2221
0
2 pnppnnppqpnnq pkn
kx nn
k
n-kk
aeeaekakee
kxk
kxe aa
k
ak
xx
k
k
k
kx
00
1
0 !)(
!!
0
222
0
2
0
2
!!)(
!)1(
k
ak
k
ak
k
kx aae
kakae
kakk
kxkke
Normalna N(a,):
σx-a
σe
πσp(x) σ
x-a-1
21
2
21
=0(liha funkcija)
=1
E(X)=a
=1=0
D(X)=2
(X)=
dx
σx-a
σxXE 1)(
dttadtttdttat )(
dxdtaxt1,
dttadtttadtttdttatdxσ
x-aσ
x 22222 2)(1
2222 )( aadtttt
)()( tvdtttdvdtdutu
a
enakomerna
n,...,,21
]),[()( baxxp ab 1
21n
1212 n
1212 n
binomska b(n,p) n,...,,, 210 knk ppkn
kp
)()( 1 np )( pnp 1 )( pnp 1
geometrijska ,...,, 321 11 kppkp )()( p1
2
1p
pp
p1
Poissonova P(a) ,...,, 210a
ka ekp k !)( a a a
enakomerna
],[ ba 2ba
12
2)( ab32)( ab
eksponentna ),[ 0 axaexp )(
nkp 1)(
a1
a1
21a
normalna N(a,) ),( 221
21
ax
exp )( a 2
porazdelitev zaloga gostota E(X) D(X) (X)
Povprečna vrednost in razpršenost nekaterih porazdelitev - povzetek
disk
retn
ezv
ezne
Skupne porazdelitve veSkupne porazdelitve več slučajnih č slučajnih spremenljivkspremenljivkPrimer
Trikrat vržemo kovanec. Naj bo X število grbov pri prvem metu (0 ali 1), Y pa skupno število grbov (0,1,2 ali 3). Zanima nas, kako sta spremenljivki X in Y odvisni druga od druge.
Vsota po vrsticah je porazdelitev X, vsota po stolpcih pa je porazdelitev Y.
81
83
83
81
21
81
82
81
21
81
82
81
01003210x\y
Vpeljemo porazdelitev dveh slučajnih spremenljivk pi,j=p(xi,yj)=P(X=xi, Y=yj)
Možni izidi so {ggg,ggc,gcg,cgg,gcc,cgc,ccg,ccc}, zato dobimo
81
82
81
81
82
81
01003210x\y
Diskretna porazdelitev (X,Y) z gostoto p(xi,yj)
robni porazdelitvi j
jiiX ),yp(x)(xp i
jijY ),yp(x)(yp
Zvezna porazdelitev (X,Y) z gostoto p(x,y)
robni porazdelitvi
p(x,y) dy(x)pX
p(x,y) dx(y)pY
Porazdelitvena funkcija F(x,y)=P(X ≤ x, Y ≤ y)
(X,Y) zvezno porazdeljena
x y
dvp(u,v) du F(x,y)
(x,y)Fp(x,y) xy
Povprečna vrednost vsote slučajnih spremenljivk
E(X+Y)=E(X)+E(Y)
E(a1X1+a2X2+...+anXn)=a1E(X1)+a2E(X2)+...+anE(Xn)
Neodvisnost slučajnih spremenljivk
X in Y sta neodvisni, če je P(X ≤ x, Y ≤ y)=P(X ≤ x).P(Y ≤ y) za vse pare x,y.Ekvivalentno: F(x,y)=FX(x).FY(y), oziroma p(x,y)=pX(x).pY(y).
Primer
81
83
83
81
21
81
82
81
21
81
82
81
01
00
3210y\x
X in Y nista neodvisna(npr. p(1,2)=1/8, pX(1).pY(2)=3/16)
X,Y neodvisna ⇒ E(XY)=E(X).E(Y)
)()()()(
),(),(),()()(
YEXEdyypydxxpx
dydxyxpydxdyyxpxdydxyxpyxYXE
YX
-
)()()()(),()( YEXEdyypydxxpxdydxyxpxyXYE YX
-
Razpršenost vsote slučajnih spremenljivk
D(X+Y)=E((X+Y)2)-E(X+Y)2=
=E(X2+2XY+Y2)-(E(X)+E(Y))2=
=E(X2)+2E(XY)+E(Y2)-E(X)2-2E(X)E(Y)-E(Y)2=
=D(X)+D(Y)+2(E(XY)-E(X)E(Y))
K(X,Y) kovarianca slučajnih spremenljivk X in Y
X,Y neodvisna ⇒ X,Y nekorelirana ⇔ D(X+Y)=D(X)+D(Y)
Primeri
81
83
83
81
21
81
82
81
21
81
82
81
01
00
3210y\x
81
86
87
812
813
832
831
21
87
813
822
811
K(X,Y)
E(Y)E(X)
E(XY)
⇒ X in Y nista neodvisna
X porazdeljena po N(0,1), Y=X2
E(XY)=E(X3)=0 (ker je integrand liha funkcija) E(X)E(Y)=0 (ker je E(X)=0)
X in Y sta odvisna in vendar nekorelirana
X,Y sta nekorelirana, če je K(X,Y)=0
σ(X)σ(Y)K(X,Y)r(X,Y) korelacijski koeficient X in Y
81
83
83
81
21
81
82
81
21
81
82
81
01003210x\y
Primer
2887032
123(3
819
834
831
21(
21
81
812
21
22
.r(X,Y)
Y) σ )Y E(X) σ )E(X
K(X,Y) E(Y)E(X)
12
σ(X)D(X)
σ(X)XD r(X,Y)
σ(X)σ(Y)K(X,Y)
σ(Y)Y
σ(X)XD 22211
razpršenost je vedno ≥ 0 ⇒ r(X,Y) ≥ -1r(X,Y)=-1 ⇒ konst.
σ(Y)Y
σ(X)X
σ(Y)Y
σ(X)XD
0
podobno:
|r(X,Y)| ≤ 1|r(X,Y)| = 1 ⇒ X in Y sta linearno odvisna
1220 r(X,Y) r(X,Y) σ(Y)Y
σ(X)X D
Zakon velikih števil
Pri večjem številu poskusov je odklon od povprečja manj verjeten.
Primer Igralec zadane v povprečju 70% metov na koš. Kaj je bolj verjetno: da bo v 10 metih zadel 10-krat ali v 100 metih več kot 80-krat?
P(10 zadetkov iz 10 poskusov)=0.710=0.028
008803070100100
81
100 .. . kk
kk
P(več kot 80 zadetkov iz 100 poskusov)=
Prva možnost je trikrat (!) bolj verjetna. Zakaj je tako?
Zakoni velikih Zakoni velikih številštevil
X slučajna spremenljivka z gostoto p(x), m=E(X), =(X)
L
σ(X) L ) | P(|X-E(X)2
ocena
Čebiševa(verjetnost znatnega odstopanja od povprečne vrednosti je omejena s standardnim odklonom)
k
σ(X) ) k| P(|X-E(X) 21Druga oblika ocene Čebiševa:
Primer P(|X-E(X)| ≥ 2) ≤ 0.25 ocena velja za poljubno porazdelitev za primerjavo: pri normalni porazdelitvi je P(|X-E(X)| ≥ 2) ≤ 0.05
(X)=0 ⇒ P(X=m)=1 (če je razpršenost enaka 0, je X konstantna)
| |
( )x m L
P(| X - m| L ) p x dx
2
2| |
( ) ( )x m L
x m p x dxL
22
22
1)()(1 L
dxxpmxL
ker na območju velja
1)(2
2
Lmx
Pomen standardnega odklona
Povprečje izidov: nX...XXS n
n
21
n neodvisnih ponovitev nekega poskusa ⇒ izidi so slučajne spremenljivke X1,X2,...Xn neodvisne in enako porazdeljene
npr. kocko vržemo n-krat in za Xk vzamemo število pik pri k-tem metu;
žogo vržemo n-krat, Xk je število zadetkov (0 ali 1) pri k-tem metu.
Porazdelitev spremenljivke Sn je zapletena.
npr. pri metu kocke imamo 5n+1 izidov, z različnimi verjetnostmi pri metu na koš je Sn relativna frekvenca zadetkov, porazdeljena je binomsko
D(X)n
D(X) nn
X...XX Dn
X...XXn
D)D(S nnn1111
221221
Z naraščanjem števila poskusov pada razpršenost povprečja izidov proti 0.
Povprečna vrednost in razpršenost Sn:
X1,X2,...Xn neodvisne (zadošča nekorelirane) in porazdeljene enako kot X
E(X)E(X) nn
X...XX En
X...XXn
E)E(S nnn
1112121
E(Sn)=E(X)
D(X)n
)D(Sn1
Sn = povprečje slučajnih spremenljivk X1,X2,...Xn ,,
ki so nekorelirane in porazdeljene kot X
L
D(X)n
LE(X)SP n 2
1
LE(X)S P nn0lim
zakon velikih števil: z naraščanjem števila poskusov pada verjetnost, da se povprečje spremenljivk razlikuje od njihove povprečne vrednosti proti 0.
Primer Xk = število šestk pri k-tem metu kocke X1+X2+...+Xn = število šestk po n metih kocke Sn = relativna frekvenca šestk po n metih
061
n
n LSP
ocena Čebiševa ⇒
zakon velikih števil ⇒
Kaj se zgodi s porazdelitvijo vsote X1+X2+...+Xn ko gre n → ∞ ?
Primeri Xk neodvisne, diskretno porazdeljene P(Xk=1)=p, P(Xk=0)=1-p
X1+X2+...+Xn je porazdeljena binomsko b(n,p)
Xk neodvisne, enakomerno zvezno porazdeljene na intervalu [0,1] porazdelitev za X1+X2+...+Xn :
Xk neodvisne, zvezno eksponentno porazdeljene z gostoto p(x)=e - x za x ≥ 0 porazdelitev za X1+X2+...+Xn :
Porazdelitve vsote X1+X2+...+Xn zavzamejo zvonasto obliko, vendar jih težko primerjamo ker se ‘premikajo’.
X
poljubna spremenljivka
σ(X)X-E(X)Z
standardizirana spremenljivka 1
0
2
σ(X)D(X)
σ(X)X-E(X)DD(Z)
σ(X)E(X)-E(X)
σ(X)X-E(X)EE(Z)
X1,X2,X3,... neodvisne, enako porazdeljene slučajne spremenljivke;standardiziramo: )X...Xσ(X
)X...X)-E(XX...X(XZn
nnn
21
2121
(x)F(x) F ),N(Zn n 10lim
centralni limitni izrek: standardizirana porazdelitev vsote konvergira proti standardni normalni porazdelitvi
Rešitev: vsoto standardiziramo
PrimerNaj bodo X1,X2,...,X20 rezultati 20 neodvisnih meritev količine m z razpršenostjo D(Xi)=2. Ocenimo verjetnost, da povprečje meritev odstopa od m za več kot polovico standardnega odklona .
Čebišev:20
2201
2 2
2
20 .σσσmSP
Povprečje meritev je S20: E(S20)=m, D(S20)=2/20.
Centralni limitni izrek:
9742023222202
220
20220
22220
2020
.).Φ(Φ
σmSP σmSσP σmSP
02580974201220 ..σmS P
Ocena, ki jo dobimo
iz centralnega limitnega izreka je veliko natančnejša.
StatistikStatistikaaFormulacija
problema: opazujemo neko množico (končno ali neskončno), ki ji pravimo populacija; (npr. prebivalci Slovenije, izdelki neke tovarne, bolniki z neko boleznijo, delnice na borzi) vsak element populacije ima neko merljivo lastnost X; (npr. starost, kakovost izdelka, učinek zdravila, cena delnice)
vrednost X je zaradi nekega razloga (velikost populacije, način ugotavljanja,...) znana le na delu populacije, ki mu pravimo vzorec;
Osnovni problem statistike: Kaj lahko povemo o lastnosti X na podlagi njenih vrednosti na danem vzorcu?
V nekaterih primerih skušamo reprezentativnost doseči z dirigiranim vzorčenjem (npr. onesnaženje običajno merijo na stalnih lokacijah). Obstaja nevarnost, da je takšno vzorčenje pristransko.
Če je vzorec naključno izbran, so vrednosti X na vzorcu slučajna spremenljivka. Enako velja za vse količine (povprečja, standardni odkloni...), ki jih lahko izračunamo iz teh vrednosti.
Idealni vzorec je reprezentativen, tj. značilnosti X na vzorcu se ujemajo z značilnostmi na celotni populaciji. Pri naključnem vzorcu lahko določimo verjetnost, da je reprezentativen.
Omejili se bomo na primere, ko je izbira vzorca povsem naključna. To pomeni, da vzorec izbiramo zaporedoma in pri tem ima vsak element populacije enako verjetnost, da se znajde v vzorcu.
Vzorčenje
(gre za izbiro z vračanjem; če je velikost vzorca majhna v primerjavi z velikostjo populacije smemo izbirati brez vračanja)
Populacijski parametri:
velikost populacije: N
vrednosti X na populaciji: x1,x2,...,xN
N
kkx
N 1
1
populacijsko povprečje:
mxN
σN
kk
1
22 1
populacijska razpršenost:
Vzorčni parametri:
velikost vzorca: n
vrednosti X na vzorcu: X1,X2,...,Xn
vzorčno povprečje:
n
kkX
nX
1
1
vzorčna razpršenost:
XXn-
sn
kk
1
22
11
Povprečna vrednost in razpršenost vzorčnih parametrov
vzorec velikosti 1:
E(Xk)= populacijsko povprečje
D(Xk)=2 2 populacijska razpršenost
μ )E(Xn
Xn
E)XE(n
kk
n
kk
11
11
nσ)X, σ
nσ)XD( (
2
vzorec velikosti n:
korekcijski faktor za primer relativno velikega vzorca
(enostavno vzorčenje)
μ )XE(
111
1
22
N-n--
nσ
N-N-n
nσ)XD(
nσ)D(X
nX
nD)XD(
n
kk
n
kk
2
12
1
11
(vzorčenje z vračanjem)
XXn
En
kk
1
21Izračun
22
2222
2222
μnσ)XE()XD()XE(
μσ)E(X)D(X)E(X kkk
)XE()E(Xn
XXn
En
kk
n
kk
2
1
2
1
2 11
2
1
22
11
2
1
22
1
2 1121211 XXn
XXn
XXn
XXXXn
XXn
n
kk
n
kk
n
kk
n
kkk
n
kk
Povprečna vrednost količine na množici vseh vzorcev ni enaka 2. Pravimo, da gre za pristransko oceno populacijske razpršenosti.
XXn
n
kk
1
21
E(s2)= 2
222
22 1 σn
n μnσμσ
XXn
sn
kk
1
22
11
Pri dovolj velikih vzorcih je razlika zanemarljiva, pri majhnih vzorcih pa ne, zato kot mero vzorčne razpršenosti vzamemo
Povzetek: vzorčno povprečje je nepristranska ocena za populacijsko povprečje standardni odklon pri tej oceni je ( , kadar je vzorec velik v primerjavi s populacijo) vzorčna razpršenost s2 je nepristranska ocena za populacijsko razpršenost 2
X
111
Nn
nσ n
σ
Opisovanje podatkov in računanje parametrov
rezultati kolokvija
40196848592831302525363941886660573794449098592992556443545287343674618054
0
1
2
3
4
5
6
7
8
9
1-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 81-90 91-100
0
1
2
3
4
5
6
1-5 6-10 11-15 16-20 21-25 26-30 31-35 36-40 41-45 46-50 51-55 56-60 61-65 66-70 71-75 76-80 81-85 86-90 91-95
0
1
2
3
1 11 21 31 41 51 61 71 81 91
16229753
..
sX
95218352
..
sX
93211753
..
sXintervali
dolžine 5
intervali dolžine 10
Običajno tvorimo 10-20 kategorij. Zaželjeno je, da je v večini kategoriji vsaj 5 enot. Pri računanju povprečja in razpršenosti upoštevamo sredine intervalov.
Intervalsko Intervalsko ocenjevanjeocenjevanjeVzorčno povprečje in razpršenost sta približka za populacijsko povprečje in
razpršenost. Primer simulirali smo 10 zaporedij po 100 metov kocke in dobili naslednjo tabelo:1.simulacija
5 5 6 3 2 6 4 6 4 3 5 4 5 4 2 6 6 1 4 2 6 6 5 2 5 4 3 5 1 5 6 6 3 2 2 6 6 6 1 3 3 6 4 1 4 1 3 6 4 1 6 2 1 2 1 4 6 5 3 1 1 4 6 1 4 5 4 6 4 2 3 6 3 3 4 2 6 3 2 6 4 5 3 1 1 4 1 6 1 6 3 5 1 1 1 3 2 2 2 2 2.simulacija 1 4 6 4 5 4 6 2 6 1 4 4 2 4 6 2 1 2 3 6 2 1 3 1 5 2 6 5 1 3 2 1 1 1 5 3 5 3 1 6 5 2 4 5 2 6 1 3 5 4 5 4 1 6 1 6 4 1 2 2 4 4 6 2 5 3 2 3 6 5 2 5 4 5 3 3 1 2 4 2 3 1 2 6 4 4 6 5 4 4 3 4 5 2 3 3 2 6 6 4 3.simulacija 4 5 5 4 6 6 3 5 6 2 2 5 5 4 6 1 6 4 5 5 4 1 5 2 6 3 3 5 5 4 4 2 4 5 4 4 2 6 6 5 2 6 4 4 5 5 6 1 2 5 2 5 6 6 6 3 6 4 4 2 5 1 6 3 4 1 3 5 2 1 3 1 3 5 2 2 2 5 5 4 6 6 4 6 5 3 1 3 6 1 4 5 4 4 5 5 3 2 4 1 4.simulacija 6 1 5 6 4 2 6 5 3 3 4 1 2 3 5 4 2 2 3 6 6 5 2 6 1 1 1 6 2 1 5 1 5 3 4 1 6 2 6 3 2 6 2 6 1 6 6 1 1 2 3 3 5 6 5 2 5 1 1 3 1 6 5 2 1 1 6 1 6 2 6 6 2 5 2 2 5 4 3 6 5 6 4 5 2 6 1 6 4 4 1 1 3 1 3 1 1 5 5 1 5.simulacija 2 3 3 5 5 1 4 4 4 1 6 6 6 4 3 5 6 3 3 5 5 2 3 5 3 3 6 2 5 4 2 4 2 4 2 5 4 5 1 1 2 3 5 4 4 1 4 5 4 4 2 5 2 5 4 5 4 1 3 5 6 4 5 1 1 2 3 4 6 2 5 6 5 1 6 6 5 5 1 4 5 4 6 4 2 5 2 2 5 2 1 2 5 2 4 5 4 2 6 3 6.simulacija 1 4 1 2 3 1 6 1 3 6 6 5 6 1 3 2 2 2 2 2 4 2 2 2 2 6 3 5 5 4 1 2 6 3 2 3 4 1 6 1 5 1 1 4 5 1 1 2 4 1 2 4 1 5 5 4 6 6 5 5 5 1 1 3 2 6 4 1 5 4 1 1 2 5 6 4 6 5 6 4 2 3 4 4 1 3 6 4 5 1 4 1 6 1 3 1 3 3 5 5 7.simulacija 4 2 4 4 2 5 5 2 3 1 1 6 4 3 1 6 6 6 4 1 6 2 4 5 4 5 4 1 5 6 3 2 3 6 4 2 3 4 6 5 1 5 4 4 5 5 2 4 5 1 5 2 2 1 1 3 3 4 2 5 5 2 4 3 3 5 5 3 3 5 2 5 1 1 4 3 5 4 2 2 6 1 4 6 3 5 2 2 2 2 3 6 6 4 6 2 4 3 4 1 8.simulacija 2 6 2 2 5 4 4 1 3 4 5 2 1 6 6 1 5 4 1 1 4 1 6 3 6 5 5 6 5 3 5 1 6 3 1 4 2 1 6 4 3 5 3 4 6 5 2 3 4 3 1 2 3 2 4 1 4 5 1 4 2 6 2 4 2 4 3 6 2 4 3 1 5 5 6 5 1 2 5 2 5 1 1 2 6 3 1 3 6 2 3 5 3 3 6 3 4 1 4 4 9.simulacija 2 5 5 3 2 3 2 1 3 5 3 5 6 6 3 3 2 5 2 3 6 2 2 6 5 4 6 6 3 2 4 2 1 6 5 2 3 2 2 1 1 6 3 1 1 4 1 2 4 2 5 2 5 2 6 4 6 1 3 5 1 5 1 4 4 2 3 5 6 2 2 3 2 4 5 6 3 5 6 4 3 3 2 5 6 3 2 3 3 4 6 1 1 4 2 2 5 1 6 4 10.simulacija 5 5 3 2 6 4 2 4 5 4 1 3 3 4 1 3 4 1 6 4 1 1 4 6 3 5 1 2 5 6 4 3 6 3 1 1 6 5 1 1 5 5 3 3 1 2 3 6 4 5 2 6 1 5 2 5 5 2 6 4 4 3 4 1 3 5 6 1 3 3 2 6 4 5 4 5 2 2 1 2 4 3 6 4 2 5 4 3 2 2 5 3 6 2 4 3 4 4 3 5
3.59 1.800 3.47 1.687 3.94 1.605 3.44 1.930 3.68 1.567 3.28 1.789 3.53 1.602 3.43 1.692 3.42 1.668 3.50 1.609
X s
Kolikšna sta povprečna vrednost in standardni odklon pri metu kocke?
...pač pa lahko določimo interval, za katerega je zelo verjetno, da vsebuje iskani populacijski parameter.
Osnovno vprašanje:kako na podlagi vzorčnih parametrov oceniti dejanske populacijske parametre?
(pri metu kocke je teoretično povprečje 3.5, standardni odklon pa 1.707)
Pri numeričnih metodah določimo približek in oceno za napako približka. Dejanska vrednost je nekje na intervalu okoli približka.
Na podlagi vzorca ni mogoče sklepati o parametrih populacije s 100% zanesljivostjo,...
Velja: je normalno porazdeljena; je porazdeljena po N(0,1).
X .n
σ)Xa, σ)XE( (
nσ-aX
95440222 .)Φ(nσ-aXP
%.
nσXa
nσXP 449522
Z več kot 95% verjetnostjo lahko zagotovimo, daje populacijsko povprečje na intervalu .
nσX,
nσX 22
XNa vzorcu velikosti n dobimo vrednosti X1,X2,...,Xn in izračunamo njihovo povprečje
Naj bo količina X normalno porazdeljena na celotni populaciji.Privzemimo, da je standardni odklon znan, povprečje a pa ne.
997203233 .)Φ(nσXa
nσXP
Podobno dobimo:
Z več kot 99.7% verjetnostjo je populacijskopovprečje vsebovano v intervalu .
nσX,
nσX 33
Verjetnost, s katero se iskani parameter nahaja na nekem intervalu je stopnja zaupanja.
Pripadajoči interval je interval zaupanja.
Večja stopnja zaupanja ali večja razpršenost ⇒ potreben je širši interval zaupanja.
Večji vzorec ⇒ zadošča ožji interval zaupanja.
Splošni postopek za določanje intervalaSplošni postopek za določanje intervalazaupanja za populacijski parameter zaupanja za populacijski parameter uu::
1) določimo vzorčni parameter ū, ki je primerni približek za u (npr. za povprečje ali s 2 za razpršenost) 2) določimo porazdelitveni zakon vzorčnega parametra ū (npr. normalni, binomski,...; to je najzahtevnejši korak - praviloma
se omejimo na standardne primere)
3) izberemo stopnjo zaupanja (običajno =95% ali =99%)
4) na podlagi porazdelitve in vrednosti vzorčnega parametra ū na danem vzorcu določimo interval zaupanja [U1,U2] za u, ki pripada izbrani stopnji zaupanja
( tako, da velja P(U1 ≤ u ≤ U2) = ).
X
Primer Na podlagi simulacij določimo intervale zaupanja s 95% stopnjo zaupanja za povprečno število točk pri metu kocke.
1) populacijski parameter je povprečje , približek pa vzorčno povprečje
2) vzorec je sorazmerno velik (n=100), zato smemo privzeti, da je porazdeljen normalno po N(,0.8)
3) pri stopnji zaupanja =95% je rešitev enačbe
P(|Z| ≤ z)=0.95 (oziroma (z)=0.4750)
z0.95=1.96 (preberemo iz tablic)
4) Iz sledi , torej je interval zaupanja
XX
(standardizirano povprečje pa je porazdeljeno po N(0,1))10080.-μXZ
961100 .s-μX
100
961100
961 s.Xμs.-X
100
961100
961 s.X,s.-X
Podobno dobimo z0.99=2.58 in interval
zaupanja na stopnji zaupanja 99% je
100
582100
582 s.X,s.-X
X s 3.59 1.800 [3.237,3.942] [3.125,4.054] 3.47 1.687 [3.139,3.800] [3.034,3.905] 3.94 1.605 [3.625,4.254] [3.495,4.354] 3.44 1.930 [3.061,3.818] [2.941,3.938] 3.68 1.567 [3.372,3.987] [3.275,4.084] 3.28 1.789 [2.929,3.630] [2.818,3.741] 3.53 1.602 [3.215,3.844] [3.116,3.943] 3.43 1.692 [3.098,3.761] [2.993,3.866] 3.42 1.668 [3.092,3.747] [2.989,3.850] 3.50 1.609 [3.184,3.815] [3.084,3.915]
interval zaupanja 95% 99%
100100szX,s-zX
pri 3. poskusu je dejansko povprečje izven 95%-intervala zaupanja in komajda znotraj 99%-intervala zaupanja.
Pri manjših vzorcih in neznanem standardnem odklonu privzetek o normalni porazdeljenosti ni več upravičen. Običajno dobimo za približek porazdelitev, ki je odvisna od velikosti vzorca.
Primer Količina X je porazdeljena normalno po N(a,), pri čemer sta oba parametra neznana. Dobiti želimo interval zaupanja za populacijsko povprečje a.
Dan je vzorec velikosti n: parameter a ocenimo z , parameter 2 pa z s2 in tvorimo novo spremenljivko
Velja: T je porazdeljena po t.im. Studentovem zakonu S(n-1) Nadaljevanje je kot prej: za izbrano stopnjo zaupanja iz tabel določimo t,, da velja
P(|T| ≤ t)= Interval zaupanja za a na stopnji zaupanja je
X
ns-aXT
nstX,
ns- tX αα
Studentova porazdelitev S(n-1) ima gostoto 22
11
n-
n n-xkp(x)
...... .
)x(): p(x)S(
)x(): p(x)S(
)x(π): p(x)S(
25
2
23
2
2
3
363
2
12
111
S(1) S(2) S(3) S(4) ... N(0,1)
Tabela majhnih vrednosti porazdelitve S(n):
parameter n(‘stopnje prostosti’)
mejna vrednost na stopnji zaupanja 1- ( P(|T| ≤ t)=1- )
95% 99%
Porazdelitvena gostota ni simetrična,zato za izbrano stopnjo zaupanja poiščemo 2
a in 2b , da velja
P( 2 ≤ 2a )=P( 2 ≥ 2
b )=1-/2
⇒ P(2a ≤ 2 ≤ 2
b )=
2a 2
b
Intervalska ocena za standardni odklon pri normalni porazdelitvi
2
22 1
σs)(nχ Populacijsko razpršenost 2 primerjamo z vzorčno s2:
Velja: 2 je porazdeljena pozakonu ‘hi-kvadrat’ 2(n-1)
2
2
2
2 11
ab χsn,
χsnInterval zaupanja za 2 na stopnji zaupanja je
.....
ex): p(x)(χ
exπ
): p(x)(χ
e): p(x)(χ
xe
π): p(x)(χ
x-
x-
x-
x-
22
22
22
22
414
213
212
211
Hi-kvadrat porazdelitev 2(n) ima gostoto (x > 0) 21
2x-n
n exk p(x)
Za velike n (n > 30) je ), N( n- -χ 10122 2
mejna vrednost 2
( P( 2 ≥ 2 )= )
Tabela majhnih vrednosti porazdelitve 2(n)
parameter n(‘stopnje prostosti’)
PreskuPreskušanje statističnih domnevšanje statističnih domnev
Statistična domneva je trditev o porazdelitvenem zakonu slučajne spremeljivke, ki jo želimo potrditi ali ovreči na podlagi vrednosti, ki jih zavzame na nekem vzorcu.
parametrične domneve
(trditve o parametrih znanega porazdelitvenega zakona, npr. Poissonovo porazdeljena spremenljivka ima povrečje a)
neparametrične domneve(trditve o naravi porazdelitvenega zakona, npr. spremenljivka je normalno porazdeljena)
Domneva je enostavna, če v celoti določa porazdelitev (tip in parametre), sicer pravimo, da je sestavljena.
(npr. če H0 trdi, da je porazdelitev Poissonova z neznanim parametrom - H1 pa, da ni Poissonova, sta obe sestavljeni)
Omejili se bomo na nekaj značilnih primerov preskušanja parametričnih domnev, ko je vsaj ničelna domneva enostavna.
primerjamo dve domnevi:
H0: ničelna domneva in H1: alternativna domneva
(npr. H0 trdi, da porazdelitev ustreza zakonu P(2), H1 pa, da ustreza zakonu P(3.5))
Primer
Leta 2003 je bilo v Sloveniji 17321 živorojenih otrok, od tega 8930 dečkov in 8391 deklic. Zanima nas, ali so te številke v nasprotju s privzetkom, da je rojstvo dečka enako verjetno kot rojstvo deklice.
Izberemo majhno število (npr. 0.05 ali 0.01) in poiščemo kritično vrednost c,da je pri pogoju p=0.5 verjetnost P(X > c)=.
Za slučajno spremenljivko X vzamemo število rojstev dečkov. Privzeti smemo, da je X porazdeljena po binomskem zakonu b(n,p).
Za H0 vzamemo enostavno domnevo, da je pri tem p=0.5, za alternativo H1 pa sestavljeno domnevo, da je p > 0.5.
Če je število dečkov večje od c, bomo H0 zavrnili, v nasprotnem primeru pa ne.
je značilnost preskusa
.c ..
.c ..
.cΦ
..
.cΦ)cP(X)cP(X
...
...
587686518065
586604508065
58660
0508065
586602111
050050050
050050050
Binomsko porazdelitev b(17321,0.5) aproksimiramo z N(a,), kjer je a=17321.0.5=8660.5, 2=17321.0.5.(1-0.5)=4330.25 in =65.80. Za značilnost preskusa vzamemo =0.05.
Ker je dejanska vrednost (8930) večja od c0.05, ničelno domnevo zavrnemo.
Pri 1% značilnosti preskusa bi dobili c0.01=8813.5, torej bi domnevo zavrnili tudi pritem ostrejšem preskusu.
Enostavna parametrična domneva u=u0 ima tri alternativne parametrične domneve:
u > u0
u < u0
u ≠ u0
Za prvo in drugo alternativo pravimo, da sta enostranski, za tretjo pa, da je dvostranska.
u0 c
sprejmemo zavrnemo
c u0
zavrnemo sprejmemo
c1 u0 c2
zavrnemo sprejmemo zavrnemo
Primer Pri preskušanju trdnosti nekega materiala je smiselna enostranska alternativa, saj nas ne moti, če je le-ta trdnejši kot pričakujemo. Pri preskušanju odstopov velikosti vijaka glede na matico pa raje oblikujemo dvostransko alternativo.
Z porazdeljena po N(0,1) - kako določimo c?
2
1211 αc Φ cΦ )cZP()cZP(α αααα
-αc Φ cΦ )cP(Z)cP(Zα αααα 21
2111
21
21
αc Φ cΦ)cP(Zα ααα
Podobno ravnamo pri drugih preskusih. Pri t-testu tvorimo in upoštevamo, da je T porazdeljen po zakonu S(n-1).
Kritične vrednosti za dvostranski poskus pri značilnosti so v (n-1)-vivrstici in stolpcu, ki ustreza .
Kritične vrednosti za enostranski poskusa pa so v stolpcu, ki ustreza .
ns-aXT
2α
dvostranski preskus:
enostranski preskus:
Primer Povprečje 10 meritev gostote neke snovi nam je dalo 1.35 g/cm3, čeprav bi teoretično pričakovali gostoto 1.2 g/cm3. Na podlagi izkušenj vemo, da je pri tovrstnem merjenju standardna napaka =0.25g/cm3. Ali na podlagi tega lahko zavrnemo H0( =1.2 g/cm3)? Značilnost preskusa naj bo 5%.
1.) H1( ≠1.2) (dvostranski preskus)
89110250
21351 ..
..nσ-ρXZ
. c .cΦ .. 9614750 050050 Ničelne domneve ne zavrnemo.(testna vrednost je manjša od kritične)
2.) H1( > 1.2) (enostranski preskus) . c .cΦ .. 651450 050050 Ničelno domnevo
zavrnemo.(testna vrednost je večja od kritične)
Pri sestavljeni alternativi lahko manj verjetni del alternative zmanjša možnost za izključitev ničelne domneve.
Odvisna vzorca Bolnik Število dodatnih ur spanja
X (zdravilo A) Y (zdravilo B) 1 1.9 0.7 2 0.8 -1.6 3 1.1 -0.2 4 0.1 -1.2 5 -0.1 -0.1 6 4.4 3.4 7 5.5 3.7 8 1.6 0.8 9 4.6 0.0 10 3.4 2.0
PrimerNa bolnikih so preskušali vpliv dveh zdravil (A in B) proti nespečnosti. Ali lahko na podlagi podatka o dodatnem številu ur spanja sklepamo o tem, da je eno zdravilo bolj učinkovito od drugega?Privzemimo, da imamo rezultate vpliva obeh zdravil na istih bolnikih. (parni t-test)
Tvorimo razliko Z=X-Y, za katero se izkaže, da je porazdeljena po Studentovem zakonu S(n-1).Primerjamo H0(a=0) proti H1(a≠0).
Z Z2 1.2 1.44 2.4 5.76 1.3 1.69 1.3 1.69 0.0 0.00 1.0 1.00 1.8 3.24 0.8 0.64 4.6 21.16 1.4 1.96
15.8 38.58
231511
5812 .,
.
s.sZ
06410231
0581 ..
.
t
0642620250 ... t
Pri 95% stopnji zaupanja domnevo, da sta zdravili enakovredni zavrnemo.
PrimerKovanec vržemo 50 krat in 29-krat dobimo cifro. Ali lahko sklepamo, da je kovanec popačen?
Imamo vzorec x1,...,xn in nas zanima ali smemo sklepati, da je populacija porazdeljena po nekem zakonu F(x) ?
To je primer naslednjega splošnega problema:
Lotimo se ga takole:
1. Realno os razdelimo na intervale I1,...,IK tako, da vsak vsebuje vsaj 5 elementov vzorca. Število vzorcev na intervalu Ik označimo z bk.2. Ob privzetku, da je porazdelitev populacije F(x) izračunamo teoretično število vzorcev na intervalu Ik in ga označimo z ek.
K
k k
kk
eebχ
1
220
)(3. Izračunamo deviacijo Dejstvo: 0
2 je porazdeljena po zakonu 2(K-1).
4. Za izbrano stopnjo značilnosti določimo 2 iz enačbe P( 2 ≥ 2
)= Domnevo zavrnemo, če je 0
2 ≥ 2
V našem primeru postavimo grb=0, cifra=1 in vzamemo intervala I1=(-∞,0.5] in I1=(0.5,+∞).
Dobimo: b0=21, b1=29, e0=e1=25 in 02 = 16/25+16/25=1.28
Za 2(1) in pri stopnji značilnosti =5% je mejna vrednost 2 =3.841, zato
domneve, da je kovanec pošten ne zavrnemo.
Koliko cifer bi morali dobiti pri 50 metih, da bi lahko na 5% stopnji značilnosti zavrnili domnevo o poštenosti kocke?
Odstop označimo z a in rešimo a2/25+a2/25>3.841, kar nam da a ≥ 7. To pomeni, da bi pri 32 cifrah ali več zavrnili domnevo o poštenosti kocke.
Na stopnji značilnosti 1% pa bi jo zavrnili pri 35 cifrah ali več.
G. Mendel je pri enem svojih znamenitih poskusov dobil 355 rumenih in 123 zelenih grahov. Ali je to v skladu z domnevo, da je razmerje med rumenimi in zelenimi 3:1?
Za konec…