Download pdf - Emneopgave - Sandsynlighedsregning - Statistik

Sandsynlighedsregning - Statistik

Nicolaj Gautier Schmit hh3a - ZBC

10. maj 2011

Indhold

1 Introduktion 2

2 Kombinatorik 4

3 Diskret stokatisk variabel 7

4 Binomialfordeling 17

5 Kontinuert stokastisk variabel 23

6 Normalfordeling 27

7 Sandsynlighedspapir 29

1

1 Introduktion

For det første skal vi være klar over hvad der forstås ved statistik & sandsynlighedsregning.

Til dette vil vi starte med et eksempel der forklarer nogle af de grundlæggende begreber.

Lad os have et terningskast som eksempel.

Et kast med en seks-sidet fair terning vil have 6 forskellige mulige udfald (u) og kan antage

værdierne

1, 2, 3, 4, 5, 6

Dette er altså de forskellige udfald som kan hænde når man kaster med en terning.

At terningen er fair betyder at der er lige stor sandsynlighed for hvert udfald og altså vil

sandsynligheden for at vi slår en etter være 16, da der er 6 mulige udfald. Dette kan skrives som

P (1) = 16, altså sandsynligheden (P) for at vi slår en etter er 1

6. Ligeledes vil sandsynligheden

for P (2) = 16, P (3) = 1

6osv.

Det kan vi opskrive i et skema

u u1 = 1 u2 = 2 u3 = 3 u4 = 4 u5 = 5 u6

P (u) 16

16

16

16

16

16

Man taler også om et udfaldsrum, og i eksemplet med terningen vil udfaldsrummet være

U = {1, 2, 3, 4, 5, 6}

Udfaldsrummet indeholder altså de hændelser der hører til et kast med en terningen.

P (u) angiver i skemaet sandsynligheden (probability) for et udfald u, denne kaldes også

for en sandsynlighedsfunktion.

Vi kan observere ud fra skemaet, at

P (u1) + P (u2) + ...+ P (u6) =16+ 1

6+ ...+ 1

6= 1

Altså er den samlede sandsynlighed 1 (eller 100%). Dette leder os hen til vores første grundlæggende

de�nition inden for sandsynlighedsregning.

De�nition - Endeligt udfaldsrum

Der gælder for et udfaldsrum U = {u1, u2, .., un} med et endeligt antal udfald u1, u2, .., un,

hvor P er en sandsynlighedsfunktion, der angiver sandsynligheden P (ui) til ethvert udfald ui

i U , at

1. 0 ≤ P (ui) ≤ 1 for ethvert udfald i ui i U , altså ui ∈ U

2.n∑

i=1

P (ui) = P (u1) + P (u2) + ...+ P (un) = 1

Altså gælder der for et udfald i et endeligt udfaldsrum at sandsynligheden vil være et tal i

intervallet [0; 1], og at summen af de enkelte udfalds sandsynligheder er 1.

Samtidigt skal gælde at udfaldene er disjunkte, altså at udfaldene gensidigt udelukker hinan-

den, dvs hvis et udfald hænder så kan et andet udfald ikke også hænde i samme forsøg.

2

Det er dog ikke altid at vi kun ønsker at bestemme hvad sandsynligheden er for netop ét

udfald i udfaldsrummet men derimod �ere. Dette kalder vi en hændelse og betegnes med A.

Et eksempel på dette kunne være at vi ønskede at bestemme sandsynligheden for at slå et

lige antal øjne i et terningkast. Hændelsen ville da være

A = {2, 4, 6}

Sandsynligheden vil da kunne bestemmes ved

P (2) + P (4) + P (6) = 16+ 1

6+ 1

6= 3

6= 1

2

Et enkelt udfald kan dog også betegnes som en hændelse, dette kunne være at slå en sekser

A = {6}

Stokastisk forsøg

Eksemplet med terningen er det der kaldes et stokastisk forsøg. At et forsøg er stokastisk

betyder at man ikke nødvendigvis får det samme udfald hver gang man udfører forsøget,

med andre ord kan vi ikke forudsige hvad udfaldet bliver når vi kaster terningen da det er

tilfældigt. Modsætningen til et stokastisk forsøg er det der kaldes et deterministisk forsøg.

Dette er et forsøg der får det samme udfald hver gang det udføres og man vil derfor kunne

forudsige resultatet af forsøget.En sandsynlighed handler altså om at bestemme hvor stor chance der er for at en hændelse

i et udfaldsrum hænder. Der gælder at i et stokastisk forsøg at frekvensen vil nærme sig

sandsynligheden når n går mod uendeligt.

Et eksempel på dette kunne igen være kast med terning. Lad os forestille os at 12 forskellige

personer gentager et forsøg hhv. 60, 300 og 600 gange og tæller antallet af seksere.

I forsøgene i eksemplet, kunne intervallet hvori frekvenserne ligger i, være

60 kast: [0, 100; 0, 267]

300 kast: [0, 127; 0, 193]

600 kast: [0, 150; 0, 182]1

Sammenhængen er altså, at jo �ere gentagelser af forsøget jo smallere bliver intervallet som

frekvenserne ligger i, og at de går mod en værdi, her 16= 1, 6667 og denne kaldes for sandsyn-

ligheden.

1tal taget fra eksempel i Statistik C s. 8-9 af Simon Nitschky Schmidt

3

2 Kombinatorik

Dette handler om �ere forskellige ting.

Det første vi vil beskæftige os med er det der kaldes en valgprocess. Her vil vi bestemme

antallet af måder hvorpå en række uafhængige valg, der igen består af delvalg, kan foretages.

Sætning 1

Lad A og B være to mængder ved en valgprocess. Der skal vælges ét element a fra en mængde

A og ét element fra en mængde B. Mængden A har nA elementer og mængden B har nB

elementer. Det samlede antal (a, b) der kan valges, er da nA · nB.

Et eksempel kunne være at man vælger mellem A = {A1, A2} og B = {B1, B2, B3},dette kan illustreres som

Det samlede antal (a, b) der kan valges er altså

nA · nB = 2 · 3 = 6.

Det næste vi vil se på at hvor mange forskellige måder hvorpå n elementer kan placeres i en

bestemt rækkefølge. Til dette vil vi starte med en de�nition for en fakultet.

De�nition for n!

Lad n være et naturligt tal. Da de�neres n! (n fakultet) ved produktet

n! = n · (n− 1) · (n− 2) · ... · 2 · 1og

0! = 1Liste over fakultetern 0 1 2 3 4 5 6 7 8 9 10

n! 1 1 2 6 24 120 720 5040 40320 362880 3628800Et simpelt eksempel hvor man benytter fakulteter er ved udvælgelser uden tilbagelægninger.

Et eksempel kunne være i bingo hvor der udvælges et tal ad gangen. Da vil det samlede antal

rækkefølger som numrene kan udvælges i være

4

90 · 89 · 88 · ... · 2 · 1

Da der efter det første tal da kun vil være 89 numre tilbage der kan vælges, og efter to træk

vil der være 88 osv.

Altså det samme som 90!

Vi vil nu se på det der kaldes kombinationer og permutationer som betyder �ombytning

af rækkefølgen�.

Vi ser på et eksempel hvor vi har en 5-mængde A, en mængde der indeholder 5 elementer,

altså A = {1, 2, 3, 4, 5}. Man kunne nu forestille sig at man ønsker at vide på hvor mange

forskellige måder 3 elementer kan udvælges af 5 mængden.

Man ville kunne udvælge

{1, 2, 3} {1, 2, 4} {1, 2, 5} {1, 3, 4} {1, 3, 5} {1, 4, 5} {2, 3, 4}{2, 3, 5} {2, 4, 5} {3, 4, 5}

Dette er også antallet af det der kaldes kombinationer. Altså antallet af muligheder hvorpå

5 elementer kan sammensættes på en delmængde af 3 elementer. Vi tager ikke hensyn til

rækkefølgen, og de 3 tal vi skriver op må altså kun forekomme én gang.

De�nition & sætning - Kombination

Lad A være en n-mængde. dvs. en mængde med n elementer, og lad r ∈ R og 0 ≤ r ≤ n.

En r-kombination på A er da en delmængde af A, som indeholder r-elementer.

Antallet af r-kombinationer på n-mængden A, dvs. antallet af delmængder af A med r ele-

menter, betegnes K(n, r) =

(n

r

)= n!

r!(n−r)!og kaldes en binomialkoe�cient.

Men man kunne også udvælge de samme mængder i forskellige rækkefølge, og da ville

man fx også have

{1, 2, 3} {3, 1, 2} {3, 2, 1} ...

Vi har her de samme elementer der står på forskellige pladser og det er dette der forstås

ved permutationer. Her forekommer de tre tal altså �ere gange i forskellig rækkefølge. Når vi

taler om permutationer så tillægger man altså rækkefølgen betydning.

De�nition & sætning - Permutation

Lad A være en n-mængde, dvs. en mængde med n elementer, og lad r ∈ R så 0 ≤ r ≤ n. En

r-permutation på A er en delmængde af A med r elementer, der står i en bestemt rækkefølge.

Antallet af r-permutationer på n-mængden A, dvs. antallet af delmængder af A med r elemeter

opstillet i en bestemt rækkefølge, er givet ved

P (n, r) = n · (n− 1) · (n− 2) · ... · (n− r + 1) = n!(n−r)!

Fra eksemplet før kan vi altså let bestemme hhv. antal kombinationer og permutationer

ud fra de to formler. Ved beregning fås, at

P (5, 3) = 5 · (5− 1) · (5− 3 + 1) = 5!(5−3)!

= 60

5

og

K(5, 3) =

(5

3

)= 5!

3!(5−3)!= 10

Beviser nu de to formler.

Bevis - Permutation

Vi starter med at forklare at r-permutationer på en n-mængde er givet ved

P (n, r) = n · (n− 1) · (n− 2) · ... · (n− r + 1)

Dette skyldes at vi vi fx skal udvælge r-permutationer på en n-mængde, da vil det første

element kunne være n forskellige elementer. Herefter, da der ingen tilbaglægning er, vil det

andet element kunne være n− 1 forskellige elementer, sådan forstsættes indtil alle elementer

er udvalgt, og der vil der så være n− r elementer tilbage, så det sidste valg må derfor være

n− r + 1 elementer at vælge imellem.

Givet er, altså

P (n, r) = n · (n− 1) · (n− 2) · ... · (n− r + 1)

Vi ganger nu igennem med 1 = (n−r)(n−r−1)·...·2·1(n−r)(n−r−1)·...·2·1

P (n, r) = n · (n− 1) · (n− 2) · ... · (n− r + 1) · (n−r)(n−r−1)·...·2·1(n−r)(n−r−1)·...·2·1

Ganger ind i tælleren

P (n, r) = n·(n−1)·(n−2)...·(n−r+1)·(n−r)(n−r−1)·...·2·1(n−r)(n−r−1)·...·2·1

Benytter nu de�nitionen for hvad vi forstår ved en fakultet, og får det vi ønsked at vise,

nemlig

P (n, r) = n!(n−r)!

�

6

Bevis - Kombination

K(n, r) er antallet af delmængder af Amed r elementer, og disse delmængder med r elementer

kan opskrives i r! rækkefølger (valgprocess). Det samlede antal forskellige rækkefølger må

derfor kunne udtrykkes ved produktet K(n, r) · r! og dette er også det vi forstår ved P (n, r)

, dermed har vi

K(n, r) · r! = P (n, r)

Udnytter at P (n, r) = n!(n−r)!

K(n, r) · r! = n!(n−r)!

Dividerer med r!

K(n, r) = n!r!(n−r)!

�

Eksempel

Vi har i alt 10 kugler; 4 røde og 6 hvide.

Ønsker nu at udvælge 2 røde og 1 hvid kugle.

De røde kugler kan vælges på

K(4, 2) = 4!2!(4−2)!

måder

og hvide kugler kan vælges på

K(6, 1) = 6!1!(6−1)!

måder

Produktet af disse er da4!

2!(4−2)!· 6!1!(6−1)!

= 6 · 6 = 36 (antal gunstige udfald)

Vi ønsker også at bestemme sandsynligheden for at udvælge 2 røde og 1 hvid kugle.

Sandsynligheden = antal gunstige udfald / antal mulige udfald.

Antal mulige udfald er givet ved kombinationerne for delmængden 3 der kan udvælges af de

10. Dette er givet ved K(n, r) = 10!3!·(10−3)!

Sandsynligheden er da givet vedK(4,2)·K(6,1)

K(10,3)=

4!2!(4−2)!

· 6!1!(6−1)!

10!3!·(10−3)!

= 0, 3

Dvs. sandsynligheden for at udvælge 2 røde og 1 hvid af de 10 kugler er 0, 3 eller 30%.

3 Diskret stokatisk variabel

Det næsten vil vil se på er det der kaldes en stokastisk variabel.

Vi har tidligere set på sandsynlighedsfunktionen, eksempelvis hvor stor sandsynlighed der

var for at slå en sekser. Men vi kunne også være interesserede i at vide hvor mange seksere

vil i gennemsnit vil slå i et bestemt antal kast. Fx ville der i teorien komme 6 seksere ved 60

kast med en terning, dette antal kan vi lade den stokastiske variabel X repræsentere.

7

De�nition - Stokastisk variabel

Ved en stokastisk variabel X forstås en funktion ,der til hvert udfald u knytter et tal. Dette

tal betegnes X(u). Dermed er Dm(X) = U og V m(X) består af reelle tal. Værdierne af

X(U) kaldes ofte for x, dvs. x er et reelt tal.

Kendetegnet er altså at X kun kan antage enkeltstående værdier (f.eks. et antal: 0, 1, 2, ..., n)

Den stokastiske funktion, kan forstås som en normal funktion hvor den uafhængige vari-

abel er u er et udfald og den afhængige variabel er et tal x.

u → X → X(u) = x

Den stokastiske variabel X er altså udfaldet af et forsøg, hvor resultatet beskrives ved et

reelt tal x.

De�nition 2

Ved en diskret variabel X forstås en stokastisk variabel, hvis værdier, x, er hele tal. Værdien

af x er altså x ∈ RVi kan altså beskrive udfald i form at et tal, men vi kan også bestemme sandsynligheden

for dette tal. Dette skrive som

P (X = x)

og forstås som �sandsynligheden for, at X har værdien x�.

Eksempel

x x1 = 1 x2 = 2 x3 = 3 x4 = 4 x5 = 5 x6 = 6

P (X = x) 16

16

16

16

16

16

Øverst er beskrevet udfaldene og nederst er sandsynlighederne angivet.

Vi vil gerne udregnes sandsynligheden for at den stokastiske variabel er i et udfald. Fx

P (X = 2) = 16

og betyder at der er 16, 6667% chance for at hændelsen x = 2.

Da vi vælger et bestemt punkt og ikke et interval, kaldes dette for en punktsandsynlighed.

Der gælder også at de samlede punktsandsynligheder antager værdier mellem 0 og 1 og at

summen af dem giver 1.

Eksempel 2

Et andet eksempel kunne være at der til følgende udfald er følgende punktsandsynligheder.

x 0 2 6 7 10 12

f(x) = P (X = x) 0,15 0,05 0,05 0,4 0,25 0,10

F (x) = P (X ≤ x) 0,15 0,2 0,25 0,65 0,9 1

Man kan ligesom i deskriptiv statistik med frekvenserne, afbilde punktsandsynlighederne

i et pindediagram.

8

Desuden har vi i tredje linie opskrevet

P (X ≤ x) denne kaldes fordelingsfunktion eller sumfunktion.

De�nition - Fordelingsfunktion

For en diskret stokastisk variabel X de�nerer vi fordelingsfunktionen eller sumfunktionen ved

F (x) = P (X ≤ x), og værdien bestemmes ved at lægge alle sandsynlighederne samme fra

første observation til og med x.Man kunne også forestille sig at man fx ville bestemme

P (X ≥ 7)

P (X ≥ 7) = 1− P (X = 0) + P (X = 2) + P (X = 6)

P (X ≥ 7) = 1− P (X < 7)

P (X ≥ 7) = 1− P (X ≤ 6)

P (X ≥ 7) = 1− 0, 25 = 0, 75

Fordelingsfunktion kan liges om de summerede frekvens i deskriptiv statistik opskrives i

et trappediagram.

9

Kvartilsættet kan her a�æses

x0,25 = nedrekvartil = 6

x0,50 = median = 7

x0,75 = /ovrekvartil = 10

De�nition - Fraktiler

Ved α% fraktilen forstås det mindste tal x, der opfylder uligheden F (x) ≥ α%. Dette tal

betegnes typisk xα. Om α gælder der: 0 ≤ α ≤ 100.

Vi vil nu bevæge os videre, og se på hvordan man beregner middelværdi (gennemsnit) for

den stokastisk variabel X.

De�nition - Middelværdien

Ved middelværdien eller den forventede værdi af en diskret stokastisk variabel X forstås tallet

µ = E(X) = x1 · P (X = x1) + x2 · P (X = x2) + ... + xn · P (X = xn), hvor x1, ...., xn er de

værdier X kan antage, og f(xi) = P (X = xi)

Bogstavet E står for �expectation� eller �expected value�, altså forventet værdi.

Den forventede værdi kan også skrive som

µ = E(X) =n∑

i=1

xiP (X = xi)

10

De�nition - Varians

Varians af en diskret stokastisk variabel x betegnes σ2 eller var(x)

Variansen �ndes vha.:

(1)

var(X) = σ2 = (x1−µ)2 ·P (X = x1)+(x2−µ)2 ·P (X = x2)+...+(xn−µ)2 ·P (X =

xn)

var(X) = σ2 =n∑

i=1

(xi − µ)2 · P (X = xi)

Variansen kan også, lettere, bestemmes ved

(2)

var(X) = σ2 =

(n∑

i=1

x2i · P (X = xi)

)− µ2

var(X) = σ2 = E(X2)− (E(x))2

Bevis for (2)

Hvor µ er middelværdien.

var(x) =n∑

i=1

(xi − µ)2 · P (X = xi)

(benytter kvadratsætningen (a− b)2 = a2 + b2 − 2ab

var(x) =n∑

i=1

(x2i + µ2 − 2xiµ) · P (X = xi)

Ganger P (X = xi) ind i parentesen

var(x) =n∑

i=1

x2iP (X = xi) + µ2 · P (X = xi)− 2µ · xi · P (X = xi)

Benytter regneregel, atn∑

i=1

ai + bi =n∑

i=1

ai +n∑

i=1

bi

var(x) =n∑

i=1

x2iP (X = xi) +

n∑i=1

µ2 · P (X = xi)−n∑

i=1

2µ · xi · P (X = xi)

Benytter nu regneregel atn∑

i=1

rai =n

r∑i=1

ai hvor r ∈ R

var(x) =n∑

i=1

x2iP (X = xi) +

(µ2 ·

n∑i=1

P (X = xi)

)−(2µ ·

n∑i=1

xi · P (X = xi)

)Da der om summen af sandsynlighederne gælder, at

n∑i=1

P (X = xi)= 1

var(x) =n∑

i=1

x2iP (X = xi) + (µ2 · 1)−

(2µ ·

n∑i=1

xi · P (X = xi)

)

11

Udnytter nu jvf. de�nition, atn∑

i=1

xi · P (X = xi)= µ = E(X)

var(x) =n∑

i=1

x2iP (X = xi) + (µ2 · 1)− (2µ · µ)

Endelig får vi, at

var(x) =n∑

i=1

x2i · P (X = xi) + µ2 − 2µ2

Ergo

E(X2) + µ2 − 2µ2

E(X2)− µ2

E(X2)− (E(X))2 �

De�nition - Spredning

Spredningen eller standardafvigelsen af en stokastisk variabel X betegnes σ er SD(X), og

forstås ved tallet

SD(X) =√var(X) =

√σ2 = σ

Eksempel

Lad to stokastiske variable X og Y beskrive udbyttet af to forskellige investeringer A og

B, hvor

X = afkast i antal mill. kr. ved investering A

Z = a�ast i antal mill. kr. ved investering B

Samt at det er to forskellige typer investeringer, der har følgende punktsandsynligheder.

x 1 2 3 4 5

f(x) = P (X = x) 0,1 0,2 0,4 0,2 0,1og

z 1 2 3 4 5

f(z) = P (Z = z) 0,15 0,3 0,1 0,3 0,15Vi starter nu med at bestemme middelværdien for de to stokastiske variable.

µ = E(X) =n∑

i=1

xi · P (X = xi)

1. µ = E(X) = 1 · 0, 1 + 2 · 0, 2 + 3 · 0, 4 + 4 · 0, 2 + 5 · 0, 1 = 3

2. µ = E(Z) = 1 · 0, 15 + 2 · 0, 3 + 3 · 0, 1 + 4 · 0, 3 + 5 · 0, 15 = 3

Vi kan altså ud fra bestemmelsen af middelværdien se at begge investeringer i gennemsnit

giver et afkast på 3 millioner kr.

12

Vi bestemmer nu variansen og standardafvigelsen til at beskrive hvor spredt observa-

tionerne ligger, standardafgivelsen er med andre ord også et udtryk for den gennemsnitlige

afvigelse fra middelværdien.

Variansen kan udregnes på to måder (men samme resultat), for eksemplets skyld bruges

metode 1 for X og metode 2 for Z.

1. var(X) = σ2 =5∑

i=1

(xi−µ)2 ·P (X = xi) = (1− 3)2 · 0, 1+ (2− 3)2 · 0, 2+ (3− 3)2 · 0, 4+

(4− 3)2 · 0, 2 + (5− 3)2 · 0, 1 = 1, 2

2. var(Z) = σ2 = E(Z2)−(E(z))2 = (12 · 0, 15 + 22 · 0, 3 + 32 · 0, 1 + 42 · 0, 3 + 52 · 0, 15)−32 = 1, 8

Endelig kan standardafvigelsen bestemmes

1. SD(X) = σ = 1, 09545

2. SD(Z) = σ = 1, 34164

Udfra standardafvigelsen kan vi se at der er mindre udsving eller risiko i at investere i A end

i B, selvom de to investeringer havde samme middelværdi.

Lineær transformation af diskret stokastisk variabel

Lad X være en stokastisk variabel med E(X) = µx og var(X) = σ2x samt a, b ∈ R.

Lad Y = aX + b være en lineær transformation af den diskrete stokastiske variabel X, så

gælder

1. Middelværdi: µy = E(Y ) = E(aX + b) = aE(X) + b

2. Varians: σ2y = V AR(Y ) = a2V AR(X)

3. Standardafgivelse: σy = SD(Y ) =√V AR(Y ) = |a| · SD(X)

Dette vil vi nu bevise

13

Bevis

Starter med at bevise (1.)

Opkriver de�nitionen på middelværdien.

µy = E(Y ) =n∑

i=1

yi · P (Y = yi)

Da Y er lineær transformation af X vil P (X = xi) = P (Y = yi), X og Y har altså samme

punktsandsynligheder

µy = E(Y ) =n∑

i=1

yi · P (X = xi)

Indsætter yi = axi + b

µy = E(Y ) =n∑

i=1

(axi + b) · P (X = xi)

Ganger P (X = xi) ind i parentes

µy = E(Y ) =n∑

i=1

axiP (X = xi) + bP (X = xi)

Benytter regel omn∑

i=1

a+ b =n∑

i=1

a+n∑

i=1

b

µy = E(Y ) =n∑

i=1

axiP (X = xi) +n∑

i=1

bP (X = xi)

Benytter reglen omn∑

i=1

rai =n

r∑i=1

ai

µy = E(Y ) = an∑

i=1

xi · P (X = xi) + bn∑

i=1

P (X = xi)

Da der om summen af sandsynlighederne gælder, atn∑

i=1

P (X = xi)= 1

µy = E(Y ) = an∑

i=1

xi · P (X = xi) + b · 1

Udnytter nu jvf. de�nition, atn∑

i=1

xi · P (X = xi)= µ = E(X)

µy = E(Y ) = aµx + b

Endelig har vi, at

E(Y ) = a · E(X) + b �

14

Bevis

Beviset for (2.)

Pr. de�nition gælder, at

σ2y = var(Y ) =

n∑i=1

(yi − µr)2 · P (Y = yi)

Vi har nu at P (X = xi) = P (Y = yi) og yi = axi + b , da Y er lineær transformation af X.

σ2y = var(Y ) =

n∑i=1

(axi + b− µY )2 · P (X = xi)

Jævnfør de�nition kan indsættes at µY = aE(X) + b

σ2y = var(Y ) =

n∑i=1

(axi + b− (aE(X) + b))2 · P (X = xi)

Reducerer

σ2y = var(Y ) =

n∑i=1

(axi − aE(X))2 · P (X = xi)

Sætter a uden for en parentes

σ2y = var(Y ) =

n∑i=1

(a · (xi − E(X))2 · P (X = xi)

Udnytter at (n ·m)2 = n2 ·m2

σ2y = var(Y ) =

n∑i=1

a2 · (xi − E(X))2 · P (X = xi)

Igen bruger vi atn∑

i=1

rai =n

r∑i=1

ai for r ∈ R

σ2y = var(Y ) = a2 ·

n∑i=1

(xi − E(X))2 · P (X = xi)

Anvender nu, at der pr. de�nition om variansen til X gælder, at var(X) =n∑

i=1

(xi −E(X))2 ·

P (X = xi)

Endelig har derfor, at

σ2y = var(Y ) = a2 · var(x) �

15

Bevis

Endelig bevises (3.), ganske simpelt.

Vi ved at

SD(Y ) =√

var(Y )

Indsætter at σ2y = var(Y ) = a2 · var(x)

SD(Y ) =√

a2 · var(x)

Udnytter at√a ·

√b =

√a · b

SD(Y ) =√a2 ·

√var(x)

SD(Y ) = a ·√

var(x)

Da√x ≥ 0 og da a ∈ R, vil

√a = |a|

SD(Y ) = |a| ·√

var(x) �Eksempel

Lad den stokastiske variabel X være antal solgte enheder pr. uge

x 0 2 4 5 8 14

f(x) = P (X = x) 0,l0 0,10 0,15 0,20 0,20 0,25

Vi starter med at bestemme middelværdi, varians og standardafvigelse.

Middelværdi

µx = E(X) = 0 ∗ 0, 1 + 2 ∗ 0, 2 + 4 ∗ 0, 15 + 5 ∗ 0, 2 + 8 ∗ 0, 2 + 14 ∗ 0, 25 = 6, 9

Varians

σ2x = var(x) = 02 ∗0, 1+22 ∗0, 2+42 ∗0, 15+52 ∗0, 2+82 ∗0, 2+142 ∗0, 25−6, 92 = 21, 99

Standardafvigelse

σx =√

var(x) =√21, 99 = 4, 68935

Lad nu den stokatiske variabel Y, der angiver den samlede fortjeneste om ugen, være givet

ved

Y = 1200X − 3000

Vi kan nu bestemme den forventede fortjeneste pr. uge ved at bestemme µy

µy = E(Y ) = 1200 · 6, 9− 3000 = 5280

Variansen og standardafvigelsen kan også bestemmes

1. Variansen: σ2y = V AR(Y ) = 12002 · 21, 99 = 31.665.600

2. Standardafvigelsen: σy = SD(Y ) =√31665600 = |1200| · 4, 68935 = 5627, 22

Den forventede fortjeneste pr. uge vil altså være på 5.280 kr. mens den gennemsnitlige

afvigelse vil være på 5.627,22 kr.

16

4 Binomialfordeling

Vi vil nu beskæftige os med den specielle diskrete stokastiske variabel: binomialfordelingen.

Det viser sig nemlig at man i tilfælde under særlige forudsætninge kan beregne de sandsyn-

ligheder vi havde opgivet i det foregående, uden overhovedet at udføre forsøget.

De forudsætninger der skal være opfyldt for at et forsøg/eksperiment er binomialfordelt

er beskrevet ved

De�nition for binomialfordelingen

Lad X være en diskret stokastisk variabel de�neret ved:

X = antal gange en hændelse indtræ�er

Hvis

1. Der i hvert forsøg er to mulige hændelser A1 og A2 og hvor P (A1) + P (A2) = 1

2. Sandsynligheden for A1 er konstant fra forsøg til forsøg, altså P (A1) = p er konstant.

3. Hændelserne er stokastisk uafhængighed mellem hvert forsøg.

4. Førsøget højst kan udføres et endeligt antal gange.

Da kaldes X er binomialfordelt med sandsynlighedsparameter p og antalparameter n. Dette

kan skrives som

X ∼ b(n; p) hvor x = 0, 1, 2, ..., n

Hvis disse forudsætninger er opfyldt vil der altså være tale om en binomialfordeling, og

dennes punktsandsynligheder vil da kunne bestemmes ved

Punktsandsynligheder for binominalfordelingen

Lad X ∼ b(n, p) hvor x = 1, 2, 3, ...., n

Så kan punktsandsynligheden P (X = x) bestemmes ved

f(x) = P (X = x) = K(n, x) · px(1− p)n−x =

(n

x

)· px(1− p)n−x = n!

x!(n−x)!· px(1− p)n−x

17

Bevis

Indfører den stokastiske variabel

X = �antallet af gange en hændelse S indtræ�er�

Da X er binominaltfordelt haves, at

S = �succes�: P (s) = p

F = ��asko�: P (F ) = 1− p

Betragter nu hændelsenX = x

Ved at gennemføre forsøget n gange indtræ�er S altså x gange.

En af disse sekvenser kunne eksempelvis være

FSS....FS︸︷︷︸n fors/og

S optræder altså x gange og F optræder n− x gange da forsøget udføres n gange i alt.

Dermed fås sandsynligheden for netop dette udfald til at

P (FSS...FS) = P (F ) · P (S) · P (S) · ... · P (F ) · P (S)

Dette kan også skrive som

P (FSS...FS) = (1− p) · p · p · ... · p(1− p)

Da S optræde x gange og F optræder n− x gange kan vi reducere til

P (FSS...FS) = px · (1− p)n−x

Da K(n, x) angiver det samlede antal måder at udvælge x elementer (S) på n pladser fås

samlet, at

P (X = x) = px · (1− p)n−x + ...+ px · (1− p)n−x︸︷︷︸K(n,x) led

P (X = x) = K(n, x) · px · (1− p)n−x =

(n

x

)· px · (1− p)n−x = n!

x!(n−x)!· px(1− p)n−x

Dermed er det ønskede vist.Eksempel

Lad X ∼ b(15; 0, 20)

hvor X = �antal fejlfrie besvarelser�

Vi kan nu bestemme sandsynligheden for at det er netop 3 fejlfrie besvarelser.

P (X = x) = 15!3!(15−3)!

· 0, 153 · (1− 0, 15)15−3 = 0, 2501 = 25, 01%

Eller 4 fejlfrie besvarelser

P (X = x) = 15!4!(15−4)!

· 0, 154 · (1− 0, 15)15−4 = 0, 1876 = 18, 76%

På TI-89 kan benyttes funktionen �binompdf(n; p;x)�

For at �nde netop 3 eller 4 fejlfrie besvarelser indtastes hhv.

binompdf(15; 0, 20; 3) = 0, 2501

binompdf(15; 0, 20; 4) = 0, 1876

Vi kunne også ønske at bestemme P (X ≤ 5) , altså hvad sandsynligheden er for at der

er 5 eller færre antal fejlfrie besvarelser. Dette svarer altså til at summere sandsynligheden

for P (X = 0) + P (X = 1) + ... + P (X = 5) , dette er et større udregningsarbejde. I stedet

18

kan vi benytte lommeregneren til at bestemme det for os.

På TI-89 kan benyttes funktionen �binomcdf(n; p; x)� (fordelingfunktion) for at bestemme

P (X ≤ x)

binomcdf(15; 0, 20; 5) = 0, 9389 = 93, 89%

Der er altså 93,89% sandsynlighed for at der er 5 fejlfrie besvarelser eller derunder.

Denne funktion kan ved en lille omskrivning også bestemme hvis vi ønsker at bestemme

fx hvad sandsynligheden er for at der er minimum 4 fejlfrie besvarelser. P (X ≥ 4)

Vi kan ikke direkte beregne dette med fordelingsfunktionen da vi skal bestemme for X

større end eller lig med 4, derfor må vi lave følgende omskrivning:

P (X ≥ 4) + P (X < 4) = 1

P (X ≥ 4) = 1− P (X < 4)

P (X ≥ 4) = 1− P (X ≤ 3)

Vi har nu et udtryk vi kan bestemme, dette svarer altså til

P (X ≥ 4) = 1− (P (X = 3) + P (X = 2 + P (X = 1) + P (X = 0)))

P (X ≥ 4) = 1− binomcdf(15; 0, 20; 4)

P (X ≥ 4) = 1− 0, 8358 = 0, 1642 = 16, 42%

Endelig kunne vi også forestille os at vi gerne ville vide hvilket antal fejlfrie besvarelser

der er størst sandsynlighed forekommer, eller at vi fx gerne ville bestemme den øvre kvartil

x0,75 altså den mindste x-værdi der opfylder, at F (x) ≥ 75%

Dette kan vi også bruge TI-89 til at bestemme.

Indtast:

� → F1 (y-editor)

Indtast nu hhv.

y1 = binompdf(15; 0, 2, x) og

y2 = binomcdf(15; 0, 2, x)

Herefter indtastes:

� → F5 (table)

Vi kan nu i tabellen a�æse

x = X

y1 = P (X = x)

y2 = P (X ≤ x)

19

Ved a�æsning i y1 (punktsandsynlighed) kan nu a�æses, at det mest sandsynlige udfald

er,

x = 2

Og den øvre kvartil x0,75 kan a�æses i y2 (fordelingsfunktionen).

Denne a�æses til x = 4 da det er den mindste x-værdi der opfylder at F (x) ≥ 75%.

Det er også muligt at bestemme middelværdien i binomialfordelinger, som vi nu vil forklare

nærmere

Middelværdi for binomialfordeling

Lad X ∼ b(n; p)

Da kan vi bestemme middelværdien ved

E(X) = µ = n · pDette vil vi bevise, men først vil vi bevise en hjælpesætning der bruges til bevisførelsen

af middelværdien.

20

Bevis for hjælpesætning

Hjælpesætningen er givet ved(n

r

)= n

r·

(n− 1

r − 1

), r ≥ 1

Dette beviser vi ved, at(n

r

)= n!

r!(n−r)!

Udnytter at n! = n · (n− 1)! og r! = r · (r − 1)! og at n− r = n− 1− (r − 1)(n

r

)= n·(n−1)!

r(r−1)!((n−1)−(r−1))!

Udnytter at abcd

= ac· bd(

n

r

)= n

r· (n−1)!(r−1)!((n−1)−(r−1))!

Vi sætter nu n− 1 = s og r − 1 = t(n

r

)= n

r· s!t!(s−t)!

Hvilket altså er det vi forstår ved binomialkoe�cienten (kombinationer)(n

r

)= n

r·

(s

t

)Da n− 1 = s og r − 1 = t(

n

r

)= n

r·

(n− 1

r − 1

)� (*)

Vi beviser nu middelværdien i en binomialfordeling.

Bevis for middelværdi

Lad X ∼ b(n, p) da er µ = E(X) = n · pDen stokastiske variabel måler antallet af gange noget optræder, derfor er den hele

positive tal.

Bevis

µ =n∑

i=0

xiP (X = xi)

Vi laver en omskrivning, da X er binominalt fordelt da, er X ∼ b(n, p) da er

21

x = 0, 1, 2, ..., n. Altså vil x0 = 0 , x1 = 1 , ... , xn = n vi kan derfor erstatte x'erne

lig med r = 0, 1, 2, ..., n

µ =n∑

r=0

r · P (X = r)

µ = 0 · P (X = r) +n∑

r=1

r · P (X = r)

Vi benytter nu formlen for punktsandsynlighedenn∑

r=1

P (X = r) =n∑

r=1

(n

r

)pr(1− p)n−r

µ =n∑

r=1

r ·

(n

r

)· pr · (1− p)n−r

Vi indsætter nu hjælpesætningen

(n

r

)= n

r·

(n− 1

r − 1

)(*)

µ =n∑

r=1

r · nr

(n− 1

r − 1

)· pr · (1− p)n−r

Vi bruger nu at pr = p · pr−1

µ =n∑

r=1

n

(n− 1

r − 1

)p · pr−1 · (1− p)n−r

Udnytter, at n− r = (n− 1)− (r − 1)

µ =n∑

r=1

n · p

((n− 1

r − 1

)pr−1 · (1− p)(n−1)−(r−1)

)

Anvender, atn∑

i=1

np · ai = npn∑

i=1

· ai hvor n · p ∈ R

µ = n · pn∑

r=1

(n− 1

r − 1

)pr−1 · (1− p)(n−1)−(r−1)

Vi sætter nu r − 1 = s

µ = n · pn−1∑s=0

(n− 1

s

)ps · (1− p)(n−1)−s

Vi sætter nu n− 1 = m

µ = n · pm∑s=0

(m

s

)ps · (1− p)m−s

Udnytter igen formlen for punktsandsynlighedenm∑s=0

P (X = r) =m∑s=0

(m

s

)ps(1−p)m−s

22

µ = n · pm∑s=0

P (X = s)

Da alle sandsynligheder lagt sammen giver en, har vi, atm∑s=0

P (X = s) = 1

µ = n · p · 1

µ = E(X) = n · p

Bemærk at dette gælder for binominalfordelinger og ikke for alle diskrete fordelinger. Da

udnytter at x kun kan antage positive hele tal.

Endelig kan også variansen og standardafvigelsen bestemmes for binomialfordelingen

Varians og standardafvigelse for binomialfordelingen

Lad X ∼ b(n; p).

Da kan vi bestemme varians og standardafvigelse

1. var(X) = σ2 = n · p · (1− p)

2. SD(X) = σ =√

n · p · (1− p)

Eksempel

Lad en binomialtfordelt stokastisk variabel X være givet ved

X ∼ b(20, 18)

Da vil vi hurtigt kunne bestemme middelværdi, varians og standardsafvigelse

1. µ = E(X) = 20 · 18= 2, 5

2. var(X) = σ2 = 20 · 18· (1− 1

8) = 2, 1875

3. SD(X) = σ =√20 · 1

8· (1− 1

8) = 1, 4790

5 Kontinuert stokastisk variabel

Kendetegnet ved en diskret stokastisk variabel var at X kun kan antage enkeltstående værdier

(f.eks. et antal: 0, 1, 2, ..., n), vi vil nu se på kontinuerte stokastiske variable og her behøver

X ikke at antage enkeltstående værdier men kan også kan indeholde værdier der egentligt

ikke kan realiseres. Altså udfald der ikke kan beskrives som et enkelt tal, da der er uendeligt

mange udfald. Et eksempel på dette er ting der kan måles uendeligt præcist som længde,

højde, vægt, styrke.

23

De�nition - Kontinuert stokastisk variabel og tæthedsfunktion

X er en kontinuert variabel, med værdier i intervallet [a; b]

Mens f er en funktion, som kan indtegnes i et sandsynlighedsfelt [a, b] og opfylder

1. f(x) ≥ 0 for alle x ∈ [a; b]

2.b́

a

f(x)dx = 1

f kaldes en tæthedsfunktion for intervallet [a; b] hvis disse betingelser er opfyldt.

Et delinterval [c; d] der ligger i [a; b] kaldes en hændelse og sandsynligheden for at X ligger i

et interval [c; d] er de�neret ved

P (c ≤ X ≤ d) =d́

c

f(x)dx

Vi vil også bruge det der kaldes en fordelingsfunktion, ved den forstås

Fordelingsfunktionen

For en kontinuert stokastisk variabel X er fordelingsfunktionen givet ved F (x) = P (X ≤ x),

og denne kan bestemmes ved

F (t) = P (X ≤ x) =x́

a

f(x)dx , a ≤ x ≤ b, hvor Dm(f) = [a; b]

Altså, arealet mellem f og x-aksen til venstre for t. Den bestemmer sandsynligheden fra

starten til et vilkårligt punktDer hvor kurven er højest er her hvor der er størst sandsynlighed for en observation er

størst. Men y = f(x) angiver ikke sandsynligheder, men i stedet tætheden af observationer

i det område. Ved kontinuerte stokastiske variable benyttes punktsandsynligheden ikke da

sandsynligheden da bestemmes ved at

Eksempel

Et sandsynlighedsfelt bestemt ved intervallet x ∈ [0;π] og en frekvensfunktion (tætheds-

funktion)

f(x) = 12· sin(x)

Vi starter med at bestemme om de to krav betingelser for en kontinuert stokastisk variabel

er opfyldt. Om f(x) ≥ 0 for alle x ∈ [a; b] bestemmes ved at indtegne funktionen, ud fra

grafen kan a�æses at dette er opfyldt.

24

Vi skal nu bestemme omb́

a

f(x)dx = 1 er opfyldt.

Indsætter hvad vi ved og �nder det besteme integral forπ́

0

0, 5sin(x)dx = 1.

π́

0

12sin(x)xdx =

[−1

2cos(x)

]π0= −1

2cos(π)− (−1

2cos(0)) = 1

2− 1

2= 1

Dermed er (2.) også opfyldt og der er altså tale om en kontinuert stokastisk variabel.

Vi kan nu bestemme sandsynligheden for en given delmængde ved at bestemme det

bestemte integral. Eksempelvis kunne vi bestemme P (π4≤ X ≤ π

2)

Ved indsættelse får vi, atπ2́

π4

12sin(x)xdx =

[−1

2cos(x)

]π2π4

= −12cos(π

2)− (−1

2cos(π

4)) = 0, 35

Gra�sk kan det illustreres ved

Sætningen gælder også for uendelige integraler, et eksempel på dette kunne være

f(x) = e−x hvor x ∈ [0,∞[

Indtegner og tjekker om (1.) er opfyldt, da det er en eksponentiel funktion af typen bax

og værdien af a er mindre end 1 er det en aftagende funktion. For denne gælder, at

f(x) > 0.

25

Dm(f) =]−∞;∞[

V m(f) =]0;∞[

Dermed er (1.) opfyldt.

For at bestemme (2.) benyttes her regel fra integralregning, substitution ved integration:

b́

a

f(g(x))g′(x)dx =g(b)´g(a)

f(t)dt = F (g(b))− F (g(a))

Sætter

g(x) = u = −x

g′(x) = dudx

= −1

dx = −du

Bestemmer nye grænser

g(0) = 0

g(∞) = −∞Indsætter∞́

0

e−xdx =−∞́

0

− eudu

∞́

0

e−xdx = [−eu]−∞0

(−e−∞ + e0) = (−e−∞) + 1

−e−∞ + 1−1e∞

+ 1−1∞ + 1

0 + 1∞́

0

e−xdx = 1

Vi har altså at f(x) = e−x hvor x ∈ [0,∞[ altså er en tæthedsfunktion.

26

6 Normalfordeling

Normalfordelingen er modsat binomialfordeling, kontinuert fordelt og er de�neret ved

De�nition - Normalfordelingen

Tæthedsfunktionen for normalfordelingen er givet ved

f(x) = 1σ√2π

· e− 12(x−µ)

σ

2

hvor x ∈ RNormalfordelingen kan også skrives som

X ∼ N(µ;σ)

Funktionen er symmetrisk omkring µog f(x) > 0 for alle x ∈ R da den aldrig rammer x-aksen.Derudover har normalfordelingen den egenskab at de�nitionsmængden går fra minus uen-

deligt til uendeligt, altså Dm(f) =]−∞;∞[

Eksempel

Levetiden for en elektrisk pære er normalfordelt og har hhv. en middelværdi på 300 timer

og en spredning på 25 timer.

Altså X ∼ N(300; 25)

Hvad er sandsynligheden for at pæren kan lyse i:

Mindre end 250 timer

27

Bestemmes ved P (X ≤ 250) = 0, 02275

Der er altså 2, 2% chance for at en elektrisk pære kan lyse i mindre end 250 timer.

Mere end 330 timer

Bestemmes ved P (X ≥ 330) = 1− P (X < 330) = 0, 11507

Der er altså 11, 7% chance for at en elektrisk pære kan lyse i mindre end 250 timer.

Mellem 280 og 320 timer.

28

Bestemmes ved P (280 ≤ X ≤ 320) = 0, 5763

Der er altså 57, 6% chance for at en elektrisk pære kan lyse mellem 280 og 320 timer.

7 Sandsynlighedspapir

Sandsynlighedspapir bruges til at afgøre om en fordelingen er normaltfordelt.

Sætning

Lad X ∼ N(µ;σ). Da er grafen for fordelingsfunktionen F (x) en ret linie når den tagnes på

et sandsynlighedspapir (normalfordelingspapir).

Omvendt gælder også, at hvis en kontinuert stokastisk variabel X, hvor fordelingsfunktionen

er indtegnet på en graf i et sandsynlighedspapir er en ret linie. Da er X normalfordelt.Eksempel

Vi vil se om følgende følgende datamateriale, der angiver påfyldningsvægten for 50 pakninger

med 500 gram fuglefrø, er normaltfordelt.

29

Vægt Antal Pakninger Frekvens f(x) F(x) Summeret frekvens

]448;449] 1 0,02 0,02

]449;450] 2 0,04 0,06

]450;451] 8 0,16 0,22

]451;452] 16 0,32 0,54

]452;453] 14 0,28 0,82

]453;454] 7 0,14 0,96

]454;455] 2 0,04 1

Dette indtegnes nu på vedlagte sandsynlighedspapir.

Som det fremgår af sandsynlighedspapiret kan vi tilnærmelsesvis lave en ret linie gennem

observationerne og jv. vores de�nition er vores talmateriale altså tilnærmelsesvis normal-

fordelt.

På sandsynlighedspapiret kan vi a�æse middelværdien til µ = 451, 6

Vi kan også bestemme standardafvigelsen, da denne også er angivet på sandsynlighedspa-

piret. Vi a�æser værdien ved φ(µ− σ) = 450, 4

Da bestemmes standardafvigelsen til

451, 6− 450, 4 = 1, 2

Altså har observationerne en standardafvigelse på 1,2.

30

Lommeregner

Til bestemmelse af sandsynligheden af et bestemt interval i normalfordlingen bruges funk-

tionen

normalcdf ( nedre grænse , øvre grænse , µ(middelværdi) , σ (standardafvigelse) )

Eksempel på dette kunne være

normalcdf(1400,∞, 1500, 100) = 0, 841345

På TI-89 titanium skrives ∞ på følgende måde

Indtast: �+ CATALOG → ∞normalcdf() kan også benyttes i grafeditoren hvis forskellige øvre grænser skal bestemmes.

Et eksempel kunne være

normalcdf(20, 20 + x, 30, 5) , og vil dermed i �table� give en liste af resultater for forskellige

værdier af x.Andre TI-89 funktioner

Skrives i home

• binompdf - (binomialfordeling punktsandsynlighed)

• binomcdp - (binomialfordeling fordelingsfunktion)

eller Stat/List− editor → F5 →

• B: Binomial Pdf

• C: Binomail Cdf

2nd → MATH → 7 : Probability →

• 1: ! - (fakultet)

• 2: nPr(n,r) - (Permutationer)

• 3: nCr(n,r) - (Kombinationer)

�+ CATALOG → ∞

• ∞ (uendligt)

31