Sandsynlighedsregning - Statistik
Nicolaj Gautier Schmit hh3a - ZBC
10. maj 2011
Indhold
1 Introduktion 2
2 Kombinatorik 4
3 Diskret stokatisk variabel 7
4 Binomialfordeling 17
5 Kontinuert stokastisk variabel 23
6 Normalfordeling 27
7 Sandsynlighedspapir 29
1
1 Introduktion
For det første skal vi være klar over hvad der forstås ved statistik & sandsynlighedsregning.
Til dette vil vi starte med et eksempel der forklarer nogle af de grundlæggende begreber.
Lad os have et terningskast som eksempel.
Et kast med en seks-sidet fair terning vil have 6 forskellige mulige udfald (u) og kan antage
værdierne
1, 2, 3, 4, 5, 6
Dette er altså de forskellige udfald som kan hænde når man kaster med en terning.
At terningen er fair betyder at der er lige stor sandsynlighed for hvert udfald og altså vil
sandsynligheden for at vi slår en etter være 16, da der er 6 mulige udfald. Dette kan skrives som
P (1) = 16, altså sandsynligheden (P) for at vi slår en etter er 1
6. Ligeledes vil sandsynligheden
for P (2) = 16, P (3) = 1
6osv.
Det kan vi opskrive i et skema
u u1 = 1 u2 = 2 u3 = 3 u4 = 4 u5 = 5 u6
P (u) 16
16
16
16
16
16
Man taler også om et udfaldsrum, og i eksemplet med terningen vil udfaldsrummet være
U = {1, 2, 3, 4, 5, 6}
Udfaldsrummet indeholder altså de hændelser der hører til et kast med en terningen.
P (u) angiver i skemaet sandsynligheden (probability) for et udfald u, denne kaldes også
for en sandsynlighedsfunktion.
Vi kan observere ud fra skemaet, at
P (u1) + P (u2) + ...+ P (u6) =16+ 1
6+ ...+ 1
6= 1
Altså er den samlede sandsynlighed 1 (eller 100%). Dette leder os hen til vores første grundlæggende
de�nition inden for sandsynlighedsregning.
De�nition - Endeligt udfaldsrum
Der gælder for et udfaldsrum U = {u1, u2, .., un} med et endeligt antal udfald u1, u2, .., un,
hvor P er en sandsynlighedsfunktion, der angiver sandsynligheden P (ui) til ethvert udfald ui
i U , at
1. 0 ≤ P (ui) ≤ 1 for ethvert udfald i ui i U , altså ui ∈ U
2.n∑
i=1
P (ui) = P (u1) + P (u2) + ...+ P (un) = 1
Altså gælder der for et udfald i et endeligt udfaldsrum at sandsynligheden vil være et tal i
intervallet [0; 1], og at summen af de enkelte udfalds sandsynligheder er 1.
Samtidigt skal gælde at udfaldene er disjunkte, altså at udfaldene gensidigt udelukker hinan-
den, dvs hvis et udfald hænder så kan et andet udfald ikke også hænde i samme forsøg.
2
Det er dog ikke altid at vi kun ønsker at bestemme hvad sandsynligheden er for netop ét
udfald i udfaldsrummet men derimod �ere. Dette kalder vi en hændelse og betegnes med A.
Et eksempel på dette kunne være at vi ønskede at bestemme sandsynligheden for at slå et
lige antal øjne i et terningkast. Hændelsen ville da være
A = {2, 4, 6}
Sandsynligheden vil da kunne bestemmes ved
P (2) + P (4) + P (6) = 16+ 1
6+ 1
6= 3
6= 1
2
Et enkelt udfald kan dog også betegnes som en hændelse, dette kunne være at slå en sekser
A = {6}
Stokastisk forsøg
Eksemplet med terningen er det der kaldes et stokastisk forsøg. At et forsøg er stokastisk
betyder at man ikke nødvendigvis får det samme udfald hver gang man udfører forsøget,
med andre ord kan vi ikke forudsige hvad udfaldet bliver når vi kaster terningen da det er
tilfældigt. Modsætningen til et stokastisk forsøg er det der kaldes et deterministisk forsøg.
Dette er et forsøg der får det samme udfald hver gang det udføres og man vil derfor kunne
forudsige resultatet af forsøget.En sandsynlighed handler altså om at bestemme hvor stor chance der er for at en hændelse
i et udfaldsrum hænder. Der gælder at i et stokastisk forsøg at frekvensen vil nærme sig
sandsynligheden når n går mod uendeligt.
Et eksempel på dette kunne igen være kast med terning. Lad os forestille os at 12 forskellige
personer gentager et forsøg hhv. 60, 300 og 600 gange og tæller antallet af seksere.
I forsøgene i eksemplet, kunne intervallet hvori frekvenserne ligger i, være
60 kast: [0, 100; 0, 267]
300 kast: [0, 127; 0, 193]
600 kast: [0, 150; 0, 182]1
Sammenhængen er altså, at jo �ere gentagelser af forsøget jo smallere bliver intervallet som
frekvenserne ligger i, og at de går mod en værdi, her 16= 1, 6667 og denne kaldes for sandsyn-
ligheden.
1tal taget fra eksempel i Statistik C s. 8-9 af Simon Nitschky Schmidt
3
2 Kombinatorik
Dette handler om �ere forskellige ting.
Det første vi vil beskæftige os med er det der kaldes en valgprocess. Her vil vi bestemme
antallet af måder hvorpå en række uafhængige valg, der igen består af delvalg, kan foretages.
Sætning 1
Lad A og B være to mængder ved en valgprocess. Der skal vælges ét element a fra en mængde
A og ét element fra en mængde B. Mængden A har nA elementer og mængden B har nB
elementer. Det samlede antal (a, b) der kan valges, er da nA · nB.
Et eksempel kunne være at man vælger mellem A = {A1, A2} og B = {B1, B2, B3},dette kan illustreres som
Det samlede antal (a, b) der kan valges er altså
nA · nB = 2 · 3 = 6.
Det næste vi vil se på at hvor mange forskellige måder hvorpå n elementer kan placeres i en
bestemt rækkefølge. Til dette vil vi starte med en de�nition for en fakultet.
De�nition for n!
Lad n være et naturligt tal. Da de�neres n! (n fakultet) ved produktet
n! = n · (n− 1) · (n− 2) · ... · 2 · 1og
0! = 1Liste over fakultetern 0 1 2 3 4 5 6 7 8 9 10
n! 1 1 2 6 24 120 720 5040 40320 362880 3628800Et simpelt eksempel hvor man benytter fakulteter er ved udvælgelser uden tilbagelægninger.
Et eksempel kunne være i bingo hvor der udvælges et tal ad gangen. Da vil det samlede antal
rækkefølger som numrene kan udvælges i være
4
90 · 89 · 88 · ... · 2 · 1
Da der efter det første tal da kun vil være 89 numre tilbage der kan vælges, og efter to træk
vil der være 88 osv.
Altså det samme som 90!
Vi vil nu se på det der kaldes kombinationer og permutationer som betyder �ombytning
af rækkefølgen�.
Vi ser på et eksempel hvor vi har en 5-mængde A, en mængde der indeholder 5 elementer,
altså A = {1, 2, 3, 4, 5}. Man kunne nu forestille sig at man ønsker at vide på hvor mange
forskellige måder 3 elementer kan udvælges af 5 mængden.
Man ville kunne udvælge
{1, 2, 3} {1, 2, 4} {1, 2, 5} {1, 3, 4} {1, 3, 5} {1, 4, 5} {2, 3, 4}{2, 3, 5} {2, 4, 5} {3, 4, 5}
Dette er også antallet af det der kaldes kombinationer. Altså antallet af muligheder hvorpå
5 elementer kan sammensættes på en delmængde af 3 elementer. Vi tager ikke hensyn til
rækkefølgen, og de 3 tal vi skriver op må altså kun forekomme én gang.
De�nition & sætning - Kombination
Lad A være en n-mængde. dvs. en mængde med n elementer, og lad r ∈ R og 0 ≤ r ≤ n.
En r-kombination på A er da en delmængde af A, som indeholder r-elementer.
Antallet af r-kombinationer på n-mængden A, dvs. antallet af delmængder af A med r ele-
menter, betegnes K(n, r) =
(n
r
)= n!
r!(n−r)!og kaldes en binomialkoe�cient.
Men man kunne også udvælge de samme mængder i forskellige rækkefølge, og da ville
man fx også have
{1, 2, 3} {3, 1, 2} {3, 2, 1} ...
Vi har her de samme elementer der står på forskellige pladser og det er dette der forstås
ved permutationer. Her forekommer de tre tal altså �ere gange i forskellig rækkefølge. Når vi
taler om permutationer så tillægger man altså rækkefølgen betydning.
De�nition & sætning - Permutation
Lad A være en n-mængde, dvs. en mængde med n elementer, og lad r ∈ R så 0 ≤ r ≤ n. En
r-permutation på A er en delmængde af A med r elementer, der står i en bestemt rækkefølge.
Antallet af r-permutationer på n-mængden A, dvs. antallet af delmængder af A med r elemeter
opstillet i en bestemt rækkefølge, er givet ved
P (n, r) = n · (n− 1) · (n− 2) · ... · (n− r + 1) = n!(n−r)!
Fra eksemplet før kan vi altså let bestemme hhv. antal kombinationer og permutationer
ud fra de to formler. Ved beregning fås, at
P (5, 3) = 5 · (5− 1) · (5− 3 + 1) = 5!(5−3)!
= 60
5
og
K(5, 3) =
(5
3
)= 5!
3!(5−3)!= 10
Beviser nu de to formler.
Bevis - Permutation
Vi starter med at forklare at r-permutationer på en n-mængde er givet ved
P (n, r) = n · (n− 1) · (n− 2) · ... · (n− r + 1)
Dette skyldes at vi vi fx skal udvælge r-permutationer på en n-mængde, da vil det første
element kunne være n forskellige elementer. Herefter, da der ingen tilbaglægning er, vil det
andet element kunne være n− 1 forskellige elementer, sådan forstsættes indtil alle elementer
er udvalgt, og der vil der så være n− r elementer tilbage, så det sidste valg må derfor være
n− r + 1 elementer at vælge imellem.
Givet er, altså
P (n, r) = n · (n− 1) · (n− 2) · ... · (n− r + 1)
Vi ganger nu igennem med 1 = (n−r)(n−r−1)·...·2·1(n−r)(n−r−1)·...·2·1
P (n, r) = n · (n− 1) · (n− 2) · ... · (n− r + 1) · (n−r)(n−r−1)·...·2·1(n−r)(n−r−1)·...·2·1
Ganger ind i tælleren
P (n, r) = n·(n−1)·(n−2)...·(n−r+1)·(n−r)(n−r−1)·...·2·1(n−r)(n−r−1)·...·2·1
Benytter nu de�nitionen for hvad vi forstår ved en fakultet, og får det vi ønsked at vise,
nemlig
P (n, r) = n!(n−r)!
�
6
Bevis - Kombination
K(n, r) er antallet af delmængder af Amed r elementer, og disse delmængder med r elementer
kan opskrives i r! rækkefølger (valgprocess). Det samlede antal forskellige rækkefølger må
derfor kunne udtrykkes ved produktet K(n, r) · r! og dette er også det vi forstår ved P (n, r)
, dermed har vi
K(n, r) · r! = P (n, r)
Udnytter at P (n, r) = n!(n−r)!
K(n, r) · r! = n!(n−r)!
Dividerer med r!
K(n, r) = n!r!(n−r)!
�
Eksempel
Vi har i alt 10 kugler; 4 røde og 6 hvide.
Ønsker nu at udvælge 2 røde og 1 hvid kugle.
De røde kugler kan vælges på
K(4, 2) = 4!2!(4−2)!
måder
og hvide kugler kan vælges på
K(6, 1) = 6!1!(6−1)!
måder
Produktet af disse er da4!
2!(4−2)!· 6!1!(6−1)!
= 6 · 6 = 36 (antal gunstige udfald)
Vi ønsker også at bestemme sandsynligheden for at udvælge 2 røde og 1 hvid kugle.
Sandsynligheden = antal gunstige udfald / antal mulige udfald.
Antal mulige udfald er givet ved kombinationerne for delmængden 3 der kan udvælges af de
10. Dette er givet ved K(n, r) = 10!3!·(10−3)!
Sandsynligheden er da givet vedK(4,2)·K(6,1)
K(10,3)=
4!2!(4−2)!
· 6!1!(6−1)!
10!3!·(10−3)!
= 0, 3
Dvs. sandsynligheden for at udvælge 2 røde og 1 hvid af de 10 kugler er 0, 3 eller 30%.
3 Diskret stokatisk variabel
Det næsten vil vil se på er det der kaldes en stokastisk variabel.
Vi har tidligere set på sandsynlighedsfunktionen, eksempelvis hvor stor sandsynlighed der
var for at slå en sekser. Men vi kunne også være interesserede i at vide hvor mange seksere
vil i gennemsnit vil slå i et bestemt antal kast. Fx ville der i teorien komme 6 seksere ved 60
kast med en terning, dette antal kan vi lade den stokastiske variabel X repræsentere.
7
De�nition - Stokastisk variabel
Ved en stokastisk variabel X forstås en funktion ,der til hvert udfald u knytter et tal. Dette
tal betegnes X(u). Dermed er Dm(X) = U og V m(X) består af reelle tal. Værdierne af
X(U) kaldes ofte for x, dvs. x er et reelt tal.
Kendetegnet er altså at X kun kan antage enkeltstående værdier (f.eks. et antal: 0, 1, 2, ..., n)
Den stokastiske funktion, kan forstås som en normal funktion hvor den uafhængige vari-
abel er u er et udfald og den afhængige variabel er et tal x.
u → X → X(u) = x
Den stokastiske variabel X er altså udfaldet af et forsøg, hvor resultatet beskrives ved et
reelt tal x.
De�nition 2
Ved en diskret variabel X forstås en stokastisk variabel, hvis værdier, x, er hele tal. Værdien
af x er altså x ∈ RVi kan altså beskrive udfald i form at et tal, men vi kan også bestemme sandsynligheden
for dette tal. Dette skrive som
P (X = x)
og forstås som �sandsynligheden for, at X har værdien x�.
Eksempel
x x1 = 1 x2 = 2 x3 = 3 x4 = 4 x5 = 5 x6 = 6
P (X = x) 16
16
16
16
16
16
Øverst er beskrevet udfaldene og nederst er sandsynlighederne angivet.
Vi vil gerne udregnes sandsynligheden for at den stokastiske variabel er i et udfald. Fx
P (X = 2) = 16
og betyder at der er 16, 6667% chance for at hændelsen x = 2.
Da vi vælger et bestemt punkt og ikke et interval, kaldes dette for en punktsandsynlighed.
Der gælder også at de samlede punktsandsynligheder antager værdier mellem 0 og 1 og at
summen af dem giver 1.
Eksempel 2
Et andet eksempel kunne være at der til følgende udfald er følgende punktsandsynligheder.
x 0 2 6 7 10 12
f(x) = P (X = x) 0,15 0,05 0,05 0,4 0,25 0,10
F (x) = P (X ≤ x) 0,15 0,2 0,25 0,65 0,9 1
Man kan ligesom i deskriptiv statistik med frekvenserne, afbilde punktsandsynlighederne
i et pindediagram.
8
Desuden har vi i tredje linie opskrevet
P (X ≤ x) denne kaldes fordelingsfunktion eller sumfunktion.
De�nition - Fordelingsfunktion
For en diskret stokastisk variabel X de�nerer vi fordelingsfunktionen eller sumfunktionen ved
F (x) = P (X ≤ x), og værdien bestemmes ved at lægge alle sandsynlighederne samme fra
første observation til og med x.Man kunne også forestille sig at man fx ville bestemme
P (X ≥ 7)
P (X ≥ 7) = 1− P (X = 0) + P (X = 2) + P (X = 6)
P (X ≥ 7) = 1− P (X < 7)
P (X ≥ 7) = 1− P (X ≤ 6)
P (X ≥ 7) = 1− 0, 25 = 0, 75
Fordelingsfunktion kan liges om de summerede frekvens i deskriptiv statistik opskrives i
et trappediagram.
9
Kvartilsættet kan her a�æses
x0,25 = nedrekvartil = 6
x0,50 = median = 7
x0,75 = /ovrekvartil = 10
De�nition - Fraktiler
Ved α% fraktilen forstås det mindste tal x, der opfylder uligheden F (x) ≥ α%. Dette tal
betegnes typisk xα. Om α gælder der: 0 ≤ α ≤ 100.
Vi vil nu bevæge os videre, og se på hvordan man beregner middelværdi (gennemsnit) for
den stokastisk variabel X.
De�nition - Middelværdien
Ved middelværdien eller den forventede værdi af en diskret stokastisk variabel X forstås tallet
µ = E(X) = x1 · P (X = x1) + x2 · P (X = x2) + ... + xn · P (X = xn), hvor x1, ...., xn er de
værdier X kan antage, og f(xi) = P (X = xi)
Bogstavet E står for �expectation� eller �expected value�, altså forventet værdi.
Den forventede værdi kan også skrive som
µ = E(X) =n∑
i=1
xiP (X = xi)
10
De�nition - Varians
Varians af en diskret stokastisk variabel x betegnes σ2 eller var(x)
Variansen �ndes vha.:
(1)
var(X) = σ2 = (x1−µ)2 ·P (X = x1)+(x2−µ)2 ·P (X = x2)+...+(xn−µ)2 ·P (X =
xn)
var(X) = σ2 =n∑
i=1
(xi − µ)2 · P (X = xi)
Variansen kan også, lettere, bestemmes ved
(2)
var(X) = σ2 =
(n∑
i=1
x2i · P (X = xi)
)− µ2
var(X) = σ2 = E(X2)− (E(x))2
Bevis for (2)
Hvor µ er middelværdien.
var(x) =n∑
i=1
(xi − µ)2 · P (X = xi)
(benytter kvadratsætningen (a− b)2 = a2 + b2 − 2ab
var(x) =n∑
i=1
(x2i + µ2 − 2xiµ) · P (X = xi)
Ganger P (X = xi) ind i parentesen
var(x) =n∑
i=1
x2iP (X = xi) + µ2 · P (X = xi)− 2µ · xi · P (X = xi)
Benytter regneregel, atn∑
i=1
ai + bi =n∑
i=1
ai +n∑
i=1
bi
var(x) =n∑
i=1
x2iP (X = xi) +
n∑i=1
µ2 · P (X = xi)−n∑
i=1
2µ · xi · P (X = xi)
Benytter nu regneregel atn∑
i=1
rai =n
r∑i=1
ai hvor r ∈ R
var(x) =n∑
i=1
x2iP (X = xi) +
(µ2 ·
n∑i=1
P (X = xi)
)−(2µ ·
n∑i=1
xi · P (X = xi)
)Da der om summen af sandsynlighederne gælder, at
n∑i=1
P (X = xi)= 1
var(x) =n∑
i=1
x2iP (X = xi) + (µ2 · 1)−
(2µ ·
n∑i=1
xi · P (X = xi)
)
11
Udnytter nu jvf. de�nition, atn∑
i=1
xi · P (X = xi)= µ = E(X)
var(x) =n∑
i=1
x2iP (X = xi) + (µ2 · 1)− (2µ · µ)
Endelig får vi, at
var(x) =n∑
i=1
x2i · P (X = xi) + µ2 − 2µ2
Ergo
E(X2) + µ2 − 2µ2
E(X2)− µ2
E(X2)− (E(X))2 �
De�nition - Spredning
Spredningen eller standardafvigelsen af en stokastisk variabel X betegnes σ er SD(X), og
forstås ved tallet
SD(X) =√var(X) =
√σ2 = σ
Eksempel
Lad to stokastiske variable X og Y beskrive udbyttet af to forskellige investeringer A og
B, hvor
X = afkast i antal mill. kr. ved investering A
Z = a�ast i antal mill. kr. ved investering B
Samt at det er to forskellige typer investeringer, der har følgende punktsandsynligheder.
x 1 2 3 4 5
f(x) = P (X = x) 0,1 0,2 0,4 0,2 0,1og
z 1 2 3 4 5
f(z) = P (Z = z) 0,15 0,3 0,1 0,3 0,15Vi starter nu med at bestemme middelværdien for de to stokastiske variable.
µ = E(X) =n∑
i=1
xi · P (X = xi)
1. µ = E(X) = 1 · 0, 1 + 2 · 0, 2 + 3 · 0, 4 + 4 · 0, 2 + 5 · 0, 1 = 3
2. µ = E(Z) = 1 · 0, 15 + 2 · 0, 3 + 3 · 0, 1 + 4 · 0, 3 + 5 · 0, 15 = 3
Vi kan altså ud fra bestemmelsen af middelværdien se at begge investeringer i gennemsnit
giver et afkast på 3 millioner kr.
12
Vi bestemmer nu variansen og standardafvigelsen til at beskrive hvor spredt observa-
tionerne ligger, standardafgivelsen er med andre ord også et udtryk for den gennemsnitlige
afvigelse fra middelværdien.
Variansen kan udregnes på to måder (men samme resultat), for eksemplets skyld bruges
metode 1 for X og metode 2 for Z.
1. var(X) = σ2 =5∑
i=1
(xi−µ)2 ·P (X = xi) = (1− 3)2 · 0, 1+ (2− 3)2 · 0, 2+ (3− 3)2 · 0, 4+
(4− 3)2 · 0, 2 + (5− 3)2 · 0, 1 = 1, 2
2. var(Z) = σ2 = E(Z2)−(E(z))2 = (12 · 0, 15 + 22 · 0, 3 + 32 · 0, 1 + 42 · 0, 3 + 52 · 0, 15)−32 = 1, 8
Endelig kan standardafvigelsen bestemmes
1. SD(X) = σ = 1, 09545
2. SD(Z) = σ = 1, 34164
Udfra standardafvigelsen kan vi se at der er mindre udsving eller risiko i at investere i A end
i B, selvom de to investeringer havde samme middelværdi.
Lineær transformation af diskret stokastisk variabel
Lad X være en stokastisk variabel med E(X) = µx og var(X) = σ2x samt a, b ∈ R.
Lad Y = aX + b være en lineær transformation af den diskrete stokastiske variabel X, så
gælder
1. Middelværdi: µy = E(Y ) = E(aX + b) = aE(X) + b
2. Varians: σ2y = V AR(Y ) = a2V AR(X)
3. Standardafgivelse: σy = SD(Y ) =√V AR(Y ) = |a| · SD(X)
Dette vil vi nu bevise
13
Bevis
Starter med at bevise (1.)
Opkriver de�nitionen på middelværdien.
µy = E(Y ) =n∑
i=1
yi · P (Y = yi)
Da Y er lineær transformation af X vil P (X = xi) = P (Y = yi), X og Y har altså samme
punktsandsynligheder
µy = E(Y ) =n∑
i=1
yi · P (X = xi)
Indsætter yi = axi + b
µy = E(Y ) =n∑
i=1
(axi + b) · P (X = xi)
Ganger P (X = xi) ind i parentes
µy = E(Y ) =n∑
i=1
axiP (X = xi) + bP (X = xi)
Benytter regel omn∑
i=1
a+ b =n∑
i=1
a+n∑
i=1
b
µy = E(Y ) =n∑
i=1
axiP (X = xi) +n∑
i=1
bP (X = xi)
Benytter reglen omn∑
i=1
rai =n
r∑i=1
ai
µy = E(Y ) = an∑
i=1
xi · P (X = xi) + bn∑
i=1
P (X = xi)
Da der om summen af sandsynlighederne gælder, atn∑
i=1
P (X = xi)= 1
µy = E(Y ) = an∑
i=1
xi · P (X = xi) + b · 1
Udnytter nu jvf. de�nition, atn∑
i=1
xi · P (X = xi)= µ = E(X)
µy = E(Y ) = aµx + b
Endelig har vi, at
E(Y ) = a · E(X) + b �
14
Bevis
Beviset for (2.)
Pr. de�nition gælder, at
σ2y = var(Y ) =
n∑i=1
(yi − µr)2 · P (Y = yi)
Vi har nu at P (X = xi) = P (Y = yi) og yi = axi + b , da Y er lineær transformation af X.
σ2y = var(Y ) =
n∑i=1
(axi + b− µY )2 · P (X = xi)
Jævnfør de�nition kan indsættes at µY = aE(X) + b
σ2y = var(Y ) =
n∑i=1
(axi + b− (aE(X) + b))2 · P (X = xi)
Reducerer
σ2y = var(Y ) =
n∑i=1
(axi − aE(X))2 · P (X = xi)
Sætter a uden for en parentes
σ2y = var(Y ) =
n∑i=1
(a · (xi − E(X))2 · P (X = xi)
Udnytter at (n ·m)2 = n2 ·m2
σ2y = var(Y ) =
n∑i=1
a2 · (xi − E(X))2 · P (X = xi)
Igen bruger vi atn∑
i=1
rai =n
r∑i=1
ai for r ∈ R
σ2y = var(Y ) = a2 ·
n∑i=1
(xi − E(X))2 · P (X = xi)
Anvender nu, at der pr. de�nition om variansen til X gælder, at var(X) =n∑
i=1
(xi −E(X))2 ·
P (X = xi)
Endelig har derfor, at
σ2y = var(Y ) = a2 · var(x) �
15
Bevis
Endelig bevises (3.), ganske simpelt.
Vi ved at
SD(Y ) =√
var(Y )
Indsætter at σ2y = var(Y ) = a2 · var(x)
SD(Y ) =√
a2 · var(x)
Udnytter at√a ·
√b =
√a · b
SD(Y ) =√a2 ·
√var(x)
SD(Y ) = a ·√
var(x)
Da√x ≥ 0 og da a ∈ R, vil
√a = |a|
SD(Y ) = |a| ·√
var(x) �Eksempel
Lad den stokastiske variabel X være antal solgte enheder pr. uge
x 0 2 4 5 8 14
f(x) = P (X = x) 0,l0 0,10 0,15 0,20 0,20 0,25
Vi starter med at bestemme middelværdi, varians og standardafvigelse.
Middelværdi
µx = E(X) = 0 ∗ 0, 1 + 2 ∗ 0, 2 + 4 ∗ 0, 15 + 5 ∗ 0, 2 + 8 ∗ 0, 2 + 14 ∗ 0, 25 = 6, 9
Varians
σ2x = var(x) = 02 ∗0, 1+22 ∗0, 2+42 ∗0, 15+52 ∗0, 2+82 ∗0, 2+142 ∗0, 25−6, 92 = 21, 99
Standardafvigelse
σx =√
var(x) =√21, 99 = 4, 68935
Lad nu den stokatiske variabel Y, der angiver den samlede fortjeneste om ugen, være givet
ved
Y = 1200X − 3000
Vi kan nu bestemme den forventede fortjeneste pr. uge ved at bestemme µy
µy = E(Y ) = 1200 · 6, 9− 3000 = 5280
Variansen og standardafvigelsen kan også bestemmes
1. Variansen: σ2y = V AR(Y ) = 12002 · 21, 99 = 31.665.600
2. Standardafvigelsen: σy = SD(Y ) =√31665600 = |1200| · 4, 68935 = 5627, 22
Den forventede fortjeneste pr. uge vil altså være på 5.280 kr. mens den gennemsnitlige
afvigelse vil være på 5.627,22 kr.
16
4 Binomialfordeling
Vi vil nu beskæftige os med den specielle diskrete stokastiske variabel: binomialfordelingen.
Det viser sig nemlig at man i tilfælde under særlige forudsætninge kan beregne de sandsyn-
ligheder vi havde opgivet i det foregående, uden overhovedet at udføre forsøget.
De forudsætninger der skal være opfyldt for at et forsøg/eksperiment er binomialfordelt
er beskrevet ved
De�nition for binomialfordelingen
Lad X være en diskret stokastisk variabel de�neret ved:
X = antal gange en hændelse indtræ�er
Hvis
1. Der i hvert forsøg er to mulige hændelser A1 og A2 og hvor P (A1) + P (A2) = 1
2. Sandsynligheden for A1 er konstant fra forsøg til forsøg, altså P (A1) = p er konstant.
3. Hændelserne er stokastisk uafhængighed mellem hvert forsøg.
4. Førsøget højst kan udføres et endeligt antal gange.
Da kaldes X er binomialfordelt med sandsynlighedsparameter p og antalparameter n. Dette
kan skrives som
X ∼ b(n; p) hvor x = 0, 1, 2, ..., n
Hvis disse forudsætninger er opfyldt vil der altså være tale om en binomialfordeling, og
dennes punktsandsynligheder vil da kunne bestemmes ved
Punktsandsynligheder for binominalfordelingen
Lad X ∼ b(n, p) hvor x = 1, 2, 3, ...., n
Så kan punktsandsynligheden P (X = x) bestemmes ved
f(x) = P (X = x) = K(n, x) · px(1− p)n−x =
(n
x
)· px(1− p)n−x = n!
x!(n−x)!· px(1− p)n−x
17
Bevis
Indfører den stokastiske variabel
X = �antallet af gange en hændelse S indtræ�er�
Da X er binominaltfordelt haves, at
S = �succes�: P (s) = p
F = ��asko�: P (F ) = 1− p
Betragter nu hændelsenX = x
Ved at gennemføre forsøget n gange indtræ�er S altså x gange.
En af disse sekvenser kunne eksempelvis være
FSS....FS︸ ︷︷ ︸n fors/og
S optræder altså x gange og F optræder n− x gange da forsøget udføres n gange i alt.
Dermed fås sandsynligheden for netop dette udfald til at
P (FSS...FS) = P (F ) · P (S) · P (S) · ... · P (F ) · P (S)
Dette kan også skrive som
P (FSS...FS) = (1− p) · p · p · ... · p(1− p)
Da S optræde x gange og F optræder n− x gange kan vi reducere til
P (FSS...FS) = px · (1− p)n−x
Da K(n, x) angiver det samlede antal måder at udvælge x elementer (S) på n pladser fås
samlet, at
P (X = x) = px · (1− p)n−x + ...+ px · (1− p)n−x︸ ︷︷ ︸K(n,x) led
P (X = x) = K(n, x) · px · (1− p)n−x =
(n
x
)· px · (1− p)n−x = n!
x!(n−x)!· px(1− p)n−x
Dermed er det ønskede vist.Eksempel
Lad X ∼ b(15; 0, 20)
hvor X = �antal fejlfrie besvarelser�
Vi kan nu bestemme sandsynligheden for at det er netop 3 fejlfrie besvarelser.
P (X = x) = 15!3!(15−3)!
· 0, 153 · (1− 0, 15)15−3 = 0, 2501 = 25, 01%
Eller 4 fejlfrie besvarelser
P (X = x) = 15!4!(15−4)!
· 0, 154 · (1− 0, 15)15−4 = 0, 1876 = 18, 76%
På TI-89 kan benyttes funktionen �binompdf(n; p;x)�
For at �nde netop 3 eller 4 fejlfrie besvarelser indtastes hhv.
binompdf(15; 0, 20; 3) = 0, 2501
binompdf(15; 0, 20; 4) = 0, 1876
Vi kunne også ønske at bestemme P (X ≤ 5) , altså hvad sandsynligheden er for at der
er 5 eller færre antal fejlfrie besvarelser. Dette svarer altså til at summere sandsynligheden
for P (X = 0) + P (X = 1) + ... + P (X = 5) , dette er et større udregningsarbejde. I stedet
18
kan vi benytte lommeregneren til at bestemme det for os.
På TI-89 kan benyttes funktionen �binomcdf(n; p; x)� (fordelingfunktion) for at bestemme
P (X ≤ x)
binomcdf(15; 0, 20; 5) = 0, 9389 = 93, 89%
Der er altså 93,89% sandsynlighed for at der er 5 fejlfrie besvarelser eller derunder.
Denne funktion kan ved en lille omskrivning også bestemme hvis vi ønsker at bestemme
fx hvad sandsynligheden er for at der er minimum 4 fejlfrie besvarelser. P (X ≥ 4)
Vi kan ikke direkte beregne dette med fordelingsfunktionen da vi skal bestemme for X
større end eller lig med 4, derfor må vi lave følgende omskrivning:
P (X ≥ 4) + P (X < 4) = 1
P (X ≥ 4) = 1− P (X < 4)
P (X ≥ 4) = 1− P (X ≤ 3)
Vi har nu et udtryk vi kan bestemme, dette svarer altså til
P (X ≥ 4) = 1− (P (X = 3) + P (X = 2 + P (X = 1) + P (X = 0)))
P (X ≥ 4) = 1− binomcdf(15; 0, 20; 4)
P (X ≥ 4) = 1− 0, 8358 = 0, 1642 = 16, 42%
Endelig kunne vi også forestille os at vi gerne ville vide hvilket antal fejlfrie besvarelser
der er størst sandsynlighed forekommer, eller at vi fx gerne ville bestemme den øvre kvartil
x0,75 altså den mindste x-værdi der opfylder, at F (x) ≥ 75%
Dette kan vi også bruge TI-89 til at bestemme.
Indtast:
� → F1 (y-editor)
Indtast nu hhv.
y1 = binompdf(15; 0, 2, x) og
y2 = binomcdf(15; 0, 2, x)
Herefter indtastes:
� → F5 (table)
Vi kan nu i tabellen a�æse
x = X
y1 = P (X = x)
y2 = P (X ≤ x)
19
Ved a�æsning i y1 (punktsandsynlighed) kan nu a�æses, at det mest sandsynlige udfald
er,
x = 2
Og den øvre kvartil x0,75 kan a�æses i y2 (fordelingsfunktionen).
Denne a�æses til x = 4 da det er den mindste x-værdi der opfylder at F (x) ≥ 75%.
Det er også muligt at bestemme middelværdien i binomialfordelinger, som vi nu vil forklare
nærmere
Middelværdi for binomialfordeling
Lad X ∼ b(n; p)
Da kan vi bestemme middelværdien ved
E(X) = µ = n · pDette vil vi bevise, men først vil vi bevise en hjælpesætning der bruges til bevisførelsen
af middelværdien.
20
Bevis for hjælpesætning
Hjælpesætningen er givet ved(n
r
)= n
r·
(n− 1
r − 1
), r ≥ 1
Dette beviser vi ved, at(n
r
)= n!
r!(n−r)!
Udnytter at n! = n · (n− 1)! og r! = r · (r − 1)! og at n− r = n− 1− (r − 1)(n
r
)= n·(n−1)!
r(r−1)!((n−1)−(r−1))!
Udnytter at abcd
= ac· bd(
n
r
)= n
r· (n−1)!(r−1)!((n−1)−(r−1))!
Vi sætter nu n− 1 = s og r − 1 = t(n
r
)= n
r· s!t!(s−t)!
Hvilket altså er det vi forstår ved binomialkoe�cienten (kombinationer)(n
r
)= n
r·
(s
t
)Da n− 1 = s og r − 1 = t(
n
r
)= n
r·
(n− 1
r − 1
)� (*)
Vi beviser nu middelværdien i en binomialfordeling.
Bevis for middelværdi
Lad X ∼ b(n, p) da er µ = E(X) = n · pDen stokastiske variabel måler antallet af gange noget optræder, derfor er den hele
positive tal.
Bevis
µ =n∑
i=0
xiP (X = xi)
Vi laver en omskrivning, da X er binominalt fordelt da, er X ∼ b(n, p) da er
21
x = 0, 1, 2, ..., n. Altså vil x0 = 0 , x1 = 1 , ... , xn = n vi kan derfor erstatte x'erne
lig med r = 0, 1, 2, ..., n
µ =n∑
r=0
r · P (X = r)
µ = 0 · P (X = r) +n∑
r=1
r · P (X = r)
Vi benytter nu formlen for punktsandsynlighedenn∑
r=1
P (X = r) =n∑
r=1
(n
r
)pr(1− p)n−r
µ =n∑
r=1
r ·
(n
r
)· pr · (1− p)n−r
Vi indsætter nu hjælpesætningen
(n
r
)= n
r·
(n− 1
r − 1
)(*)
µ =n∑
r=1
r · nr
(n− 1
r − 1
)· pr · (1− p)n−r
Vi bruger nu at pr = p · pr−1
µ =n∑
r=1
n
(n− 1
r − 1
)p · pr−1 · (1− p)n−r
Udnytter, at n− r = (n− 1)− (r − 1)
µ =n∑
r=1
n · p
((n− 1
r − 1
)pr−1 · (1− p)(n−1)−(r−1)
)
Anvender, atn∑
i=1
np · ai = npn∑
i=1
· ai hvor n · p ∈ R
µ = n · pn∑
r=1
(n− 1
r − 1
)pr−1 · (1− p)(n−1)−(r−1)
Vi sætter nu r − 1 = s
µ = n · pn−1∑s=0
(n− 1
s
)ps · (1− p)(n−1)−s
Vi sætter nu n− 1 = m
µ = n · pm∑s=0
(m
s
)ps · (1− p)m−s
Udnytter igen formlen for punktsandsynlighedenm∑s=0
P (X = r) =m∑s=0
(m
s
)ps(1−p)m−s
22
µ = n · pm∑s=0
P (X = s)
Da alle sandsynligheder lagt sammen giver en, har vi, atm∑s=0
P (X = s) = 1
µ = n · p · 1
µ = E(X) = n · p
Bemærk at dette gælder for binominalfordelinger og ikke for alle diskrete fordelinger. Da
udnytter at x kun kan antage positive hele tal.
Endelig kan også variansen og standardafvigelsen bestemmes for binomialfordelingen
Varians og standardafvigelse for binomialfordelingen
Lad X ∼ b(n; p).
Da kan vi bestemme varians og standardafvigelse
1. var(X) = σ2 = n · p · (1− p)
2. SD(X) = σ =√
n · p · (1− p)
Eksempel
Lad en binomialtfordelt stokastisk variabel X være givet ved
X ∼ b(20, 18)
Da vil vi hurtigt kunne bestemme middelværdi, varians og standardsafvigelse
1. µ = E(X) = 20 · 18= 2, 5
2. var(X) = σ2 = 20 · 18· (1− 1
8) = 2, 1875
3. SD(X) = σ =√20 · 1
8· (1− 1
8) = 1, 4790
5 Kontinuert stokastisk variabel
Kendetegnet ved en diskret stokastisk variabel var at X kun kan antage enkeltstående værdier
(f.eks. et antal: 0, 1, 2, ..., n), vi vil nu se på kontinuerte stokastiske variable og her behøver
X ikke at antage enkeltstående værdier men kan også kan indeholde værdier der egentligt
ikke kan realiseres. Altså udfald der ikke kan beskrives som et enkelt tal, da der er uendeligt
mange udfald. Et eksempel på dette er ting der kan måles uendeligt præcist som længde,
højde, vægt, styrke.
23
De�nition - Kontinuert stokastisk variabel og tæthedsfunktion
X er en kontinuert variabel, med værdier i intervallet [a; b]
Mens f er en funktion, som kan indtegnes i et sandsynlighedsfelt [a, b] og opfylder
1. f(x) ≥ 0 for alle x ∈ [a; b]
2.b́
a
f(x)dx = 1
f kaldes en tæthedsfunktion for intervallet [a; b] hvis disse betingelser er opfyldt.
Et delinterval [c; d] der ligger i [a; b] kaldes en hændelse og sandsynligheden for at X ligger i
et interval [c; d] er de�neret ved
P (c ≤ X ≤ d) =d́
c
f(x)dx
Vi vil også bruge det der kaldes en fordelingsfunktion, ved den forstås
Fordelingsfunktionen
For en kontinuert stokastisk variabel X er fordelingsfunktionen givet ved F (x) = P (X ≤ x),
og denne kan bestemmes ved
F (t) = P (X ≤ x) =x́
a
f(x)dx , a ≤ x ≤ b, hvor Dm(f) = [a; b]
Altså, arealet mellem f og x-aksen til venstre for t. Den bestemmer sandsynligheden fra
starten til et vilkårligt punktDer hvor kurven er højest er her hvor der er størst sandsynlighed for en observation er
størst. Men y = f(x) angiver ikke sandsynligheder, men i stedet tætheden af observationer
i det område. Ved kontinuerte stokastiske variable benyttes punktsandsynligheden ikke da
sandsynligheden da bestemmes ved at
Eksempel
Et sandsynlighedsfelt bestemt ved intervallet x ∈ [0;π] og en frekvensfunktion (tætheds-
funktion)
f(x) = 12· sin(x)
Vi starter med at bestemme om de to krav betingelser for en kontinuert stokastisk variabel
er opfyldt. Om f(x) ≥ 0 for alle x ∈ [a; b] bestemmes ved at indtegne funktionen, ud fra
grafen kan a�æses at dette er opfyldt.
24
Vi skal nu bestemme omb́
a
f(x)dx = 1 er opfyldt.
Indsætter hvad vi ved og �nder det besteme integral forπ́
0
0, 5sin(x)dx = 1.
π́
0
12sin(x)xdx =
[−1
2cos(x)
]π0= −1
2cos(π)− (−1
2cos(0)) = 1
2− 1
2= 1
Dermed er (2.) også opfyldt og der er altså tale om en kontinuert stokastisk variabel.
Vi kan nu bestemme sandsynligheden for en given delmængde ved at bestemme det
bestemte integral. Eksempelvis kunne vi bestemme P (π4≤ X ≤ π
2)
Ved indsættelse får vi, atπ2́
π4
12sin(x)xdx =
[−1
2cos(x)
]π2π4
= −12cos(π
2)− (−1
2cos(π
4)) = 0, 35
Gra�sk kan det illustreres ved
Sætningen gælder også for uendelige integraler, et eksempel på dette kunne være
f(x) = e−x hvor x ∈ [0,∞[
Indtegner og tjekker om (1.) er opfyldt, da det er en eksponentiel funktion af typen bax
og værdien af a er mindre end 1 er det en aftagende funktion. For denne gælder, at
f(x) > 0.
25
Dm(f) =]−∞;∞[
V m(f) =]0;∞[
Dermed er (1.) opfyldt.
For at bestemme (2.) benyttes her regel fra integralregning, substitution ved integration:
b́
a
f(g(x))g′(x)dx =g(b)´g(a)
f(t)dt = F (g(b))− F (g(a))
Sætter
g(x) = u = −x
g′(x) = dudx
= −1
dx = −du
Bestemmer nye grænser
g(0) = 0
g(∞) = −∞Indsætter∞́
0
e−xdx =−∞́
0
− eudu
∞́
0
e−xdx = [−eu]−∞0
(−e−∞ + e0) = (−e−∞) + 1
−e−∞ + 1−1e∞
+ 1−1∞ + 1
0 + 1∞́
0
e−xdx = 1
Vi har altså at f(x) = e−x hvor x ∈ [0,∞[ altså er en tæthedsfunktion.
26
6 Normalfordeling
Normalfordelingen er modsat binomialfordeling, kontinuert fordelt og er de�neret ved
De�nition - Normalfordelingen
Tæthedsfunktionen for normalfordelingen er givet ved
f(x) = 1σ√2π
· e− 12(x−µ)
σ
2
hvor x ∈ RNormalfordelingen kan også skrives som
X ∼ N(µ;σ)
Funktionen er symmetrisk omkring µog f(x) > 0 for alle x ∈ R da den aldrig rammer x-aksen.Derudover har normalfordelingen den egenskab at de�nitionsmængden går fra minus uen-
deligt til uendeligt, altså Dm(f) =]−∞;∞[
Eksempel
Levetiden for en elektrisk pære er normalfordelt og har hhv. en middelværdi på 300 timer
og en spredning på 25 timer.
Altså X ∼ N(300; 25)
Hvad er sandsynligheden for at pæren kan lyse i:
Mindre end 250 timer
27
Bestemmes ved P (X ≤ 250) = 0, 02275
Der er altså 2, 2% chance for at en elektrisk pære kan lyse i mindre end 250 timer.
Mere end 330 timer
Bestemmes ved P (X ≥ 330) = 1− P (X < 330) = 0, 11507
Der er altså 11, 7% chance for at en elektrisk pære kan lyse i mindre end 250 timer.
Mellem 280 og 320 timer.
28
Bestemmes ved P (280 ≤ X ≤ 320) = 0, 5763
Der er altså 57, 6% chance for at en elektrisk pære kan lyse mellem 280 og 320 timer.
7 Sandsynlighedspapir
Sandsynlighedspapir bruges til at afgøre om en fordelingen er normaltfordelt.
Sætning
Lad X ∼ N(µ;σ). Da er grafen for fordelingsfunktionen F (x) en ret linie når den tagnes på
et sandsynlighedspapir (normalfordelingspapir).
Omvendt gælder også, at hvis en kontinuert stokastisk variabel X, hvor fordelingsfunktionen
er indtegnet på en graf i et sandsynlighedspapir er en ret linie. Da er X normalfordelt.Eksempel
Vi vil se om følgende følgende datamateriale, der angiver påfyldningsvægten for 50 pakninger
med 500 gram fuglefrø, er normaltfordelt.
29
Vægt Antal Pakninger Frekvens f(x) F(x) Summeret frekvens
]448;449] 1 0,02 0,02
]449;450] 2 0,04 0,06
]450;451] 8 0,16 0,22
]451;452] 16 0,32 0,54
]452;453] 14 0,28 0,82
]453;454] 7 0,14 0,96
]454;455] 2 0,04 1
Dette indtegnes nu på vedlagte sandsynlighedspapir.
Som det fremgår af sandsynlighedspapiret kan vi tilnærmelsesvis lave en ret linie gennem
observationerne og jv. vores de�nition er vores talmateriale altså tilnærmelsesvis normal-
fordelt.
På sandsynlighedspapiret kan vi a�æse middelværdien til µ = 451, 6
Vi kan også bestemme standardafvigelsen, da denne også er angivet på sandsynlighedspa-
piret. Vi a�æser værdien ved φ(µ− σ) = 450, 4
Da bestemmes standardafvigelsen til
451, 6− 450, 4 = 1, 2
Altså har observationerne en standardafvigelse på 1,2.
30
Lommeregner
Til bestemmelse af sandsynligheden af et bestemt interval i normalfordlingen bruges funk-
tionen
normalcdf ( nedre grænse , øvre grænse , µ(middelværdi) , σ (standardafvigelse) )
Eksempel på dette kunne være
normalcdf(1400,∞, 1500, 100) = 0, 841345
På TI-89 titanium skrives ∞ på følgende måde
Indtast: �+ CATALOG → ∞normalcdf() kan også benyttes i grafeditoren hvis forskellige øvre grænser skal bestemmes.
Et eksempel kunne være
normalcdf(20, 20 + x, 30, 5) , og vil dermed i �table� give en liste af resultater for forskellige
værdier af x.Andre TI-89 funktioner
Skrives i home
• binompdf - (binomialfordeling punktsandsynlighed)
• binomcdp - (binomialfordeling fordelingsfunktion)
eller Stat/List− editor → F5 →
• B: Binomial Pdf
• C: Binomail Cdf
2nd → MATH → 7 : Probability →
• 1: ! - (fakultet)
• 2: nPr(n,r) - (Permutationer)
• 3: nCr(n,r) - (Kombinationer)
�+ CATALOG → ∞
• ∞ (uendligt)
31