Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
1
Toetsende Statistiek, Week 2. Van Steekproef naar Populatie:
De Steekproevenverdeling
Pierre Simon Laplace (1749-1827)
Moore, McCabe & Craig: 3.3 Toward Statistical Inference From Probability to Inference 5.1 Sampling Distributions for
Counts and Proportions 5.2 The Sampling Distribution of
a Sample Mean
2
Sampling Distributions (Steekproevenverdelingen)
Iedere beschrijvende waarde (statistiek of statistic) van een aselekte
steekproef of een gerandomiseerd experiment is een schatting van
daarmee samenhangende beschrijvende waarde (parameter) in een
populatie en kan variƫren in waarde.
iedere statistiek kan worden opgevat als een
toevalsvariabele en heeft een kansverdeling:
de steekproevenverdeling van die statistiek.
3
Opmerkingen
1. We onderscheiden nu
a) populatieverdeling (parameter, bijv: Āµ, Ļ, p),
b) steekproefverdeling (statistiek, bijv: x , r, pĢ ),
c) steekproevenverdeling van een statistiek (parameter)
d) verdeling van Ć©Ć©n waarneming.
2. In een SRS is de verdeling van Ć©Ć©n willekeurige waarneming
gelijk aan de populatieverdeling.
3. De populatie kan denkbeeldig zijn, of een proces (zonder
eind), bijv. de verzameling van alle mogelijke testitems.
4
Herhaalde Trekkingen uit een binaire Populatie
Wereldwijd is het kenmerk āVeilig gehechtā als volgt verdeeld:
Populatie verdeling
1e verdeling in
willekeurige random
steekproef
Herhaalde
steekproef-
verdelingen
Veilig p 0.65
Niet-veilig 1-p 0.35
Na 12 Bernoulli* trials (1 steekproef):
Veilig 6
Niet-veilig 6
Na 7 steekproeven met n=12:
Veilig 6 9 7 9 5 8 10
Niet-veilig 6 3 5 3 7 4 2
*Bernoulli trial: experiment met 2 random uitkomsten met kansen p en 1-p.
6
Steekproef-fluctuaties van de Primaire Statistieken
We kunnen totaalscore (count) bepalen en ook steekproefproporties:
count Veilig gehecht 6 9 7 9 5 8 10
steekproef proportie Ė p .50 .75 .58 .75 .42 .67 .83
Ė q =1ā Ė p .50 .25 .42 .25 .58 .33 .17
Maak een stem-and-leaf plot van de steekproevenverdeling van Ė p :
4 2 5 08 6 7 7 55 8 3
Gemiddelde = 0.64, mediaan = 0.67
Conclusie?
7
Binomial Setting & Binomiale Verdeling B(n, p)
De steekproevenverdeling van een telling (count) volgt de binomiale
verdeling als aan de volgende aannamen is voldaan:
1. Vaste steekproefgrootte n (tevoren vastgesteld)
2. Onafhankelijke observaties
3. Observaties zijn Bernoulli trials: āsuccesā of āfailureā
4. Kans op āsuccesā is constant: p (kans op āfailureā: q = 1 ā p)
Kans
Aantal successen
Voorbeeld: een B(10, 0.1).
d.w.z. n=10 en p=0.1
Wat valt op?
9
Kansboom bij drie Bernoulli Trials
Er is sprake van onafhankelijke trekkingen met teruglegging
v(.65) ā¢P(vvv)=( .65)( .65)( .65)=.275 v(.65) ā¢ n(.35) ā¢P(vvn)=( .65)( .65)( .35)=.148 ā¢
v(.65) v(.65) ā¢P(vnv)=( .65)( .35)( .65)=.148 n(.35) ā¢ n(.35) ā¢P(vnn)=( .65)( .35)( .35)=.080
ā¢ v(.65) ā¢P(nvv)=( .35)( .65)( .65)=.148 v(.65) ā¢
n(.35) n(.35) ā¢P(nvn)=( .35)( .65)( .35)=.080 ā¢ v(.65) ā¢P(nnv)=( .35)( .35)( .65)=.080 n(.35) ā¢ n(.35) ā¢P(nnn)=( .35)( .35)( .35)=.043
10
Formule van de Binomiale kansverdeling
Aan de kansboom zien we twee dingen:
1. Omdat de trekkingen onafhankelijk zijn, kunnen we de kansen langs ieder pad met elkaar vermenigvuldigen;
2. Er zijn meerdere manieren om aan dezelfde somscore te komen, door verwisseling van de volgorde in de patronen (NB. teruglegging)
Dit leidt tot de volgende formule van de binomiale verdeling:
{44 344 21
successen-niet ensuccessen op kans
trialsBernoulli in behalen tesuccessen
ommanieren aantal
)1()(
n-kk
knk
nk
ppk
nkXP āāĆ
==
Voorbeeld: P(X=2) = P(vvn) + P(vnv) + P(nvv) =
11
P(X=2) = P(vvn) + P(vnv) + P(nvv) =
444.0443625.0)2(
35.04225.03)2(
35.065.0112
123)2(
35.065.0)!23(!2
!3)2(
35.065.02
3)2(
232
232
232
ā==ĆĆ==
ĆĆĆĆĆĆ==
ĆĆāĆ
==
ĆĆ
==
ā
ā
ā
XP
XP
XP
XP
XP
ā¢ Of opzoeken van Binomiale Kansen m.b.v. Tabel C in M,M&C ā¢ Of exact bepalen met software / rekenmachine
12
Tabel C in M,M&C: een kijkje
p
n k 0.01 0.35 0.50
2 0
1
2
0.9801
0.0198
0.0001
0.4225
0.4550
0.1225
0.2500
0.5000
0.2500
3 0
1
2
3
0.9703
0.0294
0.0003
0.2746
0.4436
0.2389
0.0429
0.1250
0.3750
0.3750
0.1250
5 0
1
2
ā¦
0.9510
0.0480
0.0010
0.1160
0.3124
0.3364
ā¦
0.0313
0.1563
0.3125
ā¦
13
Verwachte Waarde en Standaard Deviatie van de Binomiaal
De verwachte waarde van een Bernoulli trial (1 binaire observatie)
X P X * P
0 1 - p 0 * (1 - p) = 0
1 p 1 * p = p +
Āµ = p
Omdat Āµ van een som gelijk is aan som van Āµ's, krijgen we voor de
binomiale count X een verwachte waarde
ĀµX = p + p + p + ā¦ + p = np
De variantie Ļ2 van Ć©Ć©n Bernoulli trial is p (1 ā p), dus Ļ2 van X
Ļ2X = np (1 ā p) en ĻX = np(1ā p)
14
Steekproefproporties (Sample Proportions)
Als we tellen hoe vaak een verschijnsel voorkomt in een steekproef,
kunnen we dat altijd uitdrukken als een steekproefproportie
lengtesteekproef
telling
sobservatie # totaal
voorkomtietsdat #Ė ===
n
Xp
Voor een binaire variabele hebben we de volgende relaties tussen verwachte waarden, varianties en standaardafwijkingen:
verdeling van verwachte waarde
variantie standaard afwijking
populatie (1 observatie) p p(1 ā p) p) p ( ā1
binomial count X np np(1 ā p) )1 p n p ( ā
steekproef proportie pĢ p n
pp )1( ā n
pp )1( ā
15
Benadering van de Steekproevenverdeling van een Proportie
Als np ā„ 10 en n(1 ā p) ā„ 10 ā de steekproeven-verdeling van pĢ en
van de telling X (count) bij benadering N(Āµ, Ļ). Andere vuistregel: binomiaal ļæ½ normaal (bij n > 30).
16
Hoe goed is de Benadering?
Voor B(100,0.1) (nog) niet erg goed
Aantal successen ā
Pas daarom continuĆÆteitscorrectie toe. Je corrigeert voor verschil discreet - continu, door in de normaal benadering "een 1/2 stap"
naar Āµ te doen. Dus niet PN(X ā¤ 9) opzoeken maar PN(X ā¤ 9.5).
17
Een Vergelijking tussen verschillende Aanpakken I.
Gegeven: B(100,0.1) Wat is P(X ā¤ 9)?
Binomiaal via software: P(X ā¤ 9) = 0.45129
a) Normaal benadering:
36944.03
1
3
1099)9(
)3,10(
39.01.0100)1(
101.0100
=
āā¤
āā¤=
āā¤=ā¤
=ĆĆ=āĆĆ=
=Ć=Ć=
ZP
ZPZPXP
N
ppn
pn
ĻĀµ
ĻĀµ
18
Een Vergelijking tussen verschillende Aanpakken II.
b) Normaal benadering + continuĆÆteitscorrectie:
43382.06
1
3
105.95.9)5.9(
9van plaatsin 9.5nu Gebruik
)3,10(
39.01.0100)1(
101.0100
=
āā¤
āā¤=
āā¤=ā¤
=ĆĆ=āĆĆ=
=Ć=Ć=
ZP
ZPZPXP
N
ppn
pn
ĻĀµ
ĻĀµ
19
Steekproefgemiddelde als een Kansvariabele
Verdeling reactietijden
RT
550510470430390350310
200
100
0
Mean RT, N=10
550510470430390350310
500
400
300
200
100
0
Individuele reactietijd per pp.
Gemiddelde reactietijd (n=10).
Steekproefgemiddelden zijn:
(1) minder variabel
(2) meer normaal
dan individuele observaties
20
Hoeveel minder variabel is het Steekproefgemiddelde?
We gebruiken dezelfde regels voor toevalsvariabelen (random
variables) als voor een telling of proportie bij een binaire populatie.
Basis-aanname: observaties zijn onafhankelijk en gelijk verdeeld.
Voor continue variabelen krijgen we:
verdeling van verwachte waarde
variantie standaard afwijking
populatie (1 observatie)
Āµ Ļ2 Ļ
som van n observaties
nĀµ nĻ2 Ļn
steekproef-gemiddelde x
Āµ n2Ļ
nĻ
21
Doet de Vorm van de Populatieverdeling ertoe?
Normaal, Āµ=16, Ļ = 5 Uniform Āµ =16, Ļ = 9.5 Scheef, Āµ=8.08, Ļ = 6.22
n=5, m=16, sd = 2.23
n=5, m =16, sd = 4.25
n=5, m=8.05, sd =2.77
n=20, m=16, sd = 1.12
n=20, m=16, sd = 2.12
n=20, m=8.08, sd =1.39
22
Wanneer is het Gemiddelde normaal verdeeld?
1. Als populatie is N(Āµ, Ļ), dan is het steekproef-gemiddelde x van
n onafhankelijke observaties ook normaal verdeeld met
N(Āµ,Ļ/ān) (unbiased, zuiver).
2. Als populatie niet normaal verdeeld is, dan is x bij benadering
normaal verdeeld! (Centrale Limiet Stelling, Laplace, 1810).
3. Als bij grote steekproeven de waarnemingen niet uit dezelfde
populatie komen (bijv., lengte mannen, lengte vrouwen), is de
verdeling van het gemiddelde toch bij benadering normaal.
4. Bij nog grotere steekproeven zijn zelfs gemiddelden van
afhankelijke observaties bij benadering normaal verdeeld.
23
Samenvattend: Een belangrijk Proces.
Accuraatheid neemt toe met de steekproefgrootte,
maar met afnemende meeropbrengst.
24
Besluit
ā¢ BINOMIAAL: Belangrijke steekproevenverdeling.
Er zijn vier manieren om de binomiale verdeling te gebruiken:
met formule, door opzoeken in tabel, door uitrekenen en door
benaderen met de normaal verdeling
ā¢ HOOFDRESULTAAT STATISTIEK: Gemiddelde is āaltijdā normaal
verdeeld bij grote steekproeven dankzij Centrale Limiet Stelling.
Stof Volgende Week:
Moore McCabe & Craig, chapter 6 Introduction to Inference
6.1 Estimating with Confidence 6.2 Tests of Significance
6.3 Use and Abuse of Tests