34
1 Section 7-2: Estimere populasjonsandelen 2 Section 7-4: Estimere μ når σ er ukjent

Met 3431 Statistikk Kapittel 7 - Handelshøyskolen BIhome.bi.no/a0710194/Teaching/BI-Mathematics/MET-3431/... · 2012. 3. 1. · Met 3431 Statistikk Kapittel 7 Author: Njål Foldnes

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

  • 1 Section 7-2: Estimere populasjonsandelen

    2 Section 7-4: Estimere µ når σ er ukjent

  • Kapittel 7

    Nå begynner vi med statistisk inferens!Bruke stikkprøven til å

    1 Estimere verdien til en parameter i populasjonen. (Kapittel 7)2 Teste en påstand/hypotese om en parameter i populasjonen

    (Kapittel 8)

    Hva skal vi estimere ?Populasjonsandelen pPopulasjonsgjennomsnittet x

  • Estimere populasjonsandelen

    KonfidensintervallVi ønsker å estimere andelen i populasjonen pVi starter med andelen p̂ i stikkprøven og lager etkonfidensintervall.

    Forutsetninger for et riktig konfidensintervallStikkprøven er et tilfeldig utvalgBetingelsen for en binomisk forsøksrekke holder (se seksjon5-3)Minst 5 suksesser og 5 fiaskoer

  • Notasjon

    NotasjonAndelen i populasjonen: p(eng: proportion. Ikke forveksle med p i binomialfordelingen)Andelen i stikkprøven p̂ = xnx er antall suksesser i en stikkprøve med n objekterq̂ = 1− p̂ andelen fiaskoer

    Forutsetninger for et riktig konfidensintervall for pStikkprøven er et tilfeldig utvalgBetingelsen for en binomisk forsøksrekke holder (se seksjon5-3)I stikkprøven er minst 5 med i andelen, og minst 5 er ikke med

  • Punktestimat

    PunktestimatorEn punktestimator er en enkel verdi som anslår verdien til enparameter

    Punktestimator for andelen pp̂ = xn er den beste punktestimatoren for p

    Å estimere en parameterDu kan enten bruke et punktestimatEller estimere parameteren med et intervall

  • Konfidensintervall

    Konfidensintervall og konfidensnivåEt konfidensintervall er et intervall som brukes til å estimere densanne verdien til en populasjonsparameter.Konfidensnivået angir hvor ofte intervallet faktisk vil inneholde densanne populasjonsparameteren. Til hvert konfidensnivå tilhører deten α

    Konfidensnivå α90% α = 0.1095 % α = 0.0599 % α = 0.01

    ExampleEt 95% konfidensintervall vil 95% av gangene inneholdeparameteren

  • Jordbæris

    Example"Av 851 besøkende i et kjøpesenter har 51% jordbær somfavorittsmak på is. "

    Sjekk at forutsetningene på side 5Punktestimatet for andelen er p̂ = 0.5195% konfidensintervall for andelen som foretrekker jordbærisblir da

    < 0.476, 0.544 >

    Vi er 95% sikre på at intervallet fra 0.476 til 0.544 inneholderden sanne andelen av folk som foretrekker is med jordbærsmak.Dette betyr at dersom vi spurte mange grupper av 829personer, og lagde et konfidensintervall hver gang, så vil 95%av intervallene inneholde den sanne andelen p

  • Kritiske verdier zα/2

    ProsedyrenMen hvordan fant man ut at intervallet går ifra 0.476 til 0.544?

    Kritiske verdierSjekk krav side 5 →p̂ normalfordelt.α blir da arealet i tohalerDet gir kritiskeverdier zα/2

    Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.

    Slide

    The Critical Value

    Figure 7-2

    z!/2

  • zα/2 = ±1.96 for 95% konfidensintervall

    Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.

    z!/2 = 1.96"+

    Bruk Table A-2 til å finne z verdien 1.96

    ! = 0.05

    Finding z!/2 for a 95%

    Confidence Level - cont

  • Bruke zα/2 = ±1.96 til å finne feilmarginen

    Estimatoren p̂ er normalfordeltNår kravene på side 5 er tilfredstilt, så er p̂ er normalfordelt medforventning p og standardavvik σp̂ =

    √p̂(1− p̂)/n

    Feilmarginen for konfidensintervallet for en andel

    E = zα/2 ·√

    p̂(1− p̂)n

    ExampleVi hadde n = 821 kunder med p̂ = 0.51, så da blir feilmarginen

    E = 1.96 ·√

    0.51(1− 0.51)821

    = 0.034

  • Andel jordbæris konfidensintervall

    Example1 Vi ville ha et 95% konfidensintervall2 Vi fant kritisk verdi zα/2 = 1.963 Andelen i stikkprøven var p̂ = 0.514 Regne ut feilmarginen E = 0.0345 Konfidensintervallet blir da

    p̂ ± E ↔ 0.51± 0.034

    6 Fra 0.51− 0.034 til 0.51+ 0.0347 95% konfidensintervall: Fra 0.476 til 0.544

  • Forskjellige måter å oppgi konfidensintervall på

    Kjært barn har mange navn

    0.476 < p < 0.5440.51± 0.034

    < 0.476, 0.544 >

  • Konfidensintervall for andelen

    Prosedyre1 Sjekk at krav på side 5 OK2 Finn kritisk verdi zα/2 i tabell A2

    3 Regn ut feilmargin E = zα/2 ·√

    p̂(1− p̂)/n4 Regn ut nedre grense p̂ − E og øvre grense p̂ + E5 Rund av til tre desimaler6 Oppgi konfidensintervallet

    p̂ − E < p < p̂ + E

  • Konfidensintervall for populasjonsandelen p

    ExampleLa p være andelen kvinner som holder barnet med venstre arm.25 av 32 kvinner på fødselsavd holdt med venstre arm.

    E = 1.96 ·

    √2532(1−

    2532)

    32= 0.143

    95% konfidensintervall for andelen p:

    p =2532± 0.143

    Kan også skrives 0.638 < p < 0.942Vi er 95% sikre på at andelen av mødre med barnet i venstrearm er et sted mellom 63.8% og 94.2%

  • 99% konfidensintervall. Andelen iPhone på BI

    ExampleFila klassens data alle ny: 419 av 1937 studenter har en iPhone.Lag et 99% konfidensintervall for andelen studenter p som hariPhone på BI.

    TabellA2 : zα/2 = 2.576

    E = 2.576 ·

    √4191937(1−

    4191937)

    1937= 0.0241

    99% konfidensintervall for andelen p:

    p =4191937

    ± 0.0241

    Kan også skrives < 0.192, 0.240 >Vi er 99% sikre på at andelen av iPhone brukere på BI ermellom 19.2% og 24.0%

  • 90 % intervall: Andelen iPhone på BI

    ExampleLag et 90% konfidensintervall for andelen studenter p som hariPhone på BI.

    TabellA2 : zα/2 = 1.645

    E = 1.645 ·

    √4191937(1−

    4191937)

    1937= 0.0154

    90% konfidensintervall for andelen p:

    p =4191937

    ± 0.0154

    Kan også skrives < 0.201, 0.232 >Vi er 90% sikre på at andelen av iPhone brukere på BI ermellom 20.1% og 23.2%

  • 95 % intervall: Andelen iPhone på BI

    Example95% konfidensintervall for andelen studenter p som har iPhone påBI.

    TabellA2 : zα/2 = 1.96 girE = 1.96 ·

    √419/1937(1− 419/1937)/1937 = 0.0183

    95% konfidensintervall er da 0.198 < p < 0.235

    Konfidensintervall for andeler i JMPJMP bruker en litt annen formel enn den vi brukera

    klassens data alle ny, velg analyze>distribution og MobiltelefonRød diamant: confidence intervals 95% gir 0.199 < p < 0.235når vi runder av til 3 desimaler

    aAgresti-Coull konfidensgrense

  • Bredden på intervallet

    Intervallbredde versus konfidensnivåJo sikrere du trenger å være på at intervallet inneholderparameteren, jo bredere blir intervalletMan må avveie dette slik at intervallet ikke blir for bredtVanlig kompromiss er å bruke 95% konfidensnivå

  • Hvor stor stikkprøve trenger vi?

    Størrelsen på stikkprøvenDu har bestemt ønsket feilmargin EDu har bestemt konfidensnivåetDa kan du anslå hvor stor stikkprøve du trengerFormelen er

    n =z2α/2 · 0.25

    E 2

    ExampleVi ønsker et 95% konfidensintervall med feilmargin E = 0.05, dvs.±5%.

    n =1.962 · 0.25

    0.052= 385

    For å få en feilmargin på ca 5% bør du ha 385 objekter istikkprøven.

  • Seksjon 7-4: Estimere gjennomsnittet µ

    Seksjon 7-4Estimere gjennomsnittet µ i populasjonenPunktestimator er selvfølgelig xVi vil lage konfidensintervall for µDa trenger vi først Student t-fordelingen

    Forutsetninger for å bruke t-fordelingStikkprøven må være tilfeldig utvalgtOriginaldataene x er normalfordelt, eller n > 30

  • Frihetsgrader og Student t-fordelingen

    Frihetsgrader (eng: degrees of freedom)Stikkprøven har n objekterDa sier vi at den har n − 1 frihetsgrader

    t-fordelingenAnta at x er normalfordelt. Med en stikkprøve av størrelse n kan viberegne x og s. Da vil

    t =x − µ

    s√n

    være Student t-fordelt med n − 1 frihetsgrader

  • Student t-fordelingen

    Figur: t-fordelingen ift. standard normalfordeling. df=2 og 11.

  • Student t-fordelingen

    For hver frihetsgrad er det assosiert en t-fordeling.t-fordelingen er symmetrisk og ligner normalfordelingen, menhar høyere standardavvikNår frihetsgraden vokser nærmer t-fordelingen seg en standardnormalfordeling

    Et JMP scriptÅpne Normal vs t.JSL ifolderen Sample scriptsEdit > Run ScriptTetthetskurven til t-fordelingenfor forskjellige frihetsgrader (df)Standard normalfordeling i rødt

  • Konfidensintervall for µ

    Feilmarginen

    E = tα/2 ·s√n

    Der tα/2 har n − 1 frihetsgrader. Finnes i tabell A-3.

    Konfidensintervall for µ

    x − E < µ < x + E

  • Eksempel

    ExampleDu måler vekten på 34 lakrispastillerGjennomsnittsvekt er x = 0.932 og standardavviket er s = 0.1Lag et 90% konfidensinterval for parameteren µ

    Vi har n > 30 så kravet er ok.34− 1 = 33 frihetsgrader. Vi runder ned til 32 i tabell A3Kritisk verdi tα/2 = 1.694 for 32 df

    Feilmargin E = 1.694 · 0.1/√34 = 0.029

    Konfidensintervall:

    0.903 < x < 0.961

    Vi er 90% sikre på at gjennomsnittsvekta er mellom 0.903 og0.961 gram

  • Konfidensintervall for gjennomsnittet µ

    Prosedyre1 Sjekk at dataene er normalfordelte, eller at n > 30.2 Med n − 1 frihetsgrader, finn kritisk verdi tα/2 i tabell A33 Regn ut feilmargin E = tα/2 · s/

    √n

    4 Regn ut nedre grense x − E og øvre grense x + E5 Rund av til tre desimaler6 Oppgi konfidensintervallet

    x − E < µ < x + E

  • Hva er et konfidensintervall?

    Åpne scriptet confidence i folder Sample scripts

    Figur: Simulering av 100 95% konfidensintervall. 94 av dem inneholdtden sanne µ = 5.

  • Lengde på telefonsamtaler 1

    ExampleLengden på interne telefonsamtaler i en bedrift er normalfordeltStikkprøve på 5 interne samtaler: 23, 25, 12, 30, 20 minutter.Lag et 95% konfidensintervall for gjennomsnittlig lengde påtelefonsamtale i bedriften.Løsning

    1 Regn ut x = 22.00 og s = 6.6712 Finn tα/2 = 2.776 for 4 frihetsgrader. Tabell A33 Feilmarginen:

    E = 2.776 · 6.671√5

    = 8.282

    4 95% konfidensintervall for µ går ifra 22.00− 8.282 til22.40+ 8.282:

    13.72 < µ < 30.28

    5 Vi er 95% sikre på at gjennomsnittlig samtaletid er mellom13.72 og 30.28 minutter

  • Konfidensintervall i JMP

    Konfidensintervall i JMPLegg inn 23, 25, 12, 30, 20 i enkolonne i JMPAnalyze > DistributionJMP oppgir 95%konfidensintervall for µ

  • Lengde på telefonsamtaler 2

    ExampleI en annen bedrift har vi 4, 12, 10, 3, 5 og 8 minutter.Lag et 90% konfidensintervall for gjennomsnittlig samtaletidLøsning

    1 Regn ut x = 7.00 og s = 3.5782 Finn tα/2 = 2.015 for 5 frihetsgrader. Tabell A33 Feilmarginen:

    E = 2.015 · 3.578√6

    = 2.94

    4 95% konfidensintervall for µ går ifra 7.00− 2.94 til 7.00+ 2.94:

    4.06 < µ < 9.94

    5 Vi er 95% sikre på at gjennomsnittlig samtaletid er mellom4.06 og 9.94 minutter

  • Er lengden på telefonsamtaler normalfordelt?

    Forutsetninger for å bruke t-fordelingStikkprøven må være tilfeldig utvalgtOriginaldataene x er normalfordelt, eller n > 30

    I eksemplene over har vi færre ennn = 30 objekter i stikkprøvenForutsatte derfor at lengden påtelefonsamtaler var normalfordeltDet er mer sannsynlig at lengden erhøyreskjev, siden det finnes en naturlignedre skranke: 0 minutter for lengdenVi skulle nok hatt stikkprøve på minst30 telefonlengder...

    Figur: Eksempel på høyreskjevfordeling. Reisetid til skolen for1937 BI studenter

  • Norsk kundebarometer

    ExampleFor variabelen Anbefale hos DnB NOR kunder:

    54 menn: Gjennomsnitt: 5.426, Standardavvik: 2.61837 kvinner: Gjennomsnitt 4.865, Standardavvik: 2.699

    Finn 99% konfidensintervall for anbefalingsgjennomsnittet formannlige og for kvinnelige DnB NOR kunder. Løsning:

    1 Menn: tα/2 = 2.678 (runder ned til 50 df) og kvinnertα/2 = 2.719

    2 Menn: E = 2.678 · 2.618/√54 = 0.954. Kvinner:

    E = 2.719 · 2.699/√37 = 1.206

    3 Menn 99% konfidensintervall:

    4.47 < µM < 6.38

    4 Kvinner 99% konfidensintervall:

    3.66 < µK < 6.07

  • Eksamensoppgaver Met 8006 vaaren 05

  • Eksamensoppgaver Met 8006 hoest 07

    Section 7-2: Estimere populasjonsandelenSection 7-4: Estimere når er ukjent