Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
STATYSTYKA MATEMATYCZNAWYKŁAD 1418 stycznia 2010
ROZKŁAD DWUMIANOWY
Model statystyczny(0, 1, . . . , n, Pθ, θ ∈ (0, 1)
), n ustalone
PθK = k =
(nk
)θk(1− θ)n−k , k = 0, 1, . . . , n
Geneza:
Rozkład Bernoulliego (dwupunktowy):
Pθξ = 1 = θ = 1− Pθξ = 0
K = ξ1 + ξ2 + . . .+ ξn
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
Estymator naturalny parametru θ: θ = Kn
Własności estymatora θ:
– Estymator nieobciążony: E θ = θ dla każdego θ ∈ (0, 1)
– Estymator największej wiarogodności
– Estymator uzyskany metodą momentów
– Estymator nieobciążony o jednostajnie minimalnej wariancji
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
θ = Kn
Wariancja i błąd średniokwadratowy (estymator nieobciążony)
Varθ(θ) =θ(1− θ)
n
Bθ(θ) =√Eθ(θ − θ2) =
√Varθ(θ)
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
Nierówność Czebyszewa
Pθ|θ − θ| ε ¬Varθ(θ)
ε2
Pθ|θ − θ| < t
√Varθ(θ)
1− 1
t2(θ − t
√Varθ(θ), θ + t
√Varθ(θ)
)traktuje się jako coś w rodzaju
przedziału ufności dla nieznanej frakcji θ, na poziomie ufności1− 1/t2.
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
θ = Kn
dd
0 0.2 0.4 0.6 0.8 1
0.05
0.1
0.15
........
........
........
........
........
........
........
........
........
........
........
.........
........
........
.........................................................................................................................................................................................................................................................................................................................................................................
...............................
.............................................
..............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.........................................................................................................
................................
..............................................
............................................................
...........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
Rys.1
θ
n = 10
n = 100
Bθ(Kn )
1
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
Jednostajnie minimalna wariancja - czy na pewno o tochodzi? Wiadomo, że frakcja może być jedną z liczb z przedziału(0, 1). „Jednostajnie” minimalny błąd estymatora oznacza, że jeston minimalny przy każdej wartości θ ∈ (0, 1). Ale jeżeli z górywiemy, że estymowana frakcja mieści się w pewnym przedziale(t1, t2), 0 < t1 < t2 < 1, to może nam wcale nie zależeć na małymbłędzie estymatora dla frakcji o wartościach poza tym przedziałem.Czy zyskujemy coś na minimalizowaniu błędu estymatora tylko natym wyróżnionym przedziale?
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
Powiemy, że estymator θ1 jest lepszy od estymatora θ2 naprzedziale (t1, t2), jeżeli jego średni błąd na tym przedziale jestmniejszy, tzn. jeżeli∫ t2
t1Bθ(θ1)dθ <
∫ t2t1Bθ(θ2)dθ.
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
Rozważamy estymatory θ = θ(K ), które są funkcją liczby Kobserwacji wyróżnionych w próbie. Dla takich estymatorów mamy
Bθ(θ(K )
)=n∑k=0
[θ(k)− θ
]2(nk
)θk(1− θ)n−k
zatem ∫ t2t1Bθ(θ(K )
)dθ =
=n∑k=0
(nk
)[θ(k)2 c(k , n; t1, t2)−2θ(k) c(k+1, n; t1, t2)+c(k+2, n; t1, t2)
]gdzie
c(k , n; t1, t2) =
∫ t2t1θk(1−θ)n−kdθ.
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
Minimalizując, dla każdego k oddzielnie, wyrażenia w nawiasachkwadratowych otrzymujemy optymalny estymator w łatwej doobliczeń postaci
θ(K ) =c(K + 1, n; t1, t2)c(K , n; t1, t2)
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
Przykład numeryczny. Zwróćmy uwagę na to, że zmodyfikowany estymator nigdy nieprzyjmuje wartości poza przedziałem (t1, t2), dla którego został zaprojektowany.
Przedział (t1, t2)K
(0, 1) (0, 0.5) (0.3, 0.4)
0 0.0 0.0837 0.33771 0.1 0.1644 0.34112 0.2 0.2396 0.34663 0.3 0.3030 0.34824 0.4 0.3519 0.35185 0.5 0.3872 0.35546 0.6 0.4121 0.35897 0.7 0.4296 0.36228 0.8 0.4422 0.36529 0.9 0.4514 0.3681
10 1.0 0.4583 0.3707
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
Błąd tych estymatorów kształtuje się tak, jak to przedstawiono naRys. 2. Zależy on istotnie od tego, jak wybraliśmy przedział(t1, t2): im przedział jest krótszy, tym błąd wewnątrz tegoprzedziału jest mniejszy, ale jeżeli wybrany przez nas przedział niepokrywa nieznanej, szacowanej wartości frakcji θ, to błąd może byćbardzo duży. Dla porównania na tym samym rysunku narysowanotakże błąd standardowego estymatora K/n.
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
dd
0 0.2 0.4 0.6 0.8 1
0.1
0.2
0.3
0.4
0.5 ..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
...
....................................................................................................
.................................
............................................
...........................................................
..................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.................................................................................................................................................................................... .........
.....................................................................................................................................................................................................................................................................
........................................................................................................................
..................
...........................
..............................
................................................................................................................................................................
Rys.2
θ
(0.0, 0.5)
(0.3, 0.4)
K/n
1
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
Poszukując optymalnego estymatora frakcji w sytuacji, gdy naszawiedza a priori o tej frakcji lokuje ją „gdzieś w przedziale (t1, t2)”,minimalizowaliśmy∫ t2
t1Bθ(θ(K )
)dθ =
∫ 1
01(t1,t2)(θ)Bθ
(θ(K )
)dθ,
czyli błąd uśredniony wagą 1(t1,t2)(θ).
Można to uśrednienie dokonać dla innej niż 1(t1,t2)(θ) wagi,powiedzmy wagi π(θ), θ ∈ (0, 1), na przykład takiej, jakąprzedstawia Rys. 3. Wygodnie jest wybierać wagę spośród gęstościrozkładów prawdopodobieństwa, a w naszym przypadku estymacjifrakcji spośród gęstości rozkładu beta
Γ(α, β)
Γ(α)Γ(β)tα−1(1− t)β−1
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
dd
0 0.2 0.4 0.6 0.8 1
1
2
3
4
5 ..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
....
...........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
Rys.3
θ
1
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
Wybór wagi typu
Γ(α, β)
Γ(α)Γ(β)tα−1(1− t)β−1
pozwala na korzystanie z rozbudowanego aparatu statystykiBayesowskiej.
W statystyce Bayesowskiej wagę π(θ) interpretujemy jako rozkłada priori, a rozwiązaniem naszego zadania, tzn. optymalnymestymatorem frakcji θ, jest wtedy (K + α)/(α + β + n) – jest tośrednia w rozkładzie a posteriori.
Błąd średniokwadratowy estymatora Bayesowskiego dla rozkładua priori z Rys. 3 (α = 7, β = 20) i dla liczności próby n = 10przedstawia Rys. 4; dla porównania przedstawiono tu również błądestymatora standardowego K/n.
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
dd
0 0.2 0.4 0.6 0.8 1
0.1
0.2
0.3
0.4
0.5 ..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
...
....................................................................................................
.................................
............................................
...........................................................
..................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
........................................................................ ......... ......... ......... ......... ..................
..................
..................
..................
..................
..................
..................
..................
..................
..................
..................
..................
..................
..................
..................
..................
...
Rys.4
θ
K + 7n+ 27
K/n
1
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
Rozkład a priori - fuzzy set (zbiór rozmyty)
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
Błąd estymatora zależy od nieznanej wartości parametru θ.Możemy tak manipulować, żeby był on możliwie mały w obszarzeo którym wiemy, że zawiera to nieznane θ, ale jeżeli mamy pechai prawdziwa, nieznana wartość tego parametru leży daleko pozawybranym przez nas obszarem, błąd może okazać się katastrofalnieduży.
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
Można się przeciwko temu zaasekurować konstruując estymator,którego maksymalny błąd będzie możliwie mały. Takie estymatorynazywają się estymatorami minimaksowymi.
W naszym przypadku takim estymatorem jest
K + 12
√n
n +√n
Ma on stały błąd, zależny tylko od n, i ten błąd jest równy1/ (2(1+
√n)).
Na Rys. 5 pokazano wykresy błędów wszystkich rozważanych dotej pory estymatorów oraz estymatora minimaksowego, dla n = 10.
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
dd
0 0.2 0.4 0.6 0.8 1
0.1
0.2
0.3
0.4
0.5 ..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
...
....................................................................................................
.................................
............................................
...........................................................
..................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.................................................................................................................................................................................... .........
.....................................................................................................................................................................................................................................................................
........................................................................................................................
..................
...........................
..............................
................................................................................................................................................................
..........................
..........................
..........................
............. ............. ..........................
.....................................................................................................................................................................................................................................................................................
............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ..........................................................
......................
...........
Rys.5
θ
(0.0, 0.5)
(0.3, 0.4)
K/n
K+7
n+27
est. minimaksowy
1
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
ESTYMACJA PRZY ROZBICIU POPULACJI NA WARSTWY
Ω = A ∪ B, A ∩ B = ∅
Podzbiory A i B o licznościach NA i NB (NA + NB = N),z liczbami MA oraz MB (MA +MB = M) elementów wyróżnionychw tych podzbiorach
θA oraz θB –frakcje elementów wyróżnionych w tych podzbiorach
Zadanie, jak powiedzieliśmy, polega na oszacowaniu frakcji
θ =MA +MBNA + NB
=NANθA +
NBNθB
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
Naturalny estymator frakcji θ:
θ =NANθA +
NBNθB
gdzie
θA =KAnA, θB =
KBnB
, nA + nB = n
gdzie nA i nB są licznościami prób z warstw A i B, w którychzaobserwowano KA i KB elementów wyróżnionych
Jest to estymator nieobciążony
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA
Wariancja estymatora θ:
Varθ(θ) = Eθ
(NANθA +
NBNθB − θ
)2
= Eθ
(NAN
(θA − θA) +NBN
(θB − θB)
)2
=
(NAN
)2 θA(1− θA)
nA+
(NBN
)2 θB(1− θB)
nB
Odpowiednie rozbicie całej populacji Ω na rozłączne zbiory A i Boraz odpowiedni wybór wielkości prób z każdego z tych podzbiorówmoże istotnie zmniejszyć tę wariancję
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ
Geneza problemu: krępujące pytania ankietera
Zastosowania w SKJ: błąd kontrolera
Formalizacja dla przypadku badania ankietowego w celu estymacjifrakcji θ = M
N elementów wyróżnionych (jest ich nieznana liczbaM) w populacji składającej się z N elementów. O elemenciewyróżnionym powiemy, że jest W
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ
Geneza problemu: krępujące pytania ankietera
Zastosowania w SKJ: błąd kontrolera
Formalizacja dla przypadku badania ankietowego w celu estymacjifrakcji θ = M
N elementów wyróżnionych (jest ich nieznana liczbaM) w populacji składającej się z N elementów. O elemenciewyróżnionym powiemy, że jest W
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ
Geneza problemu: krępujące pytania ankietera
Zastosowania w SKJ: błąd kontrolera
Formalizacja dla przypadku badania ankietowego w celu estymacjifrakcji θ = M
N elementów wyróżnionych (jest ich nieznana liczbaM) w populacji składającej się z N elementów. O elemenciewyróżnionym powiemy, że jest W
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ
Geneza problemu: krępujące pytania ankietera
Zastosowania w SKJ: błąd kontrolera
Formalizacja dla przypadku badania ankietowego w celu estymacjifrakcji θ = M
N elementów wyróżnionych (jest ich nieznana liczbaM) w populacji składającej się z N elementów. O elemenciewyróżnionym powiemy, że jest W
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ
Z populacji losujemy n respondentów.
Respondent ma odpowiedzieć na pytanie „czy jesteś W ”
W celu zapewnienia dyskrecji formułujemy dwa pytania: jednoistotne „czy jesteś W ”, drugie „niewinne”, np. „czy urodziłeś się wponiedziałek”, wybrane jednak w taki sposób, żebyśmy znali frakcjęq osób w populacji, odpowiadających TAK na to pomocniczepytanie (tu 1/7)
Respondent ma losowo wybrać jedno z pytań, odpowiedzieć na nie,ale nie informować ankietera, na które pytanie odpowiada. Niechp oznacza prawdopodobieństwo wylosowania pytania zasadniczego.
„RANDOMIZOWANE ODPOWIEDZI”
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ
Z populacji losujemy n respondentów.
Respondent ma odpowiedzieć na pytanie „czy jesteś W ”
W celu zapewnienia dyskrecji formułujemy dwa pytania: jednoistotne „czy jesteś W ”, drugie „niewinne”, np. „czy urodziłeś się wponiedziałek”, wybrane jednak w taki sposób, żebyśmy znali frakcjęq osób w populacji, odpowiadających TAK na to pomocniczepytanie (tu 1/7)
Respondent ma losowo wybrać jedno z pytań, odpowiedzieć na nie,ale nie informować ankietera, na które pytanie odpowiada. Niechp oznacza prawdopodobieństwo wylosowania pytania zasadniczego.
„RANDOMIZOWANE ODPOWIEDZI”
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ
Z populacji losujemy n respondentów.
Respondent ma odpowiedzieć na pytanie „czy jesteś W ”
W celu zapewnienia dyskrecji formułujemy dwa pytania: jednoistotne „czy jesteś W ”, drugie „niewinne”, np. „czy urodziłeś się wponiedziałek”, wybrane jednak w taki sposób, żebyśmy znali frakcjęq osób w populacji, odpowiadających TAK na to pomocniczepytanie (tu 1/7)
Respondent ma losowo wybrać jedno z pytań, odpowiedzieć na nie,ale nie informować ankietera, na które pytanie odpowiada. Niechp oznacza prawdopodobieństwo wylosowania pytania zasadniczego.
„RANDOMIZOWANE ODPOWIEDZI”
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ
Z populacji losujemy n respondentów.
Respondent ma odpowiedzieć na pytanie „czy jesteś W ”
W celu zapewnienia dyskrecji formułujemy dwa pytania: jednoistotne „czy jesteś W ”, drugie „niewinne”, np. „czy urodziłeś się wponiedziałek”, wybrane jednak w taki sposób, żebyśmy znali frakcjęq osób w populacji, odpowiadających TAK na to pomocniczepytanie (tu 1/7)
Respondent ma losowo wybrać jedno z pytań, odpowiedzieć na nie,ale nie informować ankietera, na które pytanie odpowiada. Niechp oznacza prawdopodobieństwo wylosowania pytania zasadniczego.
„RANDOMIZOWANE ODPOWIEDZI”
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ
Z populacji losujemy n respondentów.
Respondent ma odpowiedzieć na pytanie „czy jesteś W ”
W celu zapewnienia dyskrecji formułujemy dwa pytania: jednoistotne „czy jesteś W ”, drugie „niewinne”, np. „czy urodziłeś się wponiedziałek”, wybrane jednak w taki sposób, żebyśmy znali frakcjęq osób w populacji, odpowiadających TAK na to pomocniczepytanie (tu 1/7)
Respondent ma losowo wybrać jedno z pytań, odpowiedzieć na nie,ale nie informować ankietera, na które pytanie odpowiada. Niechp oznacza prawdopodobieństwo wylosowania pytania zasadniczego.
„RANDOMIZOWANE ODPOWIEDZI”
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ
Prawdopodobieństwo usłyszenia odpowiedzi TAK wyraża sięwzorem
P(TAK ) = pθ + (1− p)q
Jest to prawdopodobieństwo θ wylosowania jednostki wyróżnionej,pomnożone przez prawdopodobieństwo p, że wylosuje ona pytaniezasadnicze plus prawdopodobieństwo q wylosowania jednostkiodpowiadającej TAK na pytanie pomocnicze, pomnożone przezprawdopodobieństwo że wylosuje one pytanie pomocnicze
Rozpatrując to jako równanie względem θ, otrzymamy
θ =P(TAK )− (1− p)q
p
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ
Estymując P(TAK ) za pomocą ilorazu Tn , gdzie T jest liczbąodpowiedzi TAK w n-elementowej próbie respondentów,otrzymujemy estymator θq interesującej nas frakcji θ
θq =
Tn− (1− p)q
p
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ
Jest to estymator nieobciążony:
Eθ(θ) = Eθ
(1p
(Tn− (1− p)q
))= θ
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ
Wariancja
Varθ(θq) =λ(1− λ)
np2 , λ = pθ + (1− p)q
W szczególności, gdy q = 1− θ (pytanie pomocnicze „czy niejesteś W ?”), estymator
θW =
Tn− (1− p)
2p − 1
Varθ(θW ) =θ(1− θ)
n+p(1− p)n(2p − 1)2
ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ
dd
0 0.2 0.4 0.6 0.8 1
0.1
0.2
0.3
0.4 ..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
...
...........................................................................................................................................
................................
.........................................
....................................................
....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ....
...................................
...............
....................
.....................
.............................
.......................................................
...............................................................................................................................
Rys.6
θ
K/n
θq
θW
1