第十章 比例問題的推論. 陳順宇 教授 成功大學統計系. 一組樣本比例的推論 ( 小樣本情形 ). 例 10.4 、. 小華 以擲此銅板實驗的數據作決策, 他擲此枚銅板 10 次,結果出現 8 次正面 是否就表示我們所懷疑 〝 此枚銅板出現正面的機率偏高 〞 成立呢? 也就是判定此枚銅板出現正面的機率 確實偏高呢?. 令 n 次中投中次數為 X ,即. X 是二項分配. 單尾檢定. 我們懷疑 〝 此枚銅板不公正 〞 是不能成立. (1) 例 10.2 ,投 10 球進 3 球, 則 P 值. - PowerPoint PPT Presentation
1
第十章 比例問題的推論
陳順宇 教授成功大學統計系
2
一組樣本比例的推論( 小樣本情形 )
3
例 10.4 、• 小華以擲此銅板實驗的數據作決策, 他擲此枚銅板 10 次,結果出現 8 次正面• 是否就表示我們所懷疑 〝此枚銅板出現正面的機率偏高〞 成立呢?• 也就是判定此枚銅板出現正面的機率 確實偏高呢?
4
令 n 次中投中次數為 X ,即
n
iiXX
1
5
X 是二項分配
),(~ pnBX
6
單尾檢定
5.0:
5.0:
1
0
pH
pH
7
我們懷疑〝此枚銅板不公正〞是不能成立
)5.0|8( pXP 101010
19109
28108 )5.0()5.0()5.0()5.0()5.0( CCC
101010
109
108 )5.0)(( CCC
0547.01024
56
1024
11045
8
(1) 例 10.2 ,投 10 球進 3 球,則 P 值
P 值 = )5.0|7()5.0|3( pXPpXP
= 8291100 )5.0()5.0()5.0()5.0()5.0()5.0(2
10
1
10
0
10
+ 283773 )5.0()5.0()5.0()5.0()5.0()5.0(8
10
7
10
3
10
+ 01019 )5.0()5.0()5.0()5.0(10
10
9
10
= 10)5.0(23
10
2
10
1
10
0
10
= 34375.01024352
1024)12045101(2
9
(2) 例 10.3 ,投 10 球只中 1 球
P值= 0219.0)5.0(1
10
0
102 10
10
例 10.5、 (例 10.2續 )
• 譽仁告訴他爸爸說他的 3 分球 命中率是 50% ,• 如果他爸爸懷疑譽仁是吹牛, ( 即認為譽仁 3 分球命中率不到 0.5) ,• 要譽仁投 10 球,結果 10 球命中 3 球, 是否有證據說明譽仁是吹牛的?
11
左尾檢定
5.0:
5.0:
1
0
pH
pH
12
P 值
P值 10)5.0(3
10
2
10
1
10
0
10
176.01024176
13
• 因 P 值 > 0.05 , 所以沒有證據說譽仁的 3 分球 命中率不到 5 成
14
10.2 一組樣本比例的推論( 大樣本情形 )
)1 ,0(~ˆ
)1(N
pP
npp
15
p的1信賴區間 (ep̂ , ep̂ )
nppze )ˆ1(ˆ
2/
16
例 10.6 、• 如果譽仁在 3 分球線外投 100 球中 30 球 求譽仁 3 分球命中率 p 的 95% 信賴區間
17
由 10030p̂ 0 . 3 及 公 式 ( 1 0 . 6 ) 式 , 得 誤 差 界 限 e 為
0898.096.1 100)7.0)(3.0( e
故 由 ( 1 0 . 5 ) 式 , p 的 9 5 % 信 賴 區 間 為
( 0 . 3 - 0 . 0 8 9 8 , 0 . 3 + 0 . 0 8 9 8 ) = ( 0 . 2 1 0 2 , 0 . 3 8 9 8 )
19
在虛無假設00:ppH為真下
)1,0(~/)1(
ˆ
00
0 Nnpp
pp
20
(1)左尾檢定
01 : ppH
22
npp
ppz
/)1(
ˆ
00
0
23
(2)右尾檢定 檢定成功的機會p是否大於0p,即對立假設為
01: ppH
右尾檢定的棄卻域為
zz
(10.9)
其中z為(10.8)式。
24
(3)雙尾檢定 檢定成功的機會p是否等於0p,即對立假設為
01: ppH
雙尾檢定的棄卻域為
2/|| zz
(10.10)
其中z為(10.8)式。
25
例 10.7 、 (例 1.9 續 )
• 試檢定台南市成年市民中教育程度大專( 及以上 ) 所佔比例高於 4 成 ?
26
檢定
4.0:
4.0:
1
0
pH
pH
27
5772.00693.0
04.0
50/6.04.0
4.044.0
z
28
沒有證據說台南市成年市民大專 ( 及以上 ) 的教育程度
所佔比例高於 4 成
因 645.15772.0 05.0 zz
29
例 10.8、• 假設小華擲 100 次此枚銅板, 結果擲出 80 次正面, 請問: 是否有證據說此銅板出現正面的 機率高於 0.5 ?
30
)5.0|80( pXP 100100100
10081
10080 )5.0)(...( CCC
101056.5
31
註 1: 以 第 六 章 6 . 4 節 常 態 分 配 校 正 公 式 求 二 項 分 配 之 近 似 值
)5.0|80( pXP )5.05.0100
5.05080
5.05.0100
50(
XP
9108.1)9.5()5
5.29( ZPZP
與 二 項 分 配 機 率 值 到 小 數 點 後 第 8 位 都 一 樣 為 0 。
32
註 2:• 如果擲的是一個出現正面的機率為 0.6 的銅板 100 次,
• 它會出現 80 次 ( 或以上 ) 正面的機率是多少?
33
機率值 )6.0|80( pXP
))6.0(...)4.0()6.0()4.0()6.0(( 100100100
198110081
208010080 CCC
= 0 . 0 0 0 0 1 6
34
以常態分配校正公式求二項分配之近似值
)6.0|80( pXP )4.06.0100
5.06080
4.06.0100
60(
XP
000034.0)98.3()899.4
5.19( ZPZP
35
例 10.9 、有人懷疑某銅板是不公正的 ?
5.0:
5.0:
1
0
pH
pH
36
• 假如他擲此銅板 10 次, 結果出現正面 9 次• 試問 H0是否顯著? 又 P 值是多少?
37
有證據說銅板是不公正的
P 值= )9(2)9.0(̂2 XPpP
101010
109 )5.0)((2 CC
05.0022.01024/221024/)110(2
38
註 1:如以大樣本計算 z 值
10
5.05.0
5.09.0
)1(
ˆ
00
0
n
pp
ppz 025.096.153.2108.0
5.0
104.0z
39
註 2:如以大樣本計算 P 值
P 值= 0114.0)53.2|(|)108.0|(| ZPZP
40
例 10.10 、• 大華公司產品不良率高達 10 %, 公司提出改善計畫後• (1) 由生產線隨機抽樣 400 個產品, 得樣本不良率為 8% , 試檢定此改善策略是否有效 ?
41
• (2) 若抽樣 400 個產品, 試問樣本不良率要多少以下 才能有證據說改善策略有效 ?
42
(1) 檢定此改善策略是否有效 ?即檢定
1.0:
1.0:
1
0
pH
pH
43
(a) 檢定
n
pp
ppz
)1(
ˆ
00
0
400
9.01.0
1.008.0
33.13.0
)02.0(20
44
沒有證據說改善策略有效
645.133.1 05.0 zz
45
(b) P 值
P 值= )32()08.0400( XPXP
kk
kkC
40032
0
400 )9.0()1.0( )36
4032
9.01.0400
1.0400(
X
P
0918.0)33.1()3
4( ZPZP
46
即沒有證據說改善策略有效
因05.00918.0,所以0H不顯著
47
(2) 若抽樣 400 個產品,則檢定的 z 值
)1.0ˆ(3.0
20
4009.01.0
1.0ˆ
pp
z
48
也就是抽樣 400 個產品,樣本不良率要在 0.075 以下,才能有證據說改善策略有效
645.1)1.0ˆ(3.0
20 p
20
3.0645.11.0ˆ p
即 樣 本 不 良 率
075325.020
3.0645.11.0ˆ p
49
例 10.11 、
再以投籃為例,• 如譽仁投 100 球進 30 球, 試檢定譽仁 3 分球命中率是否等於 0.5 ?
50
405.0
2.0
100)5.05.0(
5.010030
z
51
有足夠證據說譽仁 3 分球命中率不等於 0.5
96.14|| z
52
例 10.12 、 (例 10.11 續 )
再以譽仁投籃為例,• 譽仁說 3 分球命中率至少 5 成, 但爸爸懷疑他的命中率不到 5 成, 要譽仁投球,結果投 100 球進 30 球,• 試問是否已有證據說譽仁吹牛?
53
檢定譽仁吹牛,即檢定
5.0:
5.0:
1
0
pH
pH
54
可下譽仁 3 分球命中率不到 5 成的結論
因 645.105.0 z ,而由上例算出
05.0645.14 zz
55
例 10.13 、• 兄弟、統一兩隊在職棒元年比賽 20 場• 試問兄弟在這 20 場中至少要贏幾場以上 才能顯示該年兄弟對統一比賽時 勝率超過 5 成?
56
5.0:0 pH 對 5.0:1 pH
57
)1,0(~)1(
NpX
npp
58
645.15.0
05.0
20)5.01(5.0
z
x
59
即
2015.0645.15.0 x
化簡得棄卻域為
6839.0x 或 678.13 ix
也就是兄弟要在 2 0 場中至少要贏 1 4 場,才表示該年對統一的勝率顯著高於 5
成。
60
例 10.14、• 某次選舉有甲、乙兩位候選人, 民意調查有效樣本為 1000 , 支持甲有 550 人, 支持乙有 450 人,• 是否有證據說甲的得票率高於乙?
61
檢定甲的得票率是否高於乙,即檢定
5.0:
5.0:
1
0
pp
H
H
62
16.30158.005.0
1000)5.0)(5.0(
5.055.0 z
63
因 645.116.3z ,故有足夠證據說甲的得票率高於乙
64
例 10.15 、 (例 1.9 續 )
• 試檢定台南市成年市民 高中職與大專 ( 及以上 ) 這兩種教育程度
所佔比例是否相等 ?
65
檢定
5.0:
5.0:
1
0
pp
H
H
66
9863.038/5.05.0
5.042.0
z
67
• 因
• 故不顯著, 即無證據說台南市成年市民中 高中 ( 職 ) 與大專此兩種的教育程度 所佔比例有顯著差異。
96.19863.0|| 025.0 zz
68
樣本數• 如果在民意調查中, 我們想使某候選人的樣本得票率與 真正開票後的得票率 p
誤差在 e=0.03 之內的機會有 95% ,• 試問我們應調查多少個樣本數 n ?
69
樣本數的決定
n = 2
22/ )̂1(̂
e
ppz
70
• 如事先未知,則由下式
• 因此以最壞的情形, p=0.5 代入 (10.12)式
)5.0)(5.0()ˆ1(ˆ pp
71
樣本數
n = 2
22/ )5.0)(5.0(
e
z
72
因05.0,查表96.1025.0z ,及03.0e ,所以所需樣本數最多需要
n = 106811.10672
22
)03.0(
)5.0()96.1(
73
註 1:• 若誤差界限要 由 e=0.03 降為 0.01
• 則樣本數增加 8 倍,變為 9604
74
註 2:• 若要求誤差界限仍為 e=0.03 , 但信賴度提高至 99% ,• 則樣本數最多需要
n = 2
22
)03.0(
)5.0()57.2( = 1835
75
註 3:• 如果已知候選人甲的得票率不會超過 3成
在 95% 信賴度與 3% 誤差界限下• 抽樣樣本數為
8974.8962
2
)03.0(
)7.03.0()96.1( n
76
10.4 二組獨立樣本比例之推論( 大樣本情況 )
• 某公司產品過去不良率過高,• 經理要求研發單位研究提出改善對策,吾人關心的問題是
2p小於1p
77
檢定
H0:p1 = p2 對 H1:p1 > p2
78
),1(~,,, 121 1pBXXX
iid
n
),1(~,,, 221 2pBYYY
iid
n
79
),(~ 2ˆˆ21 2121
ˆˆppppNPP
80
22ˆˆ 21 yxpp
2
22
1
21
nn
2
22
1
11 )1()1(npp
npp
81
經標準化
)1,0(~2
)21(21
)11(1
2121 )(ˆˆN
npp
npp
ppPP
82
21pp 的 1 信賴區間
)ˆˆ ,ˆˆ( 2121 eppepp
2
22
1
11 )ˆ1(ˆ)ˆ1(ˆ2/ n
ppn
ppze
83
例 10.16 、• 浩仁、譽仁兩兄弟比賽 3 分球, 浩仁投 150 球中 36 球, 譽仁投 100 球中 30 球,• 試求浩仁與譽仁 3 分球命中率相差的 95% 信賴區間?
84
兩人樣本命中率的相差
06.03.024.0ˆˆ10030
15036
21 pp
85
誤差界限
1129.005758.0960.196.1 100)7.0)(3.0(
150)76.0)(24.0(
86
21pp的95% 信賴區間
(-0.06-0.1129 ,-0.06+0.1129)
• 即信賴區間為 (-0.1729 , 0.0529)
87
2. 檢定
對於檢定兩組獨立樣本的比例 p1 與 p2 相等與否的問題,因 H0為真時
p1 = p2 ,
88
標準誤
2121
)1()1(ˆˆ n
ppn
ppppS
89
綜合樣本比例
21
2211 ˆˆnn
pnpnp
90
檢定統計量
z =
21
)1()1(
21ˆˆ
npp
npp
pp
91
例 10.17 、 (例 10.16 續 )
• 檢定浩仁、譽仁兩兄弟 3 分球 命中率是否有顯著差異?
92
雙尾檢定
211
210
:
:
ppH
ppH
93
綜合樣本比例
264.025066
1001503036
p
94
z 值
0545.10569.0
06.0
100)736.0)(264.0(
150)736.0)(264.0(
3.024.0
z
95
我們下兩兄弟的 3 分球命中率沒有顯著差異的結論
96.10545.1|0545.1||| 025.0 zz
96
例 10.18 、• 張三、李四分別對候選人甲 做民調,各抽 1000 人,• 張三調查結果有 550 人支持候選人甲, 李四調查結果有 450 人支持候選人甲,• 請問兩人調查結果支持候選人甲的比例是否有顯著差異?
97
兩人調查的樣本數為
100021 nn
兩人調查候選人甲的樣本數支持率分別為
55.01000
550ˆ 1 p , 45.0
1000
450ˆ 2 p
故綜合樣本比例為 5.02000
450550
p
98
z 值
))(1(
ˆˆ
21
11
21
nnpp
ppz
47.45.0
1.0500
)(5.05.0
45.055.0
10001
10001
99
因96.147.4,故兩人調查結果支持候選人甲的比例有顯著差異
100
例 10.19 、• 若由甲、乙兩生產線分別 隨機抽樣 100 個、 200 個產品, 結果分別有 5 個與 20 個不良品,• 請問 (1) 是否乙生產線的不良率顯著高於 5 %?
(2) 甲、乙兩生產線的不良率 是否有顯著差異?
101
檢定
05.0:
05.0:
21
20
pH
pH
102
1467.30154.0
05.0
20095.005.0
05.01.0
z
103
有足夠證據說乙生產線的不良率顯著高於 5 %
645.12467.3 05.0 zz
104
(2) 即檢定
211
210
:
:
ppH
ppH
105
甲、乙兩生產線的不良率
05.0100
51̂ p , 1.0
200
202̂ p
106
綜合樣本比例
0833.0300
205
p
107
z 值
))(1(
ˆˆ
21
11
21
nnpp
ppz
4792.10338.0
05.0
)(9167.00833.0
1.005.0
2001
1001
108
甲、乙兩生產線的不良率沒有顯著差異
96.14792.1|| z
110
1.
• 社會科學的問卷調查與工業品管產品的不良率是常遇到的比例問題,
• 基本上處理比例的統計推論原理• 與前兩章連續型資料 平均數統計推論相似。
111
2.
• 想知道男女生對某法案贊成比例 是否一致?• 或是想知道某種品管改善方案 是否可以降低不良率?
• 這些問題都是比例檢定問題。
112
3. 有關比例的檢定
• 在大樣本情況下, 則利用中央極限定理求值做決策。
113
4. 做民意調查時樣本數的決定
• 與誤差及信賴區間有關,• 例如估計得票率,若想估計誤差 控制在 3% 以內, 信賴度 95% , 需要有效樣本數是 1068 。
114
5.
• 注意兩組樣本 比例檢定問題與 兩組比例相差的信賴區間• 標準差算法不同處。