Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
確率統計でものを考える 1
度数分布とヒストグラム
データの中の分析(記述統計)であれ、データの外への推論(推測統計)であれ、まず、データの持つ基本的特性を把握することが重要である。
確率統計でものを考える 2
分析の流れ
データの分布(散らばり)を、度数分布表にまとめ、グラフ化する。
グラフに、平均値や分散など、分布の特徴を示す客観的な数値を加える。
データが母集団からのランダムサンプルならば、母集団についての推測を行う。
確率統計でものを考える 3
度数分布とヒストグラムの作成
データを昇(降)順に並べ替える。
階級を設定し、各階級に該当するデータ数を求める。
各階級の相対度数と累積相対度数を計算する。
度数分布表をもとに、ヒストグラムを作成する。
確率統計でものを考える 4
もとのデータと並べ替え
もとのデータを,
x1,x2,x3,x4 ,,xnとする.それを昇順に並べ替えたものを,
x(1), x(2), x(3), x(4),, x(n)であらわす.
データが与えられたら,それを昇順に並べ替えると都合がよい.
43,20,65,38,32,33,91
,8,12,26,41,53,25,18,
29,32,36,43,33,57
8,12,18,20,25,26,29,
32,33,33,36,38,41,43
,43,53,57,65,91
確率統計でものを考える 5
エクセルを用いた並べ替え
昇順 降順
確率統計でものを考える 6
階級 度数 相対度数 累積相対度数
0以上10未満 1 0.05 0.05
10~20 2 0.10 0.15
20~30 4 0.20 0.35
30~40 6 0.30 0.65
40~50 3 0.15 0.80
50~60 2 0.10 0.9060~70 1 0.05 0.95
70~80 0 0.00 0.95
80~90 0 0.00 0.95
90~100 1 0.05 1.00
100~ 0 0.00 1.00
合計 20 1
表3-1 得点の度数分布表
1
20
2
20これらをまとめて一つ
の階級にする
確率統計でものを考える 7
階級 度数 相対度数 累積相対度数
0以上10未満 n1
10~20 n2
20~30 n3
30~40 n4
40~50 n5
50~60 n6
60~70 n7
70~80 n8
80~90 n9
90~100 n10
合計
表3-1 得点の度数分布表
10
1i inn
p6 n6 n
p1 n1 n
p2 n2 n
p7 n7 n
p5 n5 n
p9 n9 n
p10 n10 n
p8 n8 n
p4 n4 n
p3 n3 n
11021 ppp
r1 p1
r2 p1 p2
r3 p1 p2 p3
r4 r3 p4
r5 r4 p5
r6 r5 p6
r7 r6 p7
r8 r7 p8
r9 r8 p9
110910 prr
確率統計でものを考える 8
Excel を使うとき=B3/B$13
コピー
=C3
=D3+C4
コピー
=SUM(B3:B12)
9
幹葉表示(SAS JMPの利用)
ヒストグラム(棒グラフ)を作成するための簡便法.
1. データ数字の幹になる部分と,葉になる部分に分け,共通の幹に葉を書いてゆく.
2. 葉の部分を並べ替えることにより,データの並べ替えが完了する.
3. 最大値,最小値,4分位点を求める.
確率統計でものを考える
10
箱ひげ図(SAS JMP の利用)
極端に離れたデータは,外れ値とする.
数直線を引き,外れ値を○印で示す.
データの最小値と最大値を結ぶ線を引き,端点にヒゲを記入する.
下側4分位点と上側4分位点に含まれる区間を長方形(箱)で示す.
確率統計でものを考える
確率統計でものを考える 11
階級数と階級幅の決め方
階級数は、データの数に応じて決める。
log2n + 1 に近い数で、データの性質を加味して決める。
階級の幅は、最初と最後を除いて、同じ幅にする。
階級の端点は出来るだけ簡単な数字にする。
確率統計でものを考える 12
例題 1.1 年間収入の場合
経済データは、度数分布の形で提供される場合が多い。
収入データは、他の経済データと同様に、高額データの取り扱いが難しい。
テストデータや身長データでは、さほど極端な値がないので、取り扱いが比較的楽である。
確率統計でものを考える 13
何も考えずグラフにすれば・・
0
200
400
600
800
1,000
1,200
~100
100~
150
150~
200
200~
250
250~
300
300~
350
350~
400
400~
450
450~
500
500~
550
550~
600
600~
650
650~
700
700~
750
750~
800
800~
900
900~
100
0
1000~
世帯数
階級
年間収入階級別世帯数のヒストグラム
統計学第3章 14
階級幅を変えてグラフ化すると
年間収入階級別世帯数
0.0
100.0
200.0
300.0
400.0
500.0
600.0
700.0
100~150
150~200
200~250
250~300
300~350
350~400
400~450
450~500
500~550
550~600
600~650
650~700
700~750
750~800
800~850
850~900
900~950
950~1000
1000~
確率統計でものを考える 15
2 累積相対度数分布とローレンツ曲線
累積相対度数の応用例として、格差を表すローレンツ曲線とジニ係数について学ぶ。
「世界の人口の貧しい方から90%の収入は、全体の収入の10%に満たない(数字は不正確)」といった表現を、より充実させるものである。
確率統計でものを考える 16
遺産相続の例1-1
左表では,明らかに,相続額が不平等である.
最も平等な配分は?
最も不平等な配分は?
相続者 相続額
長男 800
次男 700
3男 400
4男 200
5男 1400
確率統計でものを考える 17
遺産相続の例1-2
相続人 金額 人数比 金額比累積人数比
累積金額比
4男 200
3男 400
次男 700
長男 800
5男 1400
Σ 3500
確率統計でものを考える 18
遺産相続の例1-3
相続人 金額 人数比 金額比累積人数比
累積金額比
4男 200 0.2 0.057 0.2 0.057
3男 400 0.2 0.114 0.4 0.171
次男 700 0.2 0.200 0.6 0.371
長男 800 0.2 0.229 0.8 0.600
5男 1400 0.2 0.400 1.0 1.000
Σ 3500 1.0 1.000
確率統計でものを考える 19
遺産相続の例1-4
相続人
金額人数比
金額比
累積人数比
累積金額比
4男
200 0.2 0.057 0.2 0.057
3男
400 0.2 0.114 0.4 0.171
次男
700 0.2 0.200 0.6 0.371
長男
800 0.2 0.229 0.8 0.600
5男
1400 0.2 0.400 1.0 1.000
Σ 3500 1.0 1.000
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.2 0.4 0.6 0.8 1
ローレンツ曲線
確率統計でものを考える 20
遺産相続の例2-1
相続人
金額人数比
金額比
累積人数比
累積金額比
3
男50 0.2 0.014 0.2
0.014
3
2
男150 0.2 0.043 0.4
0.057
1
長男
200 0.2 0.057 0.60.114
3
4男
300 0.2 0.086 0.8 0.200
5男
2800 0.2 0.800 1.0 1.000
Σ 3500 1.0 1.000
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.2 0.4 0.6 0.8 1
確率統計でものを考える 21
遺産相続の例2-2(数式)
相続人 金額 人数比 金額比累積人数
比累積金額比
3男50 0.2 0.014 0.2 0.0143
2男150 0.2 0.043 0.4 0.0571
長男200 0.2 0.057 0.6 0.1143
4男300 0.2 0.086 0.8 0.200
5男2800 0.2 0.800 1.0 1.000
Σ3500 1.0 1.000
x1
x2
x3
x4
x5
xii1
5
p1
p2
p3
p4
p5
pii1
5
q1
q2
q3
q4
q5
qii1
5
P1
P2
P3
P4
P5
Q1
Q2
Q3
Q4
Q5
P4 p1 p2 p3 p4 P3 p4
確率統計でものを考える 22
遺産相続の例3-1
相続人
金額人数比
金額比
累積人数比
累積金額比
3
男700 0.2 0.2 0.2 0.2
2
男700 0.2 0.2 0.4 0.4
長男
700 0.2 0.2 0.6 0.6
4男
700 0.2 0.2 0.8 0.8
5男
700 0.2 0.2 1.0 1.0
Σ 3500 1.0 1.0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.2 0.4 0.6 0.8 1
確率統計でものを考える 23
遺産相続の例3-2
A B C D E F
112 相続人 金額 人数比 金額比累積人数
比累積金額比
113 3男 700 0.2 0.2 0.2 0.2
114 2男 700 0.2 0.2 0.4 0.4
115 長男 700 0.2 0.2 0.6 0.6
116 4男 700 0.2 0.2 0.8 0.8
117 5男 700 0.2 0.2 1.0 1.0
118 Σ 3500 1.0 1.0
=B113/B$118
=C2
=E2+C3
確率統計でものを考える 24
3つの例の比較
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.2 0.4 0.6 0.8 1
例1
例2
例3
確率統計でものを考える 25
ジニ係数とは?
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.2 0.4 0.6 0.8 1
右の図の,黄緑の線で囲まれた面積の2倍を,ジニ係数と呼びます.
ジニ係数は,0 と1 の間の数で,1 に近いとき不平等度が高くなります.
確率統計でものを考える 26
ジニ係数の求め方
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.2 0.4 0.6 0.8 1
累積人数比
累積金額比
三角形又は台形の面積
0.2 0.057
0.4 0.171
0.6 0.371
0.8 0.600
1.0 1.000
合計
0.0570.22
(0.057 0.171)
(0.4 0.2) 2
(0.171 0.371)
(0.6 0.4) 2
(0.371 0.600)
(0.8 0.6) 2
(0.6001.000)
(1.0 0.8) 2
0.34
32.034.021
)34.05.0(2
ジニ係数は
確率統計でものを考える 27
ジニ係数の求め方(式)
累積人数比
累積金額比
三角形か楕円の面積
P1 Q1
P2 Q2
P3 Q3
P4 Q4
P5 Q5
P1Q1
2
(P2 P1)(Q2 Q1)
2
(P3 P2 )(Q3 Q2 )
2
(P4 P3)(Q4 Q3)
2
(P5 P4 )(Q5 Q4 )
2
()
1 () 2
ジニ係数は
確率統計でものを考える 28
)})(())((
))(())(({1
54454334
3223211211
QQPPQQPP
QQPPQQPPQP
)}
{1
54445545
43334434
32223323
2111221211
QPQPQPQP
QPQPQPQP
QPQPQPQP
QPQPQPQPQP
確率統計でものを考える 29
ジニ係数の求め方( 公式)
累積人数比
累積金額比
三角形か楕円の面積
P1 Q1
P2 Q2
P3 Q3
P4 Q4
P5 Q5
P1Q2 P2Q1
12 () (P1Q2 P2Q1)
(P2Q3 P3Q2 ) (P3Q4 P4Q3)
(P4Q5 P5Q4 )
P2Q3 P3Q2
P3Q4 P4Q3
P4Q5 P5Q4
ジニ係数
ジニ係数