29
確率統計でものを考える 1 度数分布とヒストグラム データの中の分析(記述統計)で あれ、データの外への推論(推測 統計)であれ、まず、データの持 つ基本的特性を把握することが重 要である。

度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 1

度数分布とヒストグラム

データの中の分析(記述統計)であれ、データの外への推論(推測統計)であれ、まず、データの持つ基本的特性を把握することが重要である。

Page 2: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 2

分析の流れ

データの分布(散らばり)を、度数分布表にまとめ、グラフ化する。

グラフに、平均値や分散など、分布の特徴を示す客観的な数値を加える。

データが母集団からのランダムサンプルならば、母集団についての推測を行う。

Page 3: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 3

度数分布とヒストグラムの作成

データを昇(降)順に並べ替える。

階級を設定し、各階級に該当するデータ数を求める。

各階級の相対度数と累積相対度数を計算する。

度数分布表をもとに、ヒストグラムを作成する。

Page 4: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 4

もとのデータと並べ替え

もとのデータを,

x1,x2,x3,x4 ,,xnとする.それを昇順に並べ替えたものを,

x(1), x(2), x(3), x(4),, x(n)であらわす.

データが与えられたら,それを昇順に並べ替えると都合がよい.

43,20,65,38,32,33,91

,8,12,26,41,53,25,18,

29,32,36,43,33,57

8,12,18,20,25,26,29,

32,33,33,36,38,41,43

,43,53,57,65,91

Page 5: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 5

エクセルを用いた並べ替え

昇順 降順

Page 6: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 6

階級 度数 相対度数 累積相対度数

0以上10未満 1 0.05 0.05

10~20 2 0.10 0.15

20~30 4 0.20 0.35

30~40 6 0.30 0.65

40~50 3 0.15 0.80

50~60 2 0.10 0.9060~70 1 0.05 0.95

70~80 0 0.00 0.95

80~90 0 0.00 0.95

90~100 1 0.05 1.00

100~ 0 0.00 1.00

合計 20 1

表3-1 得点の度数分布表

1

20

2

20これらをまとめて一つ

の階級にする

Page 7: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 7

階級 度数 相対度数 累積相対度数

0以上10未満 n1

10~20 n2

20~30 n3

30~40 n4

40~50 n5

50~60 n6

60~70 n7

70~80 n8

80~90 n9

90~100 n10

合計

表3-1 得点の度数分布表

10

1i inn

p6 n6 n

p1 n1 n

p2 n2 n

p7 n7 n

p5 n5 n

p9 n9 n

p10 n10 n

p8 n8 n

p4 n4 n

p3 n3 n

11021 ppp

r1 p1

r2 p1 p2

r3 p1 p2 p3

r4 r3 p4

r5 r4 p5

r6 r5 p6

r7 r6 p7

r8 r7 p8

r9 r8 p9

110910 prr

Page 8: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 8

Excel を使うとき=B3/B$13

コピー

=C3

=D3+C4

コピー

=SUM(B3:B12)

Page 9: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

9

幹葉表示(SAS JMPの利用)

ヒストグラム(棒グラフ)を作成するための簡便法.

1. データ数字の幹になる部分と,葉になる部分に分け,共通の幹に葉を書いてゆく.

2. 葉の部分を並べ替えることにより,データの並べ替えが完了する.

3. 最大値,最小値,4分位点を求める.

確率統計でものを考える

Page 10: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

10

箱ひげ図(SAS JMP の利用)

極端に離れたデータは,外れ値とする.

数直線を引き,外れ値を○印で示す.

データの最小値と最大値を結ぶ線を引き,端点にヒゲを記入する.

下側4分位点と上側4分位点に含まれる区間を長方形(箱)で示す.

確率統計でものを考える

Page 11: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 11

階級数と階級幅の決め方

階級数は、データの数に応じて決める。

log2n + 1 に近い数で、データの性質を加味して決める。

階級の幅は、最初と最後を除いて、同じ幅にする。

階級の端点は出来るだけ簡単な数字にする。

Page 12: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 12

例題 1.1 年間収入の場合

経済データは、度数分布の形で提供される場合が多い。

収入データは、他の経済データと同様に、高額データの取り扱いが難しい。

テストデータや身長データでは、さほど極端な値がないので、取り扱いが比較的楽である。

Page 13: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 13

何も考えずグラフにすれば・・

0

200

400

600

800

1,000

1,200

~100

100~

150

150~

200

200~

250

250~

300

300~

350

350~

400

400~

450

450~

500

500~

550

550~

600

600~

650

650~

700

700~

750

750~

800

800~

900

900~

100

0

1000~

世帯数

階級

年間収入階級別世帯数のヒストグラム

Page 14: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

統計学第3章 14

階級幅を変えてグラフ化すると

年間収入階級別世帯数

0.0

100.0

200.0

300.0

400.0

500.0

600.0

700.0

100~150

150~200

200~250

250~300

300~350

350~400

400~450

450~500

500~550

550~600

600~650

650~700

700~750

750~800

800~850

850~900

900~950

950~1000

1000~

Page 15: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 15

2 累積相対度数分布とローレンツ曲線

累積相対度数の応用例として、格差を表すローレンツ曲線とジニ係数について学ぶ。

「世界の人口の貧しい方から90%の収入は、全体の収入の10%に満たない(数字は不正確)」といった表現を、より充実させるものである。

Page 16: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 16

遺産相続の例1-1

左表では,明らかに,相続額が不平等である.

最も平等な配分は?

最も不平等な配分は?

相続者 相続額

長男 800

次男 700

3男 400

4男 200

5男 1400

Page 17: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 17

遺産相続の例1-2

相続人 金額 人数比 金額比累積人数比

累積金額比

4男 200

3男 400

次男 700

長男 800

5男 1400

Σ 3500

Page 18: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 18

遺産相続の例1-3

相続人 金額 人数比 金額比累積人数比

累積金額比

4男 200 0.2 0.057 0.2 0.057

3男 400 0.2 0.114 0.4 0.171

次男 700 0.2 0.200 0.6 0.371

長男 800 0.2 0.229 0.8 0.600

5男 1400 0.2 0.400 1.0 1.000

Σ 3500 1.0 1.000

Page 19: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 19

遺産相続の例1-4

相続人

金額人数比

金額比

累積人数比

累積金額比

4男

200 0.2 0.057 0.2 0.057

3男

400 0.2 0.114 0.4 0.171

次男

700 0.2 0.200 0.6 0.371

長男

800 0.2 0.229 0.8 0.600

5男

1400 0.2 0.400 1.0 1.000

Σ 3500 1.0 1.000

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.2 0.4 0.6 0.8 1

ローレンツ曲線

Page 20: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 20

遺産相続の例2-1

相続人

金額人数比

金額比

累積人数比

累積金額比

3

男50 0.2 0.014 0.2

0.014

3

2

男150 0.2 0.043 0.4

0.057

1

長男

200 0.2 0.057 0.60.114

3

4男

300 0.2 0.086 0.8 0.200

5男

2800 0.2 0.800 1.0 1.000

Σ 3500 1.0 1.000

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.2 0.4 0.6 0.8 1

Page 21: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 21

遺産相続の例2-2(数式)

相続人 金額 人数比 金額比累積人数

比累積金額比

3男50 0.2 0.014 0.2 0.0143

2男150 0.2 0.043 0.4 0.0571

長男200 0.2 0.057 0.6 0.1143

4男300 0.2 0.086 0.8 0.200

5男2800 0.2 0.800 1.0 1.000

Σ3500 1.0 1.000

x1

x2

x3

x4

x5

xii1

5

p1

p2

p3

p4

p5

pii1

5

q1

q2

q3

q4

q5

qii1

5

P1

P2

P3

P4

P5

Q1

Q2

Q3

Q4

Q5

P4 p1 p2 p3 p4 P3 p4

Page 22: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 22

遺産相続の例3-1

相続人

金額人数比

金額比

累積人数比

累積金額比

3

男700 0.2 0.2 0.2 0.2

2

男700 0.2 0.2 0.4 0.4

長男

700 0.2 0.2 0.6 0.6

4男

700 0.2 0.2 0.8 0.8

5男

700 0.2 0.2 1.0 1.0

Σ 3500 1.0 1.0

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.2 0.4 0.6 0.8 1

Page 23: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 23

遺産相続の例3-2

A B C D E F

112 相続人 金額 人数比 金額比累積人数

比累積金額比

113 3男 700 0.2 0.2 0.2 0.2

114 2男 700 0.2 0.2 0.4 0.4

115 長男 700 0.2 0.2 0.6 0.6

116 4男 700 0.2 0.2 0.8 0.8

117 5男 700 0.2 0.2 1.0 1.0

118 Σ 3500 1.0 1.0

=B113/B$118

=C2

=E2+C3

Page 24: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 24

3つの例の比較

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.2 0.4 0.6 0.8 1

例1

例2

例3

Page 25: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 25

ジニ係数とは?

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.2 0.4 0.6 0.8 1

右の図の,黄緑の線で囲まれた面積の2倍を,ジニ係数と呼びます.

ジニ係数は,0 と1 の間の数で,1 に近いとき不平等度が高くなります.

Page 26: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 26

ジニ係数の求め方

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.2 0.4 0.6 0.8 1

累積人数比

累積金額比

三角形又は台形の面積

0.2 0.057

0.4 0.171

0.6 0.371

0.8 0.600

1.0 1.000

合計

0.0570.22

(0.057 0.171)

(0.4 0.2) 2

(0.171 0.371)

(0.6 0.4) 2

(0.371 0.600)

(0.8 0.6) 2

(0.6001.000)

(1.0 0.8) 2

0.34

32.034.021

)34.05.0(2

ジニ係数は

Page 27: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 27

ジニ係数の求め方(式)

累積人数比

累積金額比

三角形か楕円の面積

P1 Q1

P2 Q2

P3 Q3

P4 Q4

P5 Q5

P1Q1

2

(P2 P1)(Q2 Q1)

2

(P3 P2 )(Q3 Q2 )

2

(P4 P3)(Q4 Q3)

2

(P5 P4 )(Q5 Q4 )

2

()

1 () 2

ジニ係数は

Page 28: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 28

)})(())((

))(())(({1

54454334

3223211211

QQPPQQPP

QQPPQQPPQP

)}

{1

54445545

43334434

32223323

2111221211

QPQPQPQP

QPQPQPQP

QPQPQPQP

QPQPQPQPQP

Page 29: 度数分布とヒストグラム確率統計でものを考える 2 分析の流れ データの分布(散らばり)を、度数分布表 にまとめ、グラフ化する。 グラフに、平均値や分散など、分布の特

確率統計でものを考える 29

ジニ係数の求め方( 公式)

累積人数比

累積金額比

三角形か楕円の面積

P1 Q1

P2 Q2

P3 Q3

P4 Q4

P5 Q5

P1Q2 P2Q1

12 () (P1Q2 P2Q1)

(P2Q3 P3Q2 ) (P3Q4 P4Q3)

(P4Q5 P5Q4 )

P2Q3 P3Q2

P3Q4 P4Q3

P4Q5 P5Q4

ジニ係数

ジニ係数