34
1 2017.11.17 高橋行雄 視覚的なデータの分布の同定を いつまで続けるのですか BioStat研究所(株) 高橋 行雄 2 2017.11.17 高橋行雄 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比 8 3.最尤法による分布のあてはめ 22 4Excel のソルバーの使用 32 5.複数の母集団からのサンプリング 41 6Excel ソルバーによる複数の母集団の パラメータ推定 54 まとめ 63 文献 65

B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

12017.11.17 高橋行雄

視覚的なデータの分布の同定をいつまで続けるのですか

BioStat研究所(株)

高橋 行雄

22017.11.17 高橋行雄

目 次

1.母集団の分布の同定 3

2.正規確率プロットとの対比 8

3.最尤法による分布のあてはめ 22

4. Excel のソルバーの使用 32

5.複数の母集団からのサンプリング 41

6.Excel ソルバーによる複数の母集団のパラメータ推定 54

まとめ 63

文献 65

Page 2: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

32017.11.17 高橋行雄

1.母集団の分布の同定

42017.11.17 高橋行雄

視覚的にデータの分布を確認

得られたデータがどのような母集団分布からサンプリングされたのかを同定することは,統計解析の初めの一歩である.

JMPの「一変量の分布」を用いて,視覚的

にデータの分布を確認するために多くの方法が提供されてきた.

伝統的には,正規分布のあてはめが可能か否かの判断が主体であった.

Page 3: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

52017.11.17 高橋行雄

対数尤度を用いた判定

JMPの「一変量の分布」には,ヒストグラム

に対する確率密度関数のあてはめが以前からサポートされていた.

最近のバージョンで「連続分布のあてはめ」で「すべて」を選択すると‐2倍の対数尤度とAICc(補正赤池情報量規準)の大きさの順に多くの分布が列挙される.

分布のあてはめについてAICcによる判定が可能となっている.

62017.11.17 高橋行雄

Excel による追試

各種のデータで AICc を用いた分布あてはめを検討することは,示唆に富むものだった.

対数尤度が出力されていることから,最尤法を用いていると思われるので,Excelを用いて追試を行った.

AICc を用いて,どのような分布のあてはめ

が適切かの検討に際し,従来の視覚的なあいまいな判定から脱却するいい機会と思われる.

Page 4: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

72017.11.17 高橋行雄

伝統的な統計解析を超えて

多くの学問分野で統計解析が必要とされ,分野ごとに統計の入門書がある.

例示が異なるだけで,扱う範囲は没個性的で画一的(極度の標準化)である.

JMPが提供している最新の統計解析は,これらの入門書では見出せない.

82017.11.17 高橋行雄

2.正規確率プロットとの対比

Page 5: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

92017.11.17 高橋行雄

臨床検査データでの事例

(ALT)丹後敏郎(1986) 臨床検査への統計学 表6.3 健常者194名のGPT値

102017.11.17 高橋行雄

正規性の検定

JMPを長年使っているが,「正規性の検定」

について関心がなく,いざ実施しようとした時に,JMPのFAQに頼ってしまった.

Page 6: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

112017.11.17 高橋行雄

正規性の検定結果

p<0.0001 であり,正規分布とは言えない

122017.11.17 高橋行雄

正規分布からの外れ値の検定

有意差検定病の人達に愛されている.

JMP には,含まれていない.

wikipedia.

Page 7: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

132017.11.17 高橋行雄

データリスト(Excel オブジェクト)丹後(1986) 臨床検査への統計学 表6.3 健常者194名のGPT値

18 29 78 22 19 5 16 25 17 1633 33 20 16 8 18 8 17 20 1941 28 10 36 9 18 14 17 23 1125 22 9 10 5 18 11 20 15 2036 22 32 16 24 19 6 16 27 1919 31 14 5 7 19 8 20 16 2722 36 30 12 15 22 26 23 21 2420 24 23 14 13 17 9 28 23 2431 19 39 18 5 18 25 21 14 1522 18 32 9 24 12 24 21 18 1422 22 21 20 5 7 7 22 30 1627 21 35 21 6 16 32 28 12 2117 17 26 17 5 21 29 29 20 831 46 34 11 5 17 20 23 28 2032 23 21 19 17 8 18 30 2332 12 13 15 18 24 22 18 1228 29 11 9 9 7 21 5 1837 11 30 14 7 19 13 23 1931 24 14 12 10 7 12 30 1719 35 31 17 16 13 13 24 16

142017.11.17 高橋行雄

分布のあてはめ(一変量の分布)

Page 8: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

152017.11.17 高橋行雄

3 種の分布のあてはめ

5

10

15

20

度数

0 10 20 30 40 50 60 70 80 90

162017.11.17 高橋行雄

対数尤度・AICc による比較

ワイブル < 対数正規 << 正規

AICc 1398.2 1401.7 1418.0

Page 9: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

172017.11.17 高橋行雄

AICc の計算

[ すべて] オプショ

ンを選択すると、用意されているほとんどすべての分布があてはめられ、「分布の比較」レポートにおいて、AICcが小さい順に、

それらの分布の名前が表示されます。

182017.11.17 高橋行雄

診断プロット(一変量の分布)

正規分布 対数正規分布 ワイブル分布

どれも直線上に乗っているとは言い難い

Page 10: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

192017.11.17 高橋行雄

対数正規分布ですか

p<0.01 であり,対数正規分布とは言えない

202017.11.17 高橋行雄

ワイブル分布ですか

p<0.01 であり,ワイブル分布とも言えない

Page 11: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

212017.11.17 高橋行雄

ガンマ分布ですか

0

10

20

30

40

50

60

70

80

0 5 10 15 20度数

222017.11.17 高橋行雄

3.最尤法による分布のあてはめ

Page 12: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

232017.11.17 高橋行雄

JMPはSASよりも優れている

JMPの「一変量のあてはめ」の「連続分布

のあてはめ」では,最尤法が使われているが,マニュアルには,全く説明がない.

最 尤 法 は , 「 Basic Analysis andGraphing」の中の名義ロジスティック回帰」の節で1回出てくるのみ(JMP10).

SASのUnivariateプロシジャでも各種の分布のあてはめは行うが,AICcによる比較は現在サポートされていない.

242017.11.17 高橋行雄

分布のパラメータの推定

正規分布は,平均と標準偏差の2パラメータで規定される.

与えられたデータからまず平均値を推定し,その平均値からの偏差平方を計算し,不偏分散の平方根から標準偏差を推定する.

ワイブル分布の位置 α , 形状 β は,どのように推定するのでしょうか.

「最尤法を使えばできる」といっても,具体的にはどのようにしたら良いのでしょうか.

Page 13: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

252017.11.17 高橋行雄

最尤法によるパラメータの推定

正規分布のパラメータ推定のためには,最尤法を使う必要は全くない.

しかし,正規分布のあてはめが,他の分布のあてはめと比較するためには,最尤法を適用し,AICc の算出が必要である.

Excel のソルバーを用いれば,ごく簡単に最尤法を適用でき,AICc もすぐに計算できる.もちろんJMPでも.

262017.11.17 高橋行雄

正規分布のパラメータ推定

最尤法を用いて,なじみのある正規分布の2つのパラメータの同時推定の手順について示す.

仮の平均を μ=20 とし,

仮の標準偏差を σ =5 とする.

正規分布の確率密度を Excel の関数で

Li=Normdist(yi,20,5,false)

として計算する. i = 1,2,...,194

Page 14: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

272017.11.17 高橋行雄

確率密度の対数,それらの合計

データ: y1 =18 ,y2 =33 ,…,y194 =20

確率密度: L1,L2 ,…,L194L1=Normdist(18,20,5,false) =0.0737

L2=Normdist(33,20,5,false) =0.0027– :

L194=Normdist(20,20,5,false)=0.0789

対数確率密度: ln L1,ln L2 ,…,ln L194

対数確率密度の和 ln L (対数尤度)

ln L = ln L1+ ln L2 +・・・ + ln L194

282017.11.17 高橋行雄

Excel による計算

μ= 20σ= 5

y i L i 対数

No GPT 確率密度 確率密度合計 ー ー -823.145

1 18 0.0737 -2.6082 33 0.0027 -5.9083 41 0.0000 -11.348

L1=Normdist(18,20,5,false)=0.0737LnL1=Ln(0.0737)=-2.608

194 20 0.0798 -2.528

Page 15: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

292017.11.17 高橋行雄

σ = 10 と変更μ= 20 20σ= 5 10

y i L i 対数 L i 対数

No GPT 確率密度 確率密度 確率密度 確率密度合計 ー ー -823.145 ー -708.136

1 18 0.0737 -2.608 0.0391 -3.2422 33 0.0027 -5.908 0.0171 -4.0673 41 0.0000 -11.348 0.0044 -5.427

194 20 0.0798 -2.528 0.0399 -3.222

σ を 10 に増加させたことにより,

y1 =18 の場合は確率密度が減少

y2 = 33 の場合は,0.0027 0.0171 と増大

302017.11.17 高橋行雄

対数確率密度の和(対数尤度)

μ=20, σ =5 の場合

ln L = -2.608 -5.908 ・・・ -2.528 = -823.145

μ=20, σ =10 の場合

ln L = -3.242 -4.067 ・・・ -3.222 = -708.136

対数尤度は,100以上増加している

μ= 19.742 , σ = 9.279 の場合

ln L = -3.164 -4.167 ・・・ -3.147 = -706.969

対数尤度は,わずかだが増大している

Page 16: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

312017.11.17 高橋行雄

μ= 19.742,σ = 9.279 に変更

194 20 0.0798 -2.528 0.0399 -3.222 0.0430 -3.147

μ= 20 20 19.742σ= 5 10 9.279

y i L i 対数 L i 対数 L i 対数

No GPT 確率密度 確率密度 確率密度 確率密度 確率密度 確率密度合計 ー ー -823.145 ー -708.136 ー -706.969

1 18 0.0737 -2.608 0.0391 -3.242 0.0422 -3.1642 33 0.0027 -5.908 0.0171 -4.067 0.0155 -4.1673 41 0.0000 -11.348 0.0044 -5.427 0.0031 -5.771

(-2)×対数尤度

(-2)ln L = (-2)×(-706.969)=1413.94

JMP で正規分布をあてはめた場合に一致

322017.11.17 高橋行雄

正規分布上の確率密度

0.00

0.01

0.02

0.03

0.04

0.05

0 10 20 30 40 50 60 70 80

μ= 19.742σ = 9.279

Page 17: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

332017.11.17 高橋行雄

4.Excel のソルバーの使用

342017.11.17 高橋行雄

Excel のソルバー

ソルバーは,Excel のアドイン

ファイル・タブアドインソルバー・アドイン

実行は,データ・タブ

ここまでは,JMPで求めた正規分布の最尤解 μ= 19.742 , σ = 9.279 を代入した.

最初に設定した μ=20, σ =5 を初期値とし,ソルバーを用いて,最尤解を求めてみよう

Page 18: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

352017.11.17 高橋行雄

ソルバーで対数尤度を最大化μ= 20σ= 5

y i L i 対数

No GPT 確率密度 確率密度合計 ー ー -823.145

1 18 0.0737 -2.6082 33 0.0027 -5.9083 41 0.0000 -11.348

194 20 0.0798 -2.528

μ= 19.74227σ= 9.255568

y i L i 対数

No GPT 確率密度 確率密度合計 ー ー -706.968

1 18 0.0423 -3.1622 33 0.0155 -4.1703 41 0.0031 -5.782

194 20 0.0431 -3.145

362017.11.17 高橋行雄

対数正規分布

μ=3, σ=0.3 の場合

L1=Normdist(Ln(18),3,0.5,false)/0.5 =0.0691– :

L194=Normdist(Ln(20),3,0.5,false)/0.5=0.0665

確率密度: L1,L2 ,…,L194

Page 19: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

372017.11.17 高橋行雄

対数正規分布の対数尤度

ソルバーにより対数尤度を最大化した結果

μ= 3 3 2.868σ= 0.3 0.5 0.504

y i L i 対数 L i 対数 L i 対数

No GPT 確率密度 確率密度 確率密度 確率密度 確率密度 確率密度合計 ー ー -794.079 ー -705.643 ー -698.845

1 18 0.0691 -2.672 0.0433 -3.140 0.0439 -3.1252 33 0.0102 -4.581 0.0148 -4.215 0.0110 -4.5083 41 0.0019 -6.257 0.0070 -4.958 0.0047 -5.355

194 20 0.0665 -2.711 0.0399 -3.222 0.0383 -3.262

μ= 2.867781σ= 0.504378

y i L i 対数

No GPT 確率密度 確率密度合計 ー ー -698.845

1 18 0.0439 -3.1262 33 0.0110 -4.5083 41 0.0047 -5.354

382017.11.17 高橋行雄

ワイブル分布

位置パラメータ:α, 尺度:βExcel関数: = Weible(yi, β, α,false)

Page 20: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

392017.11.17 高橋行雄

ワイブル分布の形状(Excel関数)

確率密度関数 累積分布関数

0.00

0.05

0.10

0.15

0.20

0.25

0 5 10 15 20 25 30 0.0

0.2

0.4

0.6

0.8

1.0

0 5 10 15 20 25 30

β=6

4

2

1

0.5 β=6 4

2

1

0.5

t=α 2α 3αt

t=α 2α 3α

t

Weibull(t,β,α,false)

Weibull(t,β,α,true) αを固定してβを変化させた.

t=α 点は,下側確率が常に 0.632となる.

402017.11.17 高橋行雄

最小極値は対数正規と同様

位置:λμ, 尺度:δσ

0.0

0.2

0.4

0.6

0.8

1.0

‐2 ‐1 0 1 2 3 4 5 0.0

0.2

0.4

0.6

0.8

1.0

‐2 ‐1 0 1 2 3 4 5

σ= 0.4

0.6

0.8

1.0

1.5

0.4

1.0

0.8 0.6

μ= 2.0

y=ln(t)

μ= 2.0

σ=1.5

μを固定してσを変化させた

t=μ 点は,下側確率が常に 0.632

Page 21: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

412017.11.17 高橋行雄

ワイブル分布の対数尤度α= 20 20 22.273β= 1 2 2.221

y i L i 対数 L i 対数 L i 対数

No GPT 確率密度 確率密度 確率密度 確率密度 確率密度 確率密度合計 ー ー -772.672 ー -702.104 ー -697.082

1 18 0.0203 -3.896 0.0400 -3.218 0.0412 -3.1892 33 0.0096 -4.646 0.0108 -4.524 0.0147 -4.2203 41 0.0064 -5.046 0.0031 -5.787 0.0043 -5.438

194 20 0.0184 -3.996 0.0368 -3.303 0.0398 -3.224

α= 22.27370β= 2.22073

y i L i 対数

No GPT 確率密度 確率密度合計 ー ー -697.082

1 18 0.0412 -3.1892 33 0.0147 -4.2203 41 0.0044 -5.438

ソルバーにより対数尤度を最大化した結果

422017.11.17 高橋行雄

5.複数の母集団からのサンプリング

全国消費実態調査の

2004年の匿名データから作成された

新擬似ミクロデータを使用

Page 22: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

432017.11.17 高橋行雄

新擬似ミクロデータ

2017 年 の SAS ユ ー ザ ー 総 会 で 第 5 回「Let‘sデータ分析コンテスト」のために,2004年の全国消費実態調査の匿名データ

から作成した新擬似ミクロデータを作成した.

この新擬似ミクロデータを公開した.69,131世帯,世帯属性14項目,収支203項目のSASデータセットおよびCSV形式のデータである.

442017.11.17 高橋行雄

Let's データ分析http://www.sascom.jp/lets/lets2017/

Page 23: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

452017.11.17 高橋行雄

年間収入・住居費・教育費(抜粋)

462017.11.17 高橋行雄

年間収入(10万世帯)の分布

対数正規分布が良くあてはまっていると思われる

Page 24: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

472017.11.17 高橋行雄

年間収入の常用対数対 数 変 換 す れ

ば正規分布をあてはめられる.

しかし,左に長く裾を引いている.

母集団数を3と

仮定した場合がAICcから示唆されている.

482017.11.17 高橋行雄

対数年間収入の分布のあてはめ

Page 25: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

492017.11.17 高橋行雄

年間収入の3母集団の推定

第1母集団: 年間収入=130万円 (0.7%)

第2母集団: 年間収入=242万円 (18.6%)

第3母集団: 年間収入=596万円 (80.8%)

母集団対数

推定値μ i μ-σ μ +σ 割合

1 2.1153 130 万円 36 470 0.7 %

2 2.3844 242 万円 131 449 18.6 %

3 2.7751 596 万円 351 1012 80.8 %

502017.11.17 高橋行雄

Ln(住居費+1)

住居費は,主に家賃であり,0円の世帯が多

数存在するので,1を加えて対数を取る.

Page 26: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

512017.11.17 高橋行雄

0 円の住居費を欠測値

522017.11.17 高橋行雄

住居費の3母集団の推定

母集団対数

推定値μ i μ-σ μ +σ 割合

1 2.7058 508 円/月 131 1,968 11.5 %

2 3.8178 6,574 円/月 1,562 27,663 60.1 %

3 4.6673 46,484 円/月 27,083 79,781 28.4 %

第1母集団: 住居費= 508円 (11.5%)

第2母集団: 住居費= 6,574円 (60.1%)

第3母集団: 住居費=46,484円 (28.4%)

Page 27: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

532017.11.17 高橋行雄

教育費ln(教育費+1)

ln(教育費)

542017.11.17 高橋行雄

教育費の3母集団の推定

母集団対数

推定値μ i μ-σ μ +σ 割合

1 3.7043 5,061 円/月 1,596 16,055 26.1 %

2 4.3092 20,380 円/月 10,871 38,204 34.0 %

3 4.7215 52,658 円/月 21,361 129,814 39.9 %

第1母集団: 教育費= 5,061円 (26.1%)

第2母集団: 教育費=20,380円 (34.0%)

第3母集団: 教育費=52,658円 (39.9%)

Page 28: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

552017.11.17 高橋行雄

6.Excel ソルバーによる複数の母集団のパラメータ推定

新擬似ミクロデータの対数を取った

教育費を 0.1 刻みで集計表での対応とした

562017.11.17 高橋行雄

対数教育費: 0.1 刻みの集計表

この表は、Excelのオブジェクトで保存されている.

log10教育

NN_10

万世帯log10教育

NN_10

万世帯log10教育

NN_10

万世帯1.2 1 1.0 3.2 336 379.9 4.8 1064 1442.31.5 3 1.2 3.3 388 413.0 4.9 872 1205.61.8 3 0.5 3.4 434 478.2 5.0 701 987.81.9 1 1.0 3.5 558 623.2 5.1 534 781.92.0 6 3.6 3.6 588 673.8 5.2 476 605.32.1 7 6.1 3.7 711 859.1 5.3 377 467.52.2 18 11.6 3.8 818 963.3 5.4 241 329.52.3 13 9.3 3.9 964 1186.0 5.5 119 150.12.4 37 36.4 4.0 1176 1420.6 5.6 83 82.52.5 67 53.0 4.1 1447 1792.8 5.7 38 48.12.6 58 56.3 4.2 1677 2050.6 5.8 9 15.72.7 85 77.8 4.3 2011 2393.5 5.9 1 2.22.8 118 107.1 4.4 2225 2617.7 6.0 1 0.72.9 138 126.0 4.5 2057 2437.5 6.1 3 3.93.0 188 176.8 4.6 1715 2025.6 6.3 1 1.23.1 266 299.3 4.7 1343 1659.3 計 23977 29065.4

欠測値 45154 70934.4合計 69131 99999.8

Page 29: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

572017.11.17 高橋行雄

ソルバーによる正規分布のあてはめ

6.3 1 1.2 0.001 -7.9

母集団 1μ= 4.316 変化させるセルσ= 0.563 変化させるセルδ= 1.000 混合割合

(-2)lnL= 49068

lnL = -24534 =Sum(Li) 最大化

log10

教育y in i

10万

世帯 m i

確率密度1

対数尤

度 lnL i

1.2 1 1.0 0.000 -15.7 =mi*lnLi

1.5 3 1.2 0.000 -15.4 Li=Normdist(yi,

1.8 3 0.5 0.000 -5.2 μi,σ i,false)

1.9 1 1.0 0.000 -9.6

582017.11.17 高橋行雄

JMPによる正規分布のあてはめ

ソルバーでの結果・一致

母集団 1μ= 4.316σ= 0.563

Page 30: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

592017.11.17 高橋行雄

母集団数2の正規分布のあてはめ

6.1 3 3.9 0.000 0.001 -27.16.3 1 1.2 0.000 0.000 -10.4

母集団 1 母集団 2μ= 3.438 4.441 変化させるセルσ= 0.465 0.454 変化させるセルδ= 0.124 0.876 混合割合

(-2)lnL= 47866

lnL = -23933 =Sum(lnLi) 最大化

log10

教育y in i

10万

世帯 m i

確率密

度 L 1i

確率密

度 L 2i

対数尤度

1.2 1 1.0 0.000 0.000 -13.8 =mi*ln(δ1L 1i

1.5 3 1.2 0.000 0.000 -13.1 +(1-δ1)L 2i)

1.8 3 0.5 0.002 0.000 -4.2

602017.11.17 高橋行雄

JMPとExcelの結果の比較

JMPとソルバーの結果は若干異なる

母集団 1 母集団 2μ= 3.438 4.441σ= 0.465 0.454δ= 0.124 0.876

Page 31: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

612017.11.17 高橋行雄

母集団数3の正規分布のあてはめ

6.0 1 0.7 0.002 0.000 0.002 -4.76.1 3 3.9 0.001 0.000 0.000 -29.26.3 1 1.2 0.000 0.000 0.000 -10.6

=mi*ln(δ1L 1i+δ 2L 2i

+(1-δ1-δ2)L 3i)対数尤度

母集団 1 母集団 2 母集団 3μ= 3.982 4.418 5.057σ= 0.594 0.282 0.259δ= 0.423 0.448 0.130

(-2)lnL= 47613

lnL = -23806

log10

教育y in i

10万

世帯 m i

確率密度1

確率密度2

確率密度3

対数尤度

1.2 1 1.0 0.000 0.000 0.000 -12.2

1.5 3 1.2 0.000 0.000 0.000 -12.0

1.8 3 0.5 0.001 0.000 0.000 -4.0

622017.11.17 高橋行雄

JMPとExcelの推定値に乖離

(-2)対数尤度から

JMPの結果は収束していない

差の

種類 パラメータ JMP Excel 絶対値

位置 μ1 3.654 3.982 0.328μ2 4.299 4.418 0.118μ3 4.685 5.057 0.372

ばらつき σ1 0.491 0.594 0.103σ2 0.285 0.282 0.003σ3 0.406 0.259 0.147

割合 π1 0.234 0.423 0.189π2 0.331 0.448 0.116π3 0.435 0.130 0.305

(-2)対数尤度= 47,730 47,613減少分= -117

推定値

Page 32: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

632017.11.17 高橋行雄

JMPの結果を初期値に

JMPの結果を初期値 ソルバーで対数尤度を最大化母集団 1 母集団 2 母集団 3

μ= 3.654 4.299 4.685σ= 0.491 0.285 0.406δ= 0.234 0.331 0.435

(-2)lnL= 47730

lnL = -23865

確率密度1

確率密度2

確率密度3

対数尤度

0.000 0.000 0.000 -14.2

0.000 0.000 0.000 -13.5

0.001 0.000 0.000 -4.4

母集団 1 母集団 2 母集団 33.982 4.418 5.0570.594 0.282 0.2590.423 0.448 0.130

(-2)lnL= 47613

lnL = -23806

確率密度1

確率密度2

確率密度3

対数尤度

0.000 0.000 0.000 -12.2

0.000 0.000 0.000 -12.0

0.001 0.000 0.000 -4.0

JMPでのパラメータ推定値からスタート

対数尤度は小さくなり結果は一致する

642017.11.17 高橋行雄

まとめ 1

得られたデータのみにより,正規分布に従うか否かで短絡的な統計手法の選択がはびこっている.

正規分布と対数正規分布,どちらのあてはめがいいのか,JMPでヒストグラム上に2つの分布曲線のあてはめだけでなく,AICによる数値的な比較は,画期的である.

Excel のソルバーを用いて追試を試みて,JMP内部の計算方法を明示した.

Page 33: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

652017.11.17 高橋行雄

まとめ 2

複数の母集団からのサンプリングされたデータに対して,JMPでパラメータを同時推定することが手軽にできるようになった.

2つの母集団の場合には,Excel によるパラメータ推定とほぼ同じであった.

3つの母集団の場合には,JMPのパラメー

タ推定値は,最尤推定量とは言い難い.どの様な推定法なのか,問い合わせ中である.

662017.11.17 高橋行雄

JMPに問い合わせた結果

最適化のアルゴリズムについて

まず、JMPにおいては、最適化のためのアルゴリズムとしてEMアルゴリズムを採用しています。

文献

Fraley, C. and Raftery, A. E. (2007)

Bayesian Regularization for Normal Mixture Estimation and Model-Based Clustering

Journal of Classification, 24, pp.155-181

Page 34: B-4 Biostat 高橋行雄 分布の同定 2017 10 31 - JMP User ......BioStat研究所(株) 高橋行雄 2017.11.17 高橋行雄 2 目次 1.母集団の分布の同定 3 2.正規確率プロットとの対比

672017.11.17 高橋行雄

JMPの非線形回帰による追試

提供されたスクリプトの実行:反復計算を Newton法とし,368回の反復でExcel と同じ結果に収束

初期値

収束

682017.11.17 高橋行雄

文献1) 丹後敏郎(1986),臨床検査への統計学,朝倉書店,p107.

2)高橋行雄(2016),定量限界を左側打ち切りとする最尤法による

各種の統計解析,https://community.jmp.com/kvoqx44227/ attachments/

kvoqx44227/discovery-ja-2016-content/10/1/C1-Yukio-Takahashi.pdf

3) 高橋行雄(2017),複数母集団のパラメータ推定 -全国消費実態調査

を用いて-, http://www.sascom.jp/download/pdf/usergroups2017_C-13.pdf

4) 高橋行雄(2017),Let’sデータ分析コンテストに用いる新擬似ミクロ

データの概要,http://www.sascom.jp/download/pdf/usergroups2017_D-03.pdf

4) 高橋行雄(2015), 「寿命の二変量」による 製品寿命の予測の基礎と応

用,http://www.yukms.com/biostat/takahasi2/rec/archive/takahashi_04_1(2015_04_10).pdf