Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
2015年4月28日@統計モデリング
担当:田中冬彦
統計モデリング 第三回 配布資料
文献: A. J. Dobson and A. G. Barnett: An Introduction to Generalized Linear Models. 3rd ed., CRC Press. J. J. Faraway: Extending the Linear Model with R. CRC Press.
配布資料のPDFは以下からもDLできます. 短縮URL http://tinyurl.com/lxb7kb8
Chap. 3: データは主にFarawayから
Google map から転載
Google map から転載
Location
生データ(数値と記号のられつ)
> galapagos NS ES Area Anear Dist DistSC Elevation EM Baltra 58 23 25.09 1.84 0.6 0.6 NA 0 Bartolome 31 21 1.24 572.33 0.6 26.3 109 1 Caldwell 3 3 0.21 0.78 2.8 58.7 114 1 Champion 25 9 0.10 0.18 1.9 47.4 46 1 Coamano 2 1 0.05 903.82 1.9 1.9 NA 0 Daphne_Major 18 11 0.34 1.84 8.0 8.0 NA 0 Darwin 10 7 2.33 2.85 34.1 290.2 168 1 Eden 8 4 0.03 17.95 0.4 0.4 NA 0 Enderby 2 2 0.18 0.10 2.6 50.2 112 1 Espanola 97 26 58.27 0.57 1.1 88.3 198 1 Fernandina 93 35 634.49 4669.32 4.3 95.3 1494 1 Gardner1 58 17 0.57 58.27 1.1 93.1 49 1 Gardner2 5 4 0.78 0.21 4.6 62.2 227 1 Genovesa 40 19 17.35 129.49 47.4 92.2 76 1 Isabela 347 89 4669.32 634.49 0.7 28.1 1707 1
Marchena 51 23 129.49 59.56 29.1 85.9 343 1 Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49 29.1 119.6 777 1 Pinzon 108 33 17.95 0.03 10.7 10.7 458 1 Las_Plazas 12 9 0.23 25.09 0.5 0.6 NA 0 Rabida 70 30 4.89 572.33 4.4 24.4 367 1 San_Cristobal 280 65 551.62 0.57 45.2 66.5 716 1 San_Salvador 237 81 572.33 4.89 0.2 19.8 906 1 Santa_Cruz 444 95 903.82 0.52 0.6 0.0 864 1 Santa_Fe 62 28 24.08 0.52 16.5 16.5 259 1 Santa_Maria 285 73 170.92 0.10 2.6 49.2 640 1 Seymour 44 16 1.84 25.09 0.6 9.6 NA 0 Tortuga 16 8 1.24 17.95 6.8 50.9 186 1 Wolf 21 12 2.85 2.33 34.1 254.7 253 1
CRAN alr3 パッケージ内, galapagos データセット alr3 は, S. Weisberg による.
Given Data (1/2)
データの説明
NS=Number of species, 島で観測された亀の種類 Area= 島の面積 [hr], Anear = 一番近い島の面積 [hr], Dist= 一番近い島との距離 [km], DistSC=Santa Cruz島からの距離 [km], Elevation = 島の高度 [m]
galapagos 各島ごとの亀の種類(サンプルサイズ 29)、島の地理情報
データの図示 (重要!)
・見てわかること ・定量的な確認
Given Data (2/2)
> galapagos NS Area Anear Dist DistSC Elevation Baltra 58 25. 09 1.84 0.6 0.6 NA Bartolome 31 1.24 572.33 0.6 26.3 109 Caldwell 3 0.21 0.78 2.8 58.7 114
散布図
> pairs(gala.cor); NS
0 2000 4000 0 500 1500
010
030
0
020
0040
00
Area
Dist
010
2030
40
0 100 300
050
015
00
0 10 20 30 40
Eleva
はずれ値? 散布図をみると、Areaでひとつでかいのが目立つ
→ Isabera island
散布図
Chap. 3: データは主にFarawayから
Google map から転載
面積 (Area) の、はずれ値!
データの説明
gala.test = galapagos データの一部を削除 (説明の都合)
Processed Data
> gala.test NS Area Anear Dist DistSC Elevation Bartolome 31 1.24 572.33 0.6 26.3 109 Caldwell 3 0.21 0.78 2.8 58.7 114 Champion 25 0.10 0.18 1.9 47.4 46 .... Santa_Maria 285 170.92 0.10 2.6 49.2 640 Tortuga 16 1.24 17.95 6.8 50.9 186 Wolf 21 2.85 2.33 34.1 254.7 253
分析の課題
島ごとの亀の種類を説明する統計モデルを考える(まずは線形モデルで)
NS=Number of species, 島で観測された亀の種類 Area= 島の面積 [hr], Anear = 一番近い島の面積 [hr], Dist= 一番近い島との距離 [km], DistSC=Santa Cruz島からの距離 [km], Elevation = 島の高度 [m]
線形モデルでむりやり解析
線形回帰 > gala.lm.res <- lm(NS~. , data=gala.test);
線形回帰モデル
),0(~ 2σε Niij
ijji xY εβα ++= ∑=
5
1
あてはめた値(Fitted Value)
∑=
+=5
1
ˆˆˆj
ijji xy βα
,290.0ˆ,0667.0ˆ,285.0ˆ,6.29ˆ 321 −=−=== βββα
144.0ˆ,133.0ˆ54 =−= ββ
線形モデルでの残差プロット
あてはめた値(Fitted Value)
残差 (Residuals)
ii yy ˆ−
∑=
+=5
1
ˆˆˆj
ijji xy βα
モデルが正しいなら, 残差は平均0、分散一定の正規分布から発生しているようにみえるはずだが・・・
回帰式は6次元なので図示できない → 残差プロットでモデルのよさを検討
yy ˆ−
y0 100 200 300 400
-50
050
100
Galapagos Tortoise
Fitted
Res
idua
ls> plot(predict(gala.lm.res), residuals(gala.lm.res), xlab="Fitted", ylab="Residuals", main="Galapagos Tortoise" ); > abline(h=0, col="red");
問題点
NS=Number of species, 島で観測された亀の種類 → 離散値 (Categorical Data)
一般化線形モデルの導入
分析の課題
線形モデルよりもよいモデルを考える
残差分析の結果 → 分散が一定とはいいがたい(モデルが不適切であることを示唆)
* 一般にAICや検定統計量の計算以前に残差はチェック(相関, 等分散 etc.) Remark
ポアソン回帰モデル(1/2)
一般のポアソン回帰モデル
∑=
=p
jijji x
1log βµiiY µ=][E
)(~ ii PoY µ
説明変数の意味
ni ,,1=
1,0=jx (男・女, 喫煙・喫煙なし, etc.)
jexx
j
j β
µµ
==
=
)0()1(
説明変数が連続量でも同様に β を解釈できる.
他の条件が同じ場合
ポアソン回帰モデルでの解析例 > gala.glm.res <- glm(NS~. , family=poisson, data=gala.test);
ポアソン回帰モデル
∑=
+=5
1log
jijji xβαµiiY µ=][E
)(~ ii PoY µ
あてはめた値(Fitted Value)
∑=
+=5
1
ˆˆˆlogj
ijji xβαµ
,1000.7ˆ,1026.5ˆ,1026.5ˆ,48.3ˆ 33
42
41
−−− ×=×−=×== βββα3
53
4 1041.2ˆ,1055.4ˆ −− ×=×−= ββ
ポアソン回帰モデル(2/2)
ポアソン回帰の残差プロット(1/3)
残差 (*いくつかある)
そのままのスケールだと, 左によってしまっている → log (mu) を横軸にとって残差プロットする
µ
> plot(predict(gala.glm.res, type="response"), residuals(gala.glm.res), xlab=expression(hat(mu)), ylab="Deviance Residuals", main="Galapagos Tortoise"); >
Deviance residuals (スケーリングされた残差の一種)
)ˆˆ/log(2)ˆ,( iiiiiiii yyyydd µµµ +−==
iiiDR dysignr )ˆ( µ−=
100 200 300 400
-50
510
Galapagos Tortoise
Dev
ianc
e R
esid
uals
残差 (*いくつかある)
特徴的なパターンは見つからない
> plot(predict(gala.glm.res, type=“link"), residuals(gala.glm.res), xlab=expression(hat(log(mu))), ylab="Deviance Residuals", main="Galapagos Tortoise"); >
Deviance residuals
)ˆˆ/log(2)ˆ,( iiiiiiii yyyydd µµµ +−==
iiiDR dysignr )ˆ( µ−=
3.0 3.5 4.0 4.5 5.0 5.5 6.0
-50
510
Galapagos Tortoise
log^
Dev
ianc
e R
esid
uals
ポアソン回帰の残差プロット(2/3)
残差 (*いくつかある)
>plot(predict(gala.glm.res, type="link"), residuals(gala.glm.res, type="response"), xlab=expression(hat(log(mu))), ylab="Response Residuals", main="Galapagos Tortoise");
Response residuals
iiRR yr µ−=
3.0 3.5 4.0 4.5 5.0 5.5 6.0
-100
-50
050
100
150
Galapagos Tortoise
log^
Res
pons
e R
esid
uals
+== ∑=
5
1exp)(Var
jjijiii xY βαµ
ポアソン分布の分散
ポアソン回帰の残差プロット(3/3)
実はもっと良いモデルが作れる(詳細は Faraway Chap.3, Chap.6 を参照)
ポアソン回帰の注意点
しかし, 実際のデータは分散が大きくみえる → 負の二項分布 でモデル化できる
本来, ポアソン分布は期待値と分散は一致
Offset
Overdispersion
iii YY µ== ][E)(Var
例:各地区ごとに人口( )が違う場合の患者数 iY
+=
= ∑∑==
p
jijji
p
jijjii xNxN
11logexpexp ββµ
というモデル化をする
iN
offset term (known constant)
*詳細は文献を参照
一般化線形モデル
多くの確率分布が指数型分布族になっている.
Yの確率密度関数(もしくは確率分布)が以下の形でかける時、(1変数の)指数型分布族 (Exponential Family)という.
Exponential Family (1/2)
))()(exp()()()|( θθθ byatysyp =))()()()(exp( ydcbya ++= θθ
Y 確率変数 ),,( 1 pθθθ = パラメータ
Canonical form
))(exp()()(~)|( θθθ bztzszp =Natural Parameter
)(: θη b=
0)(,0)( >> θtys
))()(exp()()()|( θθθ byatysyp =))()()()(exp( ydcbya ++= θθ
例: )1,(N m2)(
21
21)|(
mxemxp
−−=
π
平均 m, 分散 の正規分布(ガウス 分布) 12 =σ
−−−= )2log(
21
22exp
22
πµxxm
二項分布 (n回の試行, nは固定) nx ,,2,1,0 =
xnx qqxn
qxp −−
= )1()|(
−
⋅⋅−
=
qqxq
xn n
1logexp)1(
Exponential Family (2/2)
GLMでは共変量(説明変数)で以下を仮定
各々, 同じ指数型分布族に従うとき(1変数の)一般化線形モデル(Generalized Linear Models; GLM)という.
Generalized Linear Models (1/2)
))()()(exp()|( iiiiii ydcbyyp ++= θθθ
nYY ,,1 独立な確率変数
ここで興味あるパラメータは
++= ∑∑∑∏====
n
ii
n
ii
n
iii
n
iii ydcbyyp
1111
)()()(exp)|( θθθ
iiY µ=][E
∑=
=p
jijji xg
1)( βµ )(µg link function (リンク関数)
以下を仮定
Generalized Linear Models (2/2)
ii
ey
ypi
yi
iiµµµ −=
!)()|(
ポアソン回帰の例
ここで興味あるパラメータは iiY µ=][E
∑=
=p
jijji x
1)log( βµ
以下の対数尤度関数を について数値最大化(最尤推定)
∑∑∑∑====
−+−=n
ii
n
iii
n
ii
n
iii yyyp
1111!loglog)|(log µµµ
pββ ,,1
※GLMではプログラムによる数値解法が前提になっている
ni ,,2,1 =
統計モデリング~次回予告
※成虫 (Schistosoma japonicum)の写真は 日本住血吸虫で検索してください【閲覧注意】
Schistosoma japonicumの卵(*)
*http://www.dpd.cdc.gov/dpdx/HTML/Schistosomiasis.htm
Schistosoma japonicumの成虫(イメージイラスト)