Upload
others
View
8
Download
0
Embed Size (px)
Citation preview
1
ロジスティック回帰入門
東京理科大学工学部経営工学科
浜田知久馬
2
内容
ロジスティックモデル
最尤法による推定の原理
最尤法による検定の原理
ロジスティックモデルの応用
3+∞-∞
ロジスティック曲線とオッズ
イベント発現確率p
X1
1-p1
p1
1-p2
p2
X2
xp
p
ppodds
xxp
10
10
10
1log
1
)exp(1)exp(
ββ
ββββ
+=⎟⎟⎠
⎞⎜⎜⎝
⎛−
−=
+++
=
4
ロジスティック曲線の特徴
の推定に応用505.0/
1,0)exp(1
1
0,)exp(1
)exp(
10
10
110
10
Dpx
pxpxx
p
xxp
=⇒−=→⇒∞→→⇒−∞→
−−+=
>++
+=
ββ
ββ
βββ
ββ
5
例と一般化
薬剤
-
薬剤
+計
イベント
+5 10 15
イベント
-
95 90 185
計 100 100 200
薬剤
-
薬剤
+計
イベント
+a c n-・
イベント
-
b d n+・
計 n・- n・+ n
111.29059510
=⋅⋅
=OR
6
説明変数が1つの場合
( )( )( )( )
( )( )10
10
0
0
10
10
exp1exp,
exp1expexp1
exp
ββββ
ββ
ββββ
+++
=+
=
+++
=
+− pp
xxp
x=0:drug- x=1:drug+
7
説明変数が1つの場合
x=0:drug- x=1:drug+
01log β=⎟⎟
⎠
⎞⎜⎜⎝
⎛− −
−
pp
101log ββ +=⎟⎟
⎠
⎞⎜⎜⎝
⎛− +
+
pp
10011log
1log ββββ =−+=⎟⎟
⎠
⎞⎜⎜⎝
⎛−
−⎟⎟⎠
⎞⎜⎜⎝
⎛− −
−
+
+
pp
pp
xp
p101
log ββ +=⎟⎟⎠
⎞⎜⎜⎝
⎛−
8
説明変数が1つの場合
1
1
1log β=
⎟⎟⎠
⎞⎜⎜⎝
⎛−
⎟⎟⎠
⎞⎜⎜⎝
⎛−
−
−
+
+
pp
pp
1exp
1
1β=
⎟⎟⎠
⎞⎜⎜⎝
⎛−
⎟⎟⎠
⎞⎜⎜⎝
⎛−
−
−
+
+
pp
pp
9
likelihood(尤度)
尤度(L)=モデルの下でデータが得ら れる確率
最尤法:β0 、β1
の値を動かしてLが最も 大きくなるようにする方法
MLE:Maximum Likelihood Estimator
9010955 )1()1( ++−− −××−×= ppppL( )( )
( )( )10
10
0
0
exp1exp,
exp1exp
ββββ
ββ
+++
=+
= +− pp
薬剤
-
薬剤
+
イベント
+5 10
イベント
-95 90
10
西遊記
ひたすら西を目指す.
11
最尤法
ひたすら尤度山の頂上を目指す.
12
尤度曲面尤度
0β 1β
9010955 )1()1( ++−− −××−×= ppppL
(-2.94,0.75)
13
対数尤度曲面対数尤度
0β 1β
(-2.94,0.75)
)1log(90log10)1log(95log5log ++−− −++−+= ppppL
14
絨毯爆撃
0β 1β
尤度
15
尤度山の頂上にいるのは?
16
山の頂上で は傾きは0
0log ==βd
LdU
スコア関数
∧
β
17
0log
0
=βd
Ld 0log
1
=βd
Ld
(-2.94,0.75)
0β 1β
対数尤度
18
対数尤度とスコア関数
baappdcpbaca
dLdU
dccppdcc
dLdU
pdpcpbpaLppppL dcba
+=⇒=+−+−+==
+=⇒=+−==
−++−+=−××−×=
−+−
++
++−−
++−−
0)()(log)(
0)(log)(
)1log(log)1log(loglog)1()1(
00
11
ββ
ββ
薬剤
-
薬剤
+
イベント
+a c
イベント
-b d
19
対数尤度とスコア関数
1005010010015log)(
10010010010log)(
)1log(90log10)1log(95log5log)1()1(
00
11
9010955
=⇒=−−==
=⇒=−==
−++−+=−××−×=
−+−
++
++−−
++−−
pppd
LdU
ppd
LdU
ppppLppppL
ββ
ββ
薬剤
-
薬剤
+
イベント
+5 10
イベント
-95 90
20
最尤推定量
⎟⎠⎞
⎜⎝⎛=
−−
−=
+−+
=−
=+
=+−
+=
−=
+=−
−
−
+
+∧
+
+∧∧
−
−∧
adbc
pp
pp
dccdcc
pp
ba
baabaa
pp
xp
p
log1
log1
log
)(1)(log
1log
log)(1
)(log1
log
1log
1
10
0
10
β
ββ
β
ββ
薬剤
-
薬剤
+
イベント+ a c
イベント- b d
21
説明変数が1つの場合の
最尤推定量
111.29059510)exp(
7472.09059510loglog
9444.2955loglog
1
1
0
=⋅⋅
==
=⎟⎠⎞
⎜⎝⎛
⋅⋅
=⎟⎠⎞
⎜⎝⎛=
−=⎟⎠⎞
⎜⎝⎛=⎟
⎠⎞
⎜⎝⎛=
∧
∧
∧
β
β
β
OR
adbcba
薬剤
-
薬剤
+
イベント
+5 10
イベント
-95 90
粗オッズ比に一致
22
ロジスティック回帰のプログラムdata data;do drug=0 to 1;
do y=0,1;input w @@;
do i=1 to w;output;end;end;end;cards;95 5 90 10;proc logistic descending;model y=drug;
薬剤
-
薬剤
+
イベント
+5 10
イベント
-95 90
23
ロジスティック回帰の出力
Analysis of Maximum Likelihood Estimates
Parameter DF Estimate Standard
ErrorWald
Chi- Square
Pr
>
ChiSq
Intercept 1 -2.9444 0.4588 41.1812
24
帰無仮説の表現
0
1
1log:H 1OR
1
1:H
1
1 :H 1:H
0:H :H::
100
00
00
=
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
−
−===
−
−
−=
−=
=−=
−
−
+
+
−
−
+
+
−
−
+
+
−
+
+−+−
+
−
πππ
π
β
πππ
ππ
ππ
πππ
ππππππ
薬剤+群の母発現割合
薬剤-群の母発現割合
25
[MedStat:002877] Raoのスコア検定を
どのように計算するのでしょうか?
ロジスティック回帰分析 で係数の決定には最 尤推定法を用います。 Raoのスコア検定を
使おうと考えていま すが,どう算出
した
らよいかわからず悩 んでおります.
26
[MedStat:002878]浜田
Raoのスコア検定は説明変数が1つのときは 帰無仮説の下でのUとその分散Vを
計算し
て, U**2/Vを
カイ2乗分布と比べることで行 うことができます。
しかし,説明変数が複数
ある場合は行列演算が必要になりますので 手計算は困難です。
SASのPROC
LOGISTIC等の統計ソフトウエアを利用する ことを
お勧めします。
27
[MedStat:002879]
プログラムを作成するスキルがあるため、 SASを使わなくても行列計算を
手元でさせ
ることはできます。残念ながらスコア検定 の知識をはじめ統
計的な素養が不足して
行き詰っているところです。
大学ではSAS を使える環境ではあるものの、センターに
行かないと使えず
SASを使わないでスコア 検定を行うことを希望します。
28
[MedStat:002881]大橋先生
医療関係の研究者が統計 計算で時間を費やす必要 は
ないと思うのですがね。
統計家からの協力を得て、 もっと生産的な仕事を
さ
れた方が世のためです。
29
[MedStat:002886]
正直先週までRaoのスコア検定というものを 全く知りませんでした。
尤度比検定とWald
統計量を使おうと思っていたのですが、最 尤推
定値が定まらず
どうしようかと思案し
ているときに、研究室の方からスコア検定 を教えていただきました。
最尤推
定値が求まらないのにどうして検定できるのだろうか?
30
尤度山の頂点から帰無仮説の
離れ具合を測るには?
(3)地図で位置を
確認する
(1)高度を
測ってみる.
(2)傾斜角度を測ってみる.
β0
尤度比検定 スコア検定 Wald検定
∧
β
http://images.google.com/imgres?imgurl=www.kashmir3d.com/kash/intro/map1.jpg&imgrefurl=http://www.kashmir3d.com/kash/intro/intro_1.html&h=268&w=300&prev=/images%3Fq%3D%25E7%25AD%2589%25E9%25AB%2598%25E7%25B7%259A%26svnum%3D10%26hl%3Dja%26lr%3D%26ie%3DUTF-8%26oe%3DUTF-8http://slot.educ.kumamoto-u.ac.jp/~taguchi/image11.jpg
31
三蔵法師が尤度山の最高天竺 にいる.弟子たちは
どれくらい離れているか.
http://members.aol.com/barclay1720/myhomepage/images/daibutsu5.gif
32
尤度比検定 孫悟空
觔斗雲でひとっ飛び, 如意棒で山の高さを
測る.
H0
:
β=0
33
スコア検定 沙悟浄
水を流して
勾配を測る.
H0
:
β=0
http://www.cnet-kiso.ne.jp/k/kisovfac/kapa.htm
34
Wald検定 猪八戒
地図を頼りにひ たすら掘り進み 距離を測る.
H0
:
β=0
http://www.kbn.ne.jp/ris/contents/cityoffice/kankou/image/kiyama-map.gifhttp://images.google.com/imgres?imgurl=http://public.sakura-rubber.co.jp/fire/image/chapter04/4-139-08.jpg&imgrefurl=http://public.sakura-rubber.co.jp/fire/chapter04/4-14-27.htm&h=287&w=300&sz=15&tbnid=Gz5ctqtPixwJ:&tbnh=106&tbnw=110&start=10&prev=/images%3Fq%3D%25E3%2581%25A4%25E3%2582%258B%25E3%2581%25AF%25E3%2581%2597%26hl%3Dja%26lr%3D%26ie%3DUTF-8
35
尤度原理に基づく3種類の検定
尤度比検定,Wald検定,スコア検定
例 H0
:
β=0
の検定
1)尤度比検定
山の高さの違い
2)スコア検定
β=
0における傾きが0に近いか
3) Wald検定
最尤推定量からの隔たり
)0(log)(log LL −∧
β
0−∧
β
0
log)0(=
=ββd
LdU
36
3種類の検定の模式図
尤度比
Wald
スコア
+−= pdLd 10010log
1β
1β
薬剤
-
薬剤
+
イベント
+5 10
イベント
-95 90
37
セル度数が10倍になると
+−= pdLd 1000100log
1β
1β
薬剤
-
薬剤
+
イベント
+50 100
イベント
-950 900
38
セル度数がk倍になると
)1log(log)1log(loglog)1()1(
++−−
++−−
−++−+=−××−×=
pdpcpbpaLppppL dcba
↓
))1log(log)1log(log()1log(log)1log(loglog
)1()1(
++−−
++−−
++−−
−++−+=−++−+=
−××−×=
pdpcpbpakpkdpkcpkbpkaL
ppppL kdkckbka
β0∧
β
39
母数空間
−π
+π+− =ππ:0H
0β
1β
0: 10 =βH
10,10:1
40
101, H
∧∧
ββ
00,0 H
∧
β0β
1β
41
00,0 H
∧
β
101, H
∧∧
ββ
1β0β
42
尤度比検定
/22:log
11loglog
11loglog
loglog5.0
,,
)1log(log)1log(loglog:)1log(log)1log(loglog:
)0(:
0000
012
0
11
000000
100
乗尤度比カイ∑∑=−−
++−−
+=
−=⋅+
=+
=+++
+=
−++−+=−++−+=
===
++−−
−−
++−−
+−
ij
ijij
HHLR
H
H
EO
O
ppd
ppc
ppb
ppa
LLdc
cpba
apdcba
cap
pdpcpbpaLHpdpcpbpaLH
pH
χ
βππ
⎟⎟⎠
⎞⎜⎜⎝
⎛==
−•
−−•−
11
11
00 EO
pnpn
pp
薬剤
-
薬剤
+
イベント+ a cイベント- b d
43
Wald検定
74.13216.0
)7472.0(
3216.0901
101
951
511111
7472.09059510loglog
0:
2
1
2
12
1
1
10
==
⎥⎦⎤
⎢⎣⎡
=
=+++=+++=⎥⎦⎤
⎢⎣⎡
=⎟⎠⎞
⎜⎝⎛
⋅⋅
=⎟⎠⎞
⎜⎝⎛
⋅⋅
=
=
∧
∧
∧
∧
β
βχ
β
β
β
V
dcbaV
dabc
H
wald
薬剤
-
薬剤
+
イベント+ a cイベント- b d
44
101, H
∧∧
ββ
00,0 H
∧
β
010010)0( pU −=
+
∧
−= pU 10010)( 1β
1β0β
45
帰無仮説の下でのU
5.2075.010010
log)0(
075.020015
100100105
)1log()(log)()1log(log)1log(loglog
)0(:
2121
001
0
00
00000
100
1
=×−=−
=−=
−==
==++
=+++
+=
−+++=−++−+=
===
+•
=
+−
nadbcEO
pncd
LdU
dcbacap
pdbpcapdpcpbpaL
pH
H
ββ
βππ
薬剤
-
薬剤
+
イベント
+a c
イベント
-b d
薬剤+群における観測イベント数と期待イベント数の差
46
スコア検定
[ ]
[ ]ピアソンカイ2乗=
++++−
==
++++=
−=−=
))()()(()(
)0()0(
))()()(()0(
)0(
222
3
2121
dbcadcbaadbcn
UVU
ndbcadcbaUV
nadbcEOU
scoreχ
薬剤
-
薬剤
+
イベント+ a c
イベント- b d
47
FREQプロシジャの出力
統計量 自由度 値 p 値
χ
2 乗値 1 1.8018 0.1795
尤度比χ
2 乗値 1 1.8341 0.1756
連続性補正χ
2 乗値 1 1.1532 0.2829
Mantel-Haenszel
のχ
2 乗値 1 1.7928 0.1806
φ係数 0.0949
一致係数 0.0945
Cramer の
V 統計量 0.0949
薬剤
-
薬剤
+
イベント
+5 10
イベント
-95 90
48
LOGISTICの3種類の検定の出力
Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF Pr
>
ChiSq
Likelihood Ratio 1.8341 1 0.1756
Score 1.8018 1 0.1795
Wald 1.7359 1 0.1877
薬剤
-
薬剤
+
イベント
+5 10
イベント
-95 90
49H0
:
β=0
Wald
尤度比
スコアまとめ
∧
β
50
ロジスティックモデルの応用例
)exp(11
)exp(1)exp(
10
10
10
xp
xxp
ββ
ββββ
−−+=
+++
=
反応範囲(min,max)を表すパラメータの追加
Β,xの変換
51
4係数(max,min,d50,p)
ロジスティック関数
0 1.0×10 0 2.0×10 0 3.0×10 0 4.0×10 0 5.0×10 0-10
10
30
50
70
90
110Drug1Drug0
Drug2Vehic le
Normal
Dose
Res
pons
e
52
4係数(max,min,d50,p)
ロジスティック関数
pdpdosexdosepdp
dosedddosedose
ddosedosey
ppp
p
pp
p
=−==⋅−⋅+
=
+=
+
++
×−=
10 ),50log(),log())log()50log(exp(1
1)/50(1
150
min50
min)(max
ββ
53
パラメータ推定
計量データなので
誤差に独立性,不偏性,等分散性,正規性を仮定 して,非線形最小2乗法によって
パラメータを推定
誤差に正規分布を仮定すると最小2乗法は
最尤法になる.
∑ ⎟⎟⎠
⎞⎜⎜⎝
⎛⎥⎦
⎤⎢⎣
⎡+
+×−−
2
min50
min)(max ppp
ddosedosey
54
NLINプロシジャのプログラム例
proc nlin;parms max=100 min=0 p=-0.1 d50=100;bounds p
55
NLINプロシジャの出力
The NLIN ProcedureSum of Mean Approx
Source DF Squares Square F Value Pr > FModel 3 36979.6 12326.5 709.09
56
Michaelis-Menten 式反応速度は基質濃度に影響される→
関係式= Michaelis-Menten 式酵素反応速度パラメータ
Vmax :最高反応速度Km :Michaelis 定数
SKmSVV
+×
= maxMichaelis-Menten 式
Km
Vmax
V =反応速度,S =基質濃度
反応速度
基質濃度
57
Michaelis-Menten 式
1,log,log)logexp(log/
loglog)/log(/1
10
maxmax
=−==−=−=
+=
+×
=
ββ KmSxSKmSKmSKmSKm
SKmV
SKmSVV
推定法については
次回河野
亜紀子さんが発表
58
阻害剤が存在する場合
酵素阻害薬(以下,阻害薬) → 反応速度が減少
基質濃度が増すと
阻害薬が追い出される
I = 阻害薬濃度
Kmi =阻害薬存在下のKm
阻害の程度: 阻害定数 (Ki) で評価Km を2倍にするのに必要な阻害薬濃度
Ki が小さいほど阻害作用が強い→薬効評価の指標
⎟⎠⎞
⎜⎝⎛ +=
KiIKmKm ii 1
阻害薬(+,高用量)
阻害薬(+,低用量)阻害薬(-)
Km1 Km2 Km3
⎟⎠⎞
⎜⎝⎛ ++
×=
KiIKmS
SVVi
i
1
max
59
阻害剤が存在する場合
KiISKmKiISKm
KiI
SKm
KiI
SKm
V
KiIKmS
SVV
logloglog)log(
1loglog)log(
1log
111
maxmax
−+−
⎟⎠⎞
⎜⎝⎛ ++−=
⎟⎟⎠
⎞⎜⎜⎝
⎛⎟⎠⎞
⎜⎝⎛ +
⎟⎠⎞
⎜⎝⎛ ++
=⎟⎠⎞
⎜⎝⎛ ++
×=
≒
推定法については
次回河野
亜紀子さんが発表
60
参考文献Derr, R.E.(2000) Performing exact logistic regression with the SAS System. SUGI'2000
Proceedings, Paper 254Gail, M.H., Lubin, J.H., and Rubinstein, L.V. (1981) Likelihood Calculations for Matched Case-
Control Studies and Survival Studies with Tied Death Times. Biometrika, 68, 703-07. Hirji, K.F., Mehta, C.R., and Patel, N.R. (1987) Computing Distributions for Exact Logistic
Regression. Journal of the American Statistical Association, 82, 1110 - 1117. Hosmer, D.W, Jr. and Lemeshow, S. (2000), Applied Logistic Regression, Second Edition, New
York: John Wiley & Sons, Inc.Mehta, C.R., Patel, N. and Senchaudhuri, P. (1992), Exact Stratified Linear Rank Tests for
Ordered Categorical and Binary Data. Journal of Computational and Graphical Statistics, 1, 21 - 40.
Mehta, C.R., Patel, N. and Senchaudhuri, P. (2000) Efficient Monte Carlo Methods for Conditional Logistic Regression. Journal of the American Statistical Association, 95, 99 - 108.
Truett,J., Cornfield, J. and Kannel, W.(1967) A Multivariate Analysis of the Risk of Coronary Heart Disease in Framingham. J.Chron.Dis. 20, 511-524
浜田知久馬(1994)SASによる条件付きロジスティック回帰. 日本SASユーザー会94論文集,527-540浜田知久馬(2000)LOGISTICのV. 8の機能拡張. 日本SASユーザー会2000論文集,13-38浜田知久馬(2001)SAS V. 8における正確な推測とシミュレーションによる近似法. 日本SASユーザー会2001論文集,165-187
ロジスティック回帰入門内容スライド番号 3ロジスティック曲線の特徴例と一般化説明変数が1つの場合説明変数が1つの場合説明変数が1つの場合likelihood(尤度)西遊記�ひたすら西を目指す.最尤法�ひたすら尤度山の頂上を目指す.スライド番号 12スライド番号 13スライド番号 14尤度山の頂上にいるのは?スライド番号 16スライド番号 17対数尤度とスコア関数対数尤度とスコア関数最尤推定量説明変数が1つの場合の�最尤推定量ロジスティック回帰のプログラム ロジスティック回帰の出力 帰無仮説の表現[MedStat:002877] Raoのスコア検定をどのように計算するのでしょうか? [MedStat:002878]浜田 [MedStat:002879] [MedStat:002881]大橋先生 [MedStat:002886] 尤度山の頂点から帰無仮説の�離れ具合を測るには?スライド番号 31尤度比検定 孫悟空 スコア検定 沙悟浄 Wald検定 猪八戒尤度原理に基づく3種類の検定3種類の検定の模式図セル度数が10倍になるとセル度数がk倍になると母数空間スライド番号 40スライド番号 41尤度比検定Wald検定スライド番号 44帰無仮説の下でのUスコア検定FREQプロシジャの出力LOGISTICの3種類の検定の出力まとめロジスティックモデルの応用例4係数(max,min,d50,p)�ロジスティック関数 4係数(max,min,d50,p)�ロジスティック関数パラメータ推定NLINプロシジャのプログラム例NLINプロシジャの出力 �Michaelis-Menten 式Michaelis-Menten 式�阻害剤が存在する場合阻害剤が存在する場合参考文献