68
ロジスティック回帰による推測と 多値データへの拡張) 東京理科大学工学部経営工学科 浜田知久馬 1

SAS - ロジスティック回帰による推測と 多値データ …...ロジスティック回帰による推測と 多値データへの拡張) 東京理科大学工学部経営工学科

  • Upload
    others

  • View
    19

  • Download
    0

Embed Size (px)

Citation preview

ロジスティック回帰による推測と多値データへの拡張)

東京理科大学工学部経営工学科

浜田知久馬

1

内容

ロジスティックモデル

最尤法による推定の原理

最尤法による検定の原理

比例オッズモデル

一般化ロジットモデル

2

ロジスティック曲線とオッズ

イベント発現確率p

1-p1

p1

1-p2

p2x

pp

ppodds

xxp

10

10

10

1log

1

)exp(1)exp(

ββ

ββββ

+=⎟⎟⎠

⎞⎜⎜⎝

⎛−

−=

+++

=

-∞ +∞X1 X2 3

例と一般化

4

薬剤

薬剤

+計

イベント

+5 10 15

イベント

95 90 185

計 100 100 200

薬剤

薬剤

+計

イベント

+a c n-・

イベント

b d n+・

計 n・- n・+ n

説明変数が1つの場合

x=0:drug- x=1:drug+

5

説明変数が1つの場合

x=0:drug- x=1:drug+

6

説明変数が1つの場合

7

likelihood(尤度)

尤度(L)=モデルの下でデータが得られる確率

最尤法:β0、β1の値を動かしてLが最も大きくなるようにする方法

MLE:Maximum Likelihood Estimator

薬剤

薬剤

+

イベント

+5 10

イベント

-95 90

8

西遊記ひたすら西を目指す.

9

最尤法ひたすら尤度山の頂上を目指す.

10

11

尤度曲面尤度

0β 1β

(-2.94,0.75)

12

対数尤度曲面対数尤度

0β 1β

(-2.94,0.75)

13

絨毯爆撃

0β 1β

尤度

14

尤度山の頂上にいるのは?

15

山の頂上では傾きは0

β

16

(-2.94,0.75)

0β 1β

対数尤度

薬剤

薬剤

+

イベント

+a c

イベント

-b d

対数尤度とスコア関数

17

薬剤

薬剤

+

イベント

+5 10

イベント

-95 90

対数尤度とスコア関数

18

薬剤

薬剤

+

イベント+ a c

イベント- b d

最尤推定量

19

薬剤

薬剤

+

イベント

+5 10

イベント

-95 90

説明変数が1つの場合の最尤推定量

粗オッズ比に一致20

ロジスティック回帰のプログラムdata data;do drug=0 to 1;

do y=0,1;input w @@;

do i=1 to w;output;end;end;end;cards;95 5 90 10;proc logistic descending;model y=drug;

薬剤

薬剤

+

イベント

+5 10

イベント

-95 90

21

ロジスティック回帰の出力

Analysis of Maximum Likelihood Estimates

Parameter DF Estimate StandardError

WaldChi-Square

Pr > ChiSq

Intercept 1 -2.9444 0.4588 41.1812 <.0001

drug 1 0.7472 0.5671 1.7359 0.1877

0β∧

6.4160.6952.111drug

95% WaldConfidence Limits

Point Estimate

Effect

Odds Ratio Estimates

22

帰無仮説の表現

23

[MedStat:002877] Raoのスコア検定をどのように計算するのでしょうか?

ロジスティック回帰分析で係数の決定には最尤推定法を用います。Raoのスコア検定を使おうと考えていますが,どう算出 したらよいかわからず悩んでおります.

24

[MedStat:002878]浜田

Raoのスコア検定は説明変数が1つのときは帰無仮説の下でのUとその分散Vを 計算して, U**2/Vを カイ2乗分布と比べることで行うことができます。 しかし,説明変数が複数ある場合は行列演算が必要になりますので手計算は困難です。 SASのPROCLOGISTIC等の統計ソフトウエアを利用することを お勧めします。

25

[MedStat:002879]

プログラムを作成するスキルがあるため、SASを使わなくても行列計算を 手元でさせることはできます。残念ながらスコア検定の知識をはじめ統 計的な素養が不足して行き詰っているところです。 大学ではSASを使える環境ではあるものの、センターに行かないと使えず SASを使わないでスコア検定を行うことを希望します。

26

[MedStat:002881]大橋先生

医療関係の研究者が統計計算で時間を費やす必要は ないと思うのですがね。

統計家からの協力を得て、もっと生産的な仕事を された方が世のためです。

27

[MedStat:002886]

正直先週までRaoのスコア検定というものを全く知りませんでした。 尤度比検定とWald統計量を使おうと思っていたのですが、最尤推 定値が定まらず どうしようかと思案しているときに、研究室の方からスコア検定を教えていただきました。

最尤推 定値が求まらないのにどうして検定できるのだろうか?

28

尤度山の頂点から帰無仮説の離れ具合を測るには?

β0

β

(3)地図で位置を

確認する

(1)高度を

測ってみる.

(2)傾斜角度を測ってみる.

Wald検定尤度比検定 スコア検定 29

30

三蔵法師が尤度山の最高天竺にいる.弟子たちは

どれくらい離れているか.

尤度比検定 孫悟空

31

觔斗雲でひとっ飛び,如意棒で山の高さを測る.

H0: β=0

スコア検定 沙悟浄

32

水を流して

勾配を測る.

H0: β=0

Wald検定 猪八戒

33

地図を頼りにひたすら掘り進み距離を測る.

H0: β=0

尤度原理に基づく3種類の検定

尤度比検定,Wald検定,スコア検定

例 H0: β=0 の検定

1)尤度比検定

山の高さの違い

2)スコア検定

β= 0における傾きが0に近いか

3) Wald検定

最尤推定量からの隔たり

34

35

3種類の検定の模式図

尤度比

Wald

スコア

薬剤

薬剤

+

イベント

+5 10

イベント

-95 90

セル度数が10倍になると

361β

薬剤

薬剤

+

イベント

+50 100

イベント

-950 900

セル度数がk倍になると

37

β0

β

H1H0 母数空間

0: 10 =βH

38

+− =ππ:0H

−π

1

10

39

101, H

∧∧

ββ

00,0 H

β0β

401β0β

薬剤

薬剤

+

イベント+ a cイベント- b d

尤度比検定

41

薬剤

薬剤

+

イベント+ a cイベント- b d

Wald検定

42

431β0β

薬剤

薬剤

+

イベント

+a c

イベント

-b d

帰無仮説の下でのU

44薬剤+群における観測イベント数と期待イベント数の差

薬剤

薬剤

+

イベント+ a c

イベント- b d

スコア検定

45

46

FREQプロシジャの出力薬剤

薬剤

+

イベント

+5 10

イベント

-95 90

統計量 自由度 値 p 値

χ 2 乗値 1 1.8018 0.1795

尤度比χ 2 乗値 1 1.8341 0.1756

連続性補正χ 2 乗値 1 1.1532 0.2829

Mantel-Haenszel のχ 2 乗値 1 1.7928 0.1806

φ係数 0.0949

一致係数 0.0945

Cramer の V 統計量 0.0949

LOGISTICの3種類の検定の出力

9095イベント

105イベント

+

薬剤

+薬剤

Testing Global Null Hypothesis: BETA=0

Test Chi-Square DF Pr > ChiSq

Likelihood Ratio 1.8341 1 0.1756

Score 1.8018 1 0.1795

Wald 1.7359 1 0.1877

47

LOGISTICのSTRATA文

V.9からSTRATA文が追加層,マッチングを行った場合の条件付の推測

(条件付ロジスティック回帰)PHREGのDISCRETEオプションによる解析と等価

EXACT文と組み合わせて正確な解析も可能

48

ロジスティックモデルの多値データへの拡張

・名義尺度

一般化ロジットモデル

(generalized logit model)・順序尺度

比例オッズモデル(累積オッズモデル)(cumulative logit model)

49

一般化ロジットモデル

50

一般化ロジットモデル

51

比例オッズモデル

52

53

比例オッズモデル

比例オッズモデル

54

比例オッズモデル

55

ワニの体長と餌の選択

data gator;input length choice $ @@;cards; 1.24 I 1.30 I 1.30 I 1.32 F 1.32 F 1.40 F 1.42 I 1.42 F1.45 I 1.45 O 1.47 I 1.47 F 1.50 I 1.52 I 1.55 I 1.60 I 1.63 I 1.65 O 1.65 I 1.65 F 1.65 F 1.68 F 1.70 I 1.73 O 1.78 I 1.78 I 1.78 O 1.80 I 1.80 F 1.85 F 1.88 I 1.93 I1.98 I 2.03 F 2.03 F 2.16 F 2.26 F 2.31 F 2.31 F 2.36 F2.36 F 2.39 F 2.41 F 2.44 F 2.46 F 2.56 O 2.67 F 2.72 I2.79 F 2.84 F 3.25 O 3.28 O 3.33 F 3.56 F 3.58 F 3.66 F3.68 O 3.71 F 3.89 F;

56

一般化ロジットモデル

proc logistic;

model choice = length / L=GLOGIT;

output out=out p=p;

proc gplot;

plot p*length=_level_;

symbol1 i=spline c=red w=3;

symbol2 i=spline c=green w=3;

symbol3 i=spline c=blue w=3;

57

一般化ロジットモデルType 3 Analysis of Effects

WaldEffect DF Chi-Square Pr > ChiSqlength 2 8.9360 0.0115

Analysis of Maximum Likelihood Estimates

Standard WaldParameter choice Estimate Error Chi-Square Pr > ChiSqIntercept F 1.6177 1.3073 1.5314 0.2159Intercept I 5.6974 1.7938 10.0881 0.0015length F -0.1101 0.5171 0.0453 0.8314length I -2.4654 0.8997 7.5101 0.0061

F I O

58

59

比例オッズモデルdata gator;set gator;if choice='I' then y=1;if choice='F' then y=2;if choice='O' then y=3;proc logistic;model y= length/l=logit;output out=out p=p;proc gplot;plot p*length=_level_;symbol1 i=spline c=red w=3;symbol2 i=spline c=green w=3;symbol3 i=spline c=blue w=3;run;

60

比例オッズモデル

Score Test for the Proportional Odds Assumption

Chi-Square DF Pr > ChiSq4.9162 1 0.0266

Analysis of Maximum Likelihood EstimatesStandard Wald

Parameter DF Estimate Error Chi-Square Pr > ChiSqIntercept 1 1 1.8868 0.8247 5.2345 0.0221Intercept 2 1 4.8765 1.0929 19.9098 <.0001length 1 -1.2420 0.3953 9.8698 0.0017

61

62

Insect

Fish

Others

63

比例オッズ性の検定

H0: β=0

Wald

尤度比

スコアまとめ

β 64

スコア検定の利点

・Wald,尤度比検定はMLEが求まらないとできない.・ MLEを求めるためには反復計算が必要・スコア検定はH0の下でのUがわかれば計算可能

・多くのモデルについての計算が必要な総当り法では,スコア検定が行われる.

・単純な問題については,よく知られた検定に一致

・スコア検定では収束しない場合でも,H0の検定が可能

65

次のうちスコア検定に相当するのはどれでしょう.

1)Z検定(分散既知のt検定)2)Pearsonのカイ2乗検定3)McNemar検定4)Cochran-Armitage検定5)Mantel-Haenzel検定6)ログランク検定

66

[MedStat:002887]浜田

スコア検定は確かに 最尤推定値が求まらなくても 帰無仮説が検定できるのが 利点です. しかし最尤推定値が求まらないのは モデルが破綻しているということですし 帰無仮説の検定だけでは推測としては不十分です. 根本的に最尤推定値が求まらない原因(0セルがある等)を追究しとく 必要があるかと思います. やはり統計の専門家に相談した方がよいと思います.

67

参考文献Derr, R.E.(2000) Performing exact logistic regression with the SAS System. SUGI'2000

Proceedings, Paper 254Gail, M.H., Lubin, J.H., and Rubinstein, L.V. (1981) Likelihood Calculations for Matched Case-

Control Studies and Survival Studies with Tied Death Times. Biometrika, 68, 703-07. Hirji, K.F., Mehta, C.R., and Patel, N.R. (1987) Computing Distributions for Exact Logistic

Regression. Journal of the American Statistical Association, 82, 1110 - 1117. Hosmer, D.W, Jr. and Lemeshow, S. (2000), Applied Logistic Regression, Second Edition, New

York: John Wiley & Sons, Inc.Mehta, C.R., Patel, N. and Senchaudhuri, P. (1992), Exact Stratified Linear Rank Tests for

Ordered Categorical and Binary Data. Journal of Computational and Graphical Statistics, 1, 21 - 40.

Mehta, C.R., Patel, N. and Senchaudhuri, P. (2000) Efficient Monte Carlo Methods for Conditional Logistic Regression. Journal of the American Statistical Association, 95, 99 -108.

Truett,J., Cornfield, J. and Kannel, W.(1967) A Multivariate Analysis of the Risk of Coronary Heart Disease in Framingham. J.Chron.Dis. 20, 511-524

浜田知久馬(1994)SASによる条件付きロジスティック回帰. 日本SASユーザー会94論文集,527-540浜田知久馬(2000)LOGISTICのV. 8の機能拡張. 日本SASユーザー会2000論文集,13-38浜田知久馬(2001)SAS V. 8における正確な推測とシミュレーションによる近似法. 日本SASユーザー会2001論文集,165-187

68