60
1 ロジスティック回帰入門 東京理科大学工学部経営工学科 浜田知久馬

ロジスティック回帰入門...2018/12/04  · ロジスティック回帰分析 で係数の決定には最 尤推定法を用います。 Raoのスコア検定を 使おうと考えていま

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

  • 1

    ロジスティック回帰入門

    東京理科大学工学部経営工学科

    浜田知久馬

  • 2

    内容

    ロジスティックモデル

    最尤法による推定の原理

    最尤法による検定の原理

    ロジスティックモデルの応用

  • 3+∞-∞

    ロジスティック曲線とオッズ

    イベント発現確率p

    X1

    1-p1

    p1

    1-p2

    p2

    X2

    xp

    p

    ppodds

    xxp

    10

    10

    10

    1log

    1

    )exp(1)exp(

    ββ

    ββββ

    +=⎟⎟⎠

    ⎞⎜⎜⎝

    ⎛−

    −=

    +++

    =

  • 4

    ロジスティック曲線の特徴

    の推定に応用505.0/

    1,0)exp(1

    1

    0,)exp(1

    )exp(

    10

    10

    110

    10

    Dpx

    pxpxx

    p

    xxp

    =⇒−=→⇒∞→→⇒−∞→

    −−+=

    >++

    +=

    ββ

    ββ

    βββ

    ββ

  • 5

    例と一般化

    薬剤

    薬剤

    +計

    イベント

    +5 10 15

    イベント

    95 90 185

    計 100 100 200

    薬剤

    薬剤

    +計

    イベント

    +a c n-・

    イベント

    b d n+・

    計 n・- n・+ n

    111.29059510

    =⋅⋅

    =OR

  • 6

    説明変数が1つの場合

    ( )( )( )( )

    ( )( )10

    10

    0

    0

    10

    10

    exp1exp,

    exp1expexp1

    exp

    ββββ

    ββ

    ββββ

    +++

    =+

    =

    +++

    =

    +− pp

    xxp

    x=0:drug- x=1:drug+

  • 7

    説明変数が1つの場合

    x=0:drug- x=1:drug+

    01log β=⎟⎟

    ⎞⎜⎜⎝

    ⎛− −

    pp

    101log ββ +=⎟⎟

    ⎞⎜⎜⎝

    ⎛− +

    +

    pp

    10011log

    1log ββββ =−+=⎟⎟

    ⎞⎜⎜⎝

    ⎛−

    −⎟⎟⎠

    ⎞⎜⎜⎝

    ⎛− −

    +

    +

    pp

    pp

    xp

    p101

    log ββ +=⎟⎟⎠

    ⎞⎜⎜⎝

    ⎛−

  • 8

    説明変数が1つの場合

    1

    1

    1log β=

    ⎟⎟⎠

    ⎞⎜⎜⎝

    ⎛−

    ⎟⎟⎠

    ⎞⎜⎜⎝

    ⎛−

    +

    +

    pp

    pp

    1exp

    1

    1β=

    ⎟⎟⎠

    ⎞⎜⎜⎝

    ⎛−

    ⎟⎟⎠

    ⎞⎜⎜⎝

    ⎛−

    +

    +

    pp

    pp

  • 9

    likelihood(尤度)

    尤度(L)=モデルの下でデータが得ら れる確率

    最尤法:β0 、β1

    の値を動かしてLが最も 大きくなるようにする方法

    MLE:Maximum Likelihood Estimator

    9010955 )1()1( ++−− −××−×= ppppL( )( )

    ( )( )10

    10

    0

    0

    exp1exp,

    exp1exp

    ββββ

    ββ

    +++

    =+

    = +− pp

    薬剤

    薬剤

    +

    イベント

    +5 10

    イベント

    -95 90

  • 10

    西遊記

    ひたすら西を目指す.

  • 11

    最尤法

    ひたすら尤度山の頂上を目指す.

  • 12

    尤度曲面尤度

    0β 1β

    9010955 )1()1( ++−− −××−×= ppppL

    (-2.94,0.75)

  • 13

    対数尤度曲面対数尤度

    0β 1β

    (-2.94,0.75)

    )1log(90log10)1log(95log5log ++−− −++−+= ppppL

  • 14

    絨毯爆撃

    0β 1β

    尤度

  • 15

    尤度山の頂上にいるのは?

  • 16

    山の頂上で は傾きは0

    0log ==βd

    LdU

    スコア関数

    β

  • 17

    0log

    0

    =βd

    Ld 0log

    1

    =βd

    Ld

    (-2.94,0.75)

    0β 1β

    対数尤度

  • 18

    対数尤度とスコア関数

    baappdcpbaca

    dLdU

    dccppdcc

    dLdU

    pdpcpbpaLppppL dcba

    +=⇒=+−+−+==

    +=⇒=+−==

    −++−+=−××−×=

    −+−

    ++

    ++−−

    ++−−

    0)()(log)(

    0)(log)(

    )1log(log)1log(loglog)1()1(

    00

    11

    ββ

    ββ

    薬剤

    薬剤

    +

    イベント

    +a c

    イベント

    -b d

  • 19

    対数尤度とスコア関数

    1005010010015log)(

    10010010010log)(

    )1log(90log10)1log(95log5log)1()1(

    00

    11

    9010955

    =⇒=−−==

    =⇒=−==

    −++−+=−××−×=

    −+−

    ++

    ++−−

    ++−−

    pppd

    LdU

    ppd

    LdU

    ppppLppppL

    ββ

    ββ

    薬剤

    薬剤

    +

    イベント

    +5 10

    イベント

    -95 90

  • 20

    最尤推定量

    ⎟⎠⎞

    ⎜⎝⎛=

    −−

    −=

    +−+

    =−

    =+

    =+−

    +=

    −=

    +=−

    +

    +∧

    +

    +∧∧

    −∧

    adbc

    pp

    pp

    dccdcc

    pp

    ba

    baabaa

    pp

    xp

    p

    log1

    log1

    log

    )(1)(log

    1log

    log)(1

    )(log1

    log

    1log

    1

    10

    0

    10

    β

    ββ

    β

    ββ

    薬剤

    薬剤

    +

    イベント+ a c

    イベント- b d

  • 21

    説明変数が1つの場合の

    最尤推定量

    111.29059510)exp(

    7472.09059510loglog

    9444.2955loglog

    1

    1

    0

    =⋅⋅

    ==

    =⎟⎠⎞

    ⎜⎝⎛

    ⋅⋅

    =⎟⎠⎞

    ⎜⎝⎛=

    −=⎟⎠⎞

    ⎜⎝⎛=⎟

    ⎠⎞

    ⎜⎝⎛=

    β

    β

    β

    OR

    adbcba

    薬剤

    薬剤

    +

    イベント

    +5 10

    イベント

    -95 90

    粗オッズ比に一致

  • 22

    ロジスティック回帰のプログラムdata data;do drug=0 to 1;

    do y=0,1;input w @@;

    do i=1 to w;output;end;end;end;cards;95 5 90 10;proc logistic descending;model y=drug;

    薬剤

    薬剤

    +

    イベント

    +5 10

    イベント

    -95 90

  • 23

    ロジスティック回帰の出力

    Analysis of Maximum Likelihood Estimates

    Parameter DF Estimate Standard

    ErrorWald

    Chi- Square

    Pr

    >

    ChiSq

    Intercept 1 -2.9444 0.4588 41.1812

  • 24

    帰無仮説の表現

    0

    1

    1log:H 1OR

    1

    1:H

    1

    1 :H 1:H

    0:H :H::

    100

    00

    00

    =

    ⎥⎥⎥⎥

    ⎢⎢⎢⎢

    −===

    −=

    −=

    =−=

    +

    +

    +

    +

    +

    +

    +

    +−+−

    +

    πππ

    π

    β

    πππ

    ππ

    ππ

    πππ

    ππππππ

    薬剤+群の母発現割合

    薬剤-群の母発現割合

  • 25

    [MedStat:002877] Raoのスコア検定を

    どのように計算するのでしょうか?

    ロジスティック回帰分析 で係数の決定には最 尤推定法を用います。 Raoのスコア検定を

    使おうと考えていま すが,どう算出

    した

    らよいかわからず悩 んでおります.

  • 26

    [MedStat:002878]浜田

    Raoのスコア検定は説明変数が1つのときは 帰無仮説の下でのUとその分散Vを

    計算し

    て, U**2/Vを

    カイ2乗分布と比べることで行 うことができます。

    しかし,説明変数が複数

    ある場合は行列演算が必要になりますので 手計算は困難です。

    SASのPROC

    LOGISTIC等の統計ソフトウエアを利用する ことを

    お勧めします。

  • 27

    [MedStat:002879]

    プログラムを作成するスキルがあるため、 SASを使わなくても行列計算を

    手元でさせ

    ることはできます。残念ながらスコア検定 の知識をはじめ統

    計的な素養が不足して

    行き詰っているところです。

    大学ではSAS を使える環境ではあるものの、センターに

    行かないと使えず

    SASを使わないでスコア 検定を行うことを希望します。

  • 28

    [MedStat:002881]大橋先生

    医療関係の研究者が統計 計算で時間を費やす必要 は

    ないと思うのですがね。

    統計家からの協力を得て、 もっと生産的な仕事を

    れた方が世のためです。

  • 29

    [MedStat:002886]

    正直先週までRaoのスコア検定というものを 全く知りませんでした。

    尤度比検定とWald

    統計量を使おうと思っていたのですが、最 尤推

    定値が定まらず

    どうしようかと思案し

    ているときに、研究室の方からスコア検定 を教えていただきました。

    最尤推

    定値が求まらないのにどうして検定できるのだろうか?

  • 30

    尤度山の頂点から帰無仮説の

    離れ具合を測るには?

    (3)地図で位置を

    確認する

    (1)高度を

    測ってみる.

    (2)傾斜角度を測ってみる.

    β0

    尤度比検定 スコア検定 Wald検定

    β

    http://images.google.com/imgres?imgurl=www.kashmir3d.com/kash/intro/map1.jpg&imgrefurl=http://www.kashmir3d.com/kash/intro/intro_1.html&h=268&w=300&prev=/images%3Fq%3D%25E7%25AD%2589%25E9%25AB%2598%25E7%25B7%259A%26svnum%3D10%26hl%3Dja%26lr%3D%26ie%3DUTF-8%26oe%3DUTF-8http://slot.educ.kumamoto-u.ac.jp/~taguchi/image11.jpg

  • 31

    三蔵法師が尤度山の最高天竺 にいる.弟子たちは

    どれくらい離れているか.

    http://members.aol.com/barclay1720/myhomepage/images/daibutsu5.gif

  • 32

    尤度比検定 孫悟空

    觔斗雲でひとっ飛び, 如意棒で山の高さを

    測る.

    H0

    β=0

  • 33

    スコア検定 沙悟浄

    水を流して

    勾配を測る.

    H0

    β=0

    http://www.cnet-kiso.ne.jp/k/kisovfac/kapa.htm

  • 34

    Wald検定 猪八戒

    地図を頼りにひ たすら掘り進み 距離を測る.

    H0

    β=0

    http://www.kbn.ne.jp/ris/contents/cityoffice/kankou/image/kiyama-map.gifhttp://images.google.com/imgres?imgurl=http://public.sakura-rubber.co.jp/fire/image/chapter04/4-139-08.jpg&imgrefurl=http://public.sakura-rubber.co.jp/fire/chapter04/4-14-27.htm&h=287&w=300&sz=15&tbnid=Gz5ctqtPixwJ:&tbnh=106&tbnw=110&start=10&prev=/images%3Fq%3D%25E3%2581%25A4%25E3%2582%258B%25E3%2581%25AF%25E3%2581%2597%26hl%3Dja%26lr%3D%26ie%3DUTF-8

  • 35

    尤度原理に基づく3種類の検定

    尤度比検定,Wald検定,スコア検定

    例 H0

    β=0

    の検定

    1)尤度比検定

    山の高さの違い

    2)スコア検定

    β=

    0における傾きが0に近いか

    3) Wald検定

    最尤推定量からの隔たり

    )0(log)(log LL −∧

    β

    0−∧

    β

    0

    log)0(=

    =ββd

    LdU

  • 36

    3種類の検定の模式図

    尤度比

    Wald

    スコア

    +−= pdLd 10010log

    薬剤

    薬剤

    +

    イベント

    +5 10

    イベント

    -95 90

  • 37

    セル度数が10倍になると

    +−= pdLd 1000100log

    薬剤

    薬剤

    +

    イベント

    +50 100

    イベント

    -950 900

  • 38

    セル度数がk倍になると

    )1log(log)1log(loglog)1()1(

    ++−−

    ++−−

    −++−+=−××−×=

    pdpcpbpaLppppL dcba

    ))1log(log)1log(log()1log(log)1log(loglog

    )1()1(

    ++−−

    ++−−

    ++−−

    −++−+=−++−+=

    −××−×=

    pdpcpbpakpkdpkcpkbpkaL

    ppppL kdkckbka

    β0∧

    β

  • 39

    母数空間

    −π

    +π+− =ππ:0H

    0: 10 =βH

    10,10:1

  • 40

    101, H

    ∧∧

    ββ

    00,0 H

    β0β

  • 41

    00,0 H

    β

    101, H

    ∧∧

    ββ

    1β0β

  • 42

    尤度比検定

    /22:log

    11loglog

    11loglog

    loglog5.0

    ,,

    )1log(log)1log(loglog:)1log(log)1log(loglog:

    )0(:

    0000

    012

    0

    11

    000000

    100

    乗尤度比カイ∑∑=−−

    ++−−

    +=

    −=⋅+

    =+

    =+++

    +=

    −++−+=−++−+=

    ===

    ++−−

    −−

    ++−−

    +−

    ij

    ijij

    HHLR

    H

    H

    EO

    O

    ppd

    ppc

    ppb

    ppa

    LLdc

    cpba

    apdcba

    cap

    pdpcpbpaLHpdpcpbpaLH

    pH

    χ

    βππ

    ⎟⎟⎠

    ⎞⎜⎜⎝

    ⎛==

    −•

    −−•−

    11

    11

    00 EO

    pnpn

    pp

    薬剤

    薬剤

    +

    イベント+ a cイベント- b d

  • 43

    Wald検定

    74.13216.0

    )7472.0(

    3216.0901

    101

    951

    511111

    7472.09059510loglog

    0:

    2

    1

    2

    12

    1

    1

    10

    ==

    ⎥⎦⎤

    ⎢⎣⎡

    =

    =+++=+++=⎥⎦⎤

    ⎢⎣⎡

    =⎟⎠⎞

    ⎜⎝⎛

    ⋅⋅

    =⎟⎠⎞

    ⎜⎝⎛

    ⋅⋅

    =

    =

    β

    βχ

    β

    β

    β

    V

    dcbaV

    dabc

    H

    wald

    薬剤

    薬剤

    +

    イベント+ a cイベント- b d

  • 44

    101, H

    ∧∧

    ββ

    00,0 H

    β

    010010)0( pU −=

    +

    −= pU 10010)( 1β

    1β0β

  • 45

    帰無仮説の下でのU

    5.2075.010010

    log)0(

    075.020015

    100100105

    )1log()(log)()1log(log)1log(loglog

    )0(:

    2121

    001

    0

    00

    00000

    100

    1

    =×−=−

    =−=

    −==

    ==++

    =+++

    +=

    −+++=−++−+=

    ===

    +•

    =

    +−

    nadbcEO

    pncd

    LdU

    dcbacap

    pdbpcapdpcpbpaL

    pH

    H

    ββ

    βππ

    薬剤

    薬剤

    +

    イベント

    +a c

    イベント

    -b d

    薬剤+群における観測イベント数と期待イベント数の差

  • 46

    スコア検定

    [ ]

    [ ]ピアソンカイ2乗=

    ++++−

    ==

    ++++=

    −=−=

    ))()()(()(

    )0()0(

    ))()()(()0(

    )0(

    222

    3

    2121

    dbcadcbaadbcn

    UVU

    ndbcadcbaUV

    nadbcEOU

    scoreχ

    薬剤

    薬剤

    +

    イベント+ a c

    イベント- b d

  • 47

    FREQプロシジャの出力

    統計量 自由度 値 p 値

    χ

    2 乗値 1 1.8018 0.1795

    尤度比χ

    2 乗値 1 1.8341 0.1756

    連続性補正χ

    2 乗値 1 1.1532 0.2829

    Mantel-Haenszel

    のχ

    2 乗値 1 1.7928 0.1806

    φ係数 0.0949

    一致係数 0.0945

    Cramer の

    V 統計量 0.0949

    薬剤

    薬剤

    +

    イベント

    +5 10

    イベント

    -95 90

  • 48

    LOGISTICの3種類の検定の出力

    Testing Global Null Hypothesis: BETA=0

    Test Chi-Square DF Pr

    >

    ChiSq

    Likelihood Ratio 1.8341 1 0.1756

    Score 1.8018 1 0.1795

    Wald 1.7359 1 0.1877

    薬剤

    薬剤

    +

    イベント

    +5 10

    イベント

    -95 90

  • 49H0

    β=0

    Wald

    尤度比

    スコアまとめ

    β

  • 50

    ロジスティックモデルの応用例

    )exp(11

    )exp(1)exp(

    10

    10

    10

    xp

    xxp

    ββ

    ββββ

    −−+=

    +++

    =

    反応範囲(min,max)を表すパラメータの追加

    Β,xの変換

  • 51

    4係数(max,min,d50,p)

    ロジスティック関数

    0 1.0×10 0 2.0×10 0 3.0×10 0 4.0×10 0 5.0×10 0-10

    10

    30

    50

    70

    90

    110Drug1Drug0

    Drug2Vehic le

    Normal

    Dose

    Res

    pons

    e

  • 52

    4係数(max,min,d50,p)

    ロジスティック関数

    pdpdosexdosepdp

    dosedddosedose

    ddosedosey

    ppp

    p

    pp

    p

    =−==⋅−⋅+

    =

    +=

    +

    ++

    ×−=

    10 ),50log(),log())log()50log(exp(1

    1)/50(1

    150

    min50

    min)(max

    ββ

  • 53

    パラメータ推定

    計量データなので

    誤差に独立性,不偏性,等分散性,正規性を仮定 して,非線形最小2乗法によって

    パラメータを推定

    誤差に正規分布を仮定すると最小2乗法は

    最尤法になる.

    ∑ ⎟⎟⎠

    ⎞⎜⎜⎝

    ⎛⎥⎦

    ⎤⎢⎣

    ⎡+

    +×−−

    2

    min50

    min)(max ppp

    ddosedosey

  • 54

    NLINプロシジャのプログラム例

    proc nlin;parms max=100 min=0 p=-0.1 d50=100;bounds p

  • 55

    NLINプロシジャの出力

    The NLIN ProcedureSum of Mean Approx

    Source DF Squares Square F Value Pr > FModel 3 36979.6 12326.5 709.09

  • 56

    Michaelis-Menten 式反応速度は基質濃度に影響される→

    関係式= Michaelis-Menten 式酵素反応速度パラメータ

    Vmax :最高反応速度Km :Michaelis 定数

    SKmSVV

    = maxMichaelis-Menten 式

    Km

    Vmax

    V =反応速度,S =基質濃度

    反応速度

    基質濃度

  • 57

    Michaelis-Menten 式

    1,log,log)logexp(log/

    loglog)/log(/1

    10

    maxmax

    =−==−=−=

    +=

    =

    ββ KmSxSKmSKmSKmSKm

    SKmV

    SKmSVV

    推定法については

    次回河野

    亜紀子さんが発表

  • 58

    阻害剤が存在する場合

    酵素阻害薬(以下,阻害薬) → 反応速度が減少

    基質濃度が増すと

    阻害薬が追い出される

    I = 阻害薬濃度

    Kmi =阻害薬存在下のKm

    阻害の程度: 阻害定数 (Ki) で評価Km を2倍にするのに必要な阻害薬濃度

    Ki が小さいほど阻害作用が強い→薬効評価の指標

    ⎟⎠⎞

    ⎜⎝⎛ +=

    KiIKmKm ii 1

    阻害薬(+,高用量)

    阻害薬(+,低用量)阻害薬(-)

    Km1 Km2 Km3

    ⎟⎠⎞

    ⎜⎝⎛ ++

    ×=

    KiIKmS

    SVVi

    i

    1

    max

  • 59

    阻害剤が存在する場合

    KiISKmKiISKm

    KiI

    SKm

    KiI

    SKm

    V

    KiIKmS

    SVV

    logloglog)log(

    1loglog)log(

    1log

    111

    maxmax

    −+−

    ⎟⎠⎞

    ⎜⎝⎛ ++−=

    ⎟⎟⎠

    ⎞⎜⎜⎝

    ⎛⎟⎠⎞

    ⎜⎝⎛ +

    ⎟⎠⎞

    ⎜⎝⎛ ++

    =⎟⎠⎞

    ⎜⎝⎛ ++

    ×=

    推定法については

    次回河野

    亜紀子さんが発表

  • 60

    参考文献Derr, R.E.(2000) Performing exact logistic regression with the SAS System. SUGI'2000

    Proceedings, Paper 254Gail, M.H., Lubin, J.H., and Rubinstein, L.V. (1981) Likelihood Calculations for Matched Case-

    Control Studies and Survival Studies with Tied Death Times. Biometrika, 68, 703-07. Hirji, K.F., Mehta, C.R., and Patel, N.R. (1987) Computing Distributions for Exact Logistic

    Regression. Journal of the American Statistical Association, 82, 1110 - 1117. Hosmer, D.W, Jr. and Lemeshow, S. (2000), Applied Logistic Regression, Second Edition, New

    York: John Wiley & Sons, Inc.Mehta, C.R., Patel, N. and Senchaudhuri, P. (1992), Exact Stratified Linear Rank Tests for

    Ordered Categorical and Binary Data. Journal of Computational and Graphical Statistics, 1, 21 - 40.

    Mehta, C.R., Patel, N. and Senchaudhuri, P. (2000) Efficient Monte Carlo Methods for Conditional Logistic Regression. Journal of the American Statistical Association, 95, 99 - 108.

    Truett,J., Cornfield, J. and Kannel, W.(1967) A Multivariate Analysis of the Risk of Coronary Heart Disease in Framingham. J.Chron.Dis. 20, 511-524

    浜田知久馬(1994)SASによる条件付きロジスティック回帰. 日本SASユーザー会94論文集,527-540浜田知久馬(2000)LOGISTICのV. 8の機能拡張. 日本SASユーザー会2000論文集,13-38浜田知久馬(2001)SAS V. 8における正確な推測とシミュレーションによる近似法. 日本SASユーザー会2001論文集,165-187

    ロジスティック回帰入門内容スライド番号 3ロジスティック曲線の特徴例と一般化説明変数が1つの場合説明変数が1つの場合説明変数が1つの場合likelihood(尤度)西遊記�ひたすら西を目指す.最尤法�ひたすら尤度山の頂上を目指す.スライド番号 12スライド番号 13スライド番号 14尤度山の頂上にいるのは?スライド番号 16スライド番号 17対数尤度とスコア関数対数尤度とスコア関数最尤推定量説明変数が1つの場合の�最尤推定量ロジスティック回帰のプログラム ロジスティック回帰の出力 帰無仮説の表現[MedStat:002877] Raoのスコア検定をどのように計算するのでしょうか? [MedStat:002878]浜田 [MedStat:002879] [MedStat:002881]大橋先生 [MedStat:002886] 尤度山の頂点から帰無仮説の�離れ具合を測るには?スライド番号 31尤度比検定 孫悟空  スコア検定 沙悟浄 Wald検定 猪八戒尤度原理に基づく3種類の検定3種類の検定の模式図セル度数が10倍になるとセル度数がk倍になると母数空間スライド番号 40スライド番号 41尤度比検定Wald検定スライド番号 44帰無仮説の下でのUスコア検定FREQプロシジャの出力LOGISTICの3種類の検定の出力まとめロジスティックモデルの応用例4係数(max,min,d50,p)�ロジスティック関数 4係数(max,min,d50,p)�ロジスティック関数パラメータ推定NLINプロシジャのプログラム例NLINプロシジャの出力 �Michaelis-Menten 式Michaelis-Menten 式�阻害剤が存在する場合阻害剤が存在する場合参考文献