Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
基礎統計学(基礎医科統計学)
第 6回 多変量解析重回帰とロジスティック回帰,Cox回帰
2019. 12. 6
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 1 / 30
回帰分析
多変量解析でよく使われるものとして
1 重回帰分析 2 ロジスティック回帰分析 3 Cox比例ハザード回帰(生存分析)
などがある.
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 2 / 30
単回帰分析X, Yを連続変数とし,X, Yの散布図は直線的な分布であるとする.散布の様子をもっともよく表す直線を回帰直線という.
X
Y
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 3 / 30
回帰直線回帰直線により Yの値を Xの値から推定できる.
Table: 2変数のデータNo 1 2 · · · nX x1 x2 · · · xn
Y y1 y2 · · · yn
標本回帰直線の式 y = α + βx α = Y − sX,Y
s2X
X, β =sX,Y
s2X
(標本回帰係数)
sX,Yは X, Yの共分散生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 4 / 30
回帰直線の性質yi = α + βxi (予測値),ei = yi − yi(残差)とおく
標本回帰直線は残差平方和n∑
i=1
e2i を最小にするように
定めた直線である.このような方法を最小自乗法という.
X
Y
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 5 / 30
回帰直線の検定
y = A + Bxを母集団の回帰直線(母回帰直線)とする.B = 0 (直線の傾き 0)ならば,Xは Yを説明する変数ではないといえる.そこで B = 0かどうか検定したい.
仮定各残差 eiは正規分布N(0, σ2)に従うとする.
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 6 / 30
検定の手順
1 帰無仮説 (H0) :母回帰係数 B = 0
対立仮説 (H1) :母回帰係数 B , 0
2 帰無仮説のもとで,
統計量 T =βS√S XX
は自由度 n − 2の t分布に従う.
ここで、S =
√1
n − 2
n∑i=1
e2i ,
S XXは Xの偏差平方和,βは標本回帰係数
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 7 / 30
判定
|T | ≥ tn−2(α) (p値≤ α)ならば帰無仮説は棄却.したがって B , 0.
|T | < tn−2(α) (p値> α)ならば B , 0とはいえない.
回帰係数の信頼区間β − tn−2(α)
S√
S XX≤ B ≤ β + tn−2(α)
S√
S XX
信頼区間に 0が含まれていなければ有意に B , 0といえる.生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 8 / 30
EZRにて
regression.csvを開く.EZR:統計解析→連続変数の解析→ 線形回帰R: summary(lm(data$weight ∼ data$height))
R Commander: 統計量 − >モデルへの適合 − >線形回帰...
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 9 / 30
重回帰分析
今までは説明変数 Xはひとつであった(単回帰分析)複数の説明変数 X1, X2, . . . , Xrを考える場合の回帰分析を重回帰分析という.重回帰分析では
多重線形モデルY = A + B1X1 + · · · + BrXr + ϵ
を考える.ここで ϵは残差を表す変数で正規分布N(0, σ)に従うと仮定する.
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 10 / 30
重回帰係数
X1, · · · , Xrの標本 xi jから最小自乗法を用いて標本重回帰係数α, β1, . . . , βrが求まる.(実際の計算は複雑であるので統計ソフトが必要)
yi = α + β1xi1 + · · · + βrxir
とおく(予測値)
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 11 / 30
決定係数
yiと yiの相関係数Rを重相関係数という.
重相関係数R =
∑i(yi − y)(yi − ¯y)√∑
i(yi − y)2√∑
i(yi − ¯y)2
ここで,yは yiの平均, ¯yは yiの平均
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 12 / 30
決定係数(寄与率)
0 ≤ R ≤ 1であり,
R2の値を回帰モデルの決定係数または寄与率といい,回帰モデルの当てはまりの良さを表す.
X1, . . . , Xrにより Yの 100R2%を説明していると解釈できる.
R2が 1(100%)に近いほどよいモデルである.
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 13 / 30
重回帰係数の検定
重回帰係数 Bi(or βi)は Xiの変化がYに与える影響を表している.
Bi = 0なら,Xiは Yを説明する変数ではない(Y
と関連のない変数)
Bi = 0かどうかの検定が可能
検定の結果,Bi , 0と結論される変数が Yを説明する変数と考えられる.(不必要な変数を減らす)
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 14 / 30
EZRにて
再度,regression.csvをひらく.EZR:統計解析→連続変数の解析→ 線形回帰R: summary(lm(formula = record..min. ∼body.fat.ratio + height + max.VO2 + subcutaneous.fat +
weight, data = data))
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 15 / 30
ロジスティック回帰
1948年から開始されたフラミンガム研究(Framingham Heart Study =冠状動脈性疾患に関する大規模なコホート研究)でロジスティック回帰分析が使われ,多重リスクファクターの概念が成立した.
注Cox回帰と違いロジスティック回帰は時間経過に関する情報は利用されない.当時はまだCox回帰の手法が一般的ではなかった.
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 16 / 30
ロジスティック回帰分析
応答変数 Yが 2値のときに用いられる.(Y = 1 (あり),Y = 0 (なし))
説明変数 Xiは連続,離散どちらでもよい.また交互作用項があってもよい.
p : Y = 1である確率
モデル:log( p1−p) = α + β1X1 + · · · + βrXr
したがって p = 11+exp(−(α+β1X1+···+βrXr))
(変数は1つでもよい.)生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 17 / 30
-4 -2 2 4
0.2
0.4
0.6
0.8
1
ロジスティック関数 y = 11 + e−z
p1−pはオッズ,log( p
1−p)はロジットといわれる.
標本から最尤法によりα, βiが(統計ソフトにより)求められる.
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 18 / 30
係数βiの解釈
たとえば X1が1増加したときを考える.log q
1−q = α + β1(x1 + 1) + · · · + βrxr.
log q1−q − log p
1−p = β1 =⇒ log q/(1−q)p/(1−p) = β1
=⇒ q/(1−q)p/(1−p) = exp(β1)
exp(βi)を調整オッズ比という(xiのみが1単位増加したときのオッズ比).
βiは(調整)対数オッズ比.
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 19 / 30
モデル構築に対する注意
統計モデルの変数は独立であることが前提となる.従って変数 X1, X2の間に強い相関があれば正しい結果が得られない場合がある.そのために,X1または X2
の一方をモデルに組み込めばよい.
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 20 / 30
変数選択の一般的な手順
1 変数間の関連性を調べ,関連性が弱い変数の組を選ぶ.
2 モデルの式に当てはめ,係数を推定する.3 得られた係数を吟味し,不必要な変数は取り除く.4 最終的に得られたモデルを用いて,各種の推定,検定を行う.
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 21 / 30
モデルの評価統計モデルの良さを評価する基準としてAICやBICなどがある. AIC:赤池情報量基準(Akaike’s Information Criterion)
BIC:ベイズ情報量基準(Bayesian Information Criterion)
AIC = −2 log L + 2p
BIC = −2 log L + p log n
L: 最大尤度,p: 自由パラメーターの数AIC or BICが小さいほどよいモデル.生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 22 / 30
EZRにて
logistic.csvを開く.
低体重児のリスクファクターに関するケース・コントロール研究Hosmerー Lemeshow(1989)のデータの一部統計解析 →名義変数の解析→二値変数に対する多変量解析(ロジスティック回帰)
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 23 / 30
生存分析(概略)
生存時間データ(打ち切りデータがあってもよい)
11 �ú
25 �ú27 �ú
29 �ú�i�Å�¿�Ø�è�j
38 �ú�i�Å�¿�Ø�è�j41 �ú
45 �ú
20 �ú�i�Å�¿�Ø�è�j
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 24 / 30
生存確率
データの整理
0 11 25 27 41 45
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 25 / 30
生存確率
カプラン・マイヤー法とログランク検定
イベントにおける生存確率S 0 = p0 = 1, S 1 = p0 p1 = 0.875,
S 2 = p0 p1 p2 = 0.729, S 3 = p0 p1 p2 p3 = 0.583,
S 4 = p0 p1 p2 p3 p4 = 0.292, S 5 = p0 p1 p2 p3 p4 p5 = 0.
これをグラフにしたものが生存曲線の推定曲線である.2つの推定曲線を比較する検定にログランク検定がある.EZRにて surv.csvを開く.生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 26 / 30
Cox回帰分析(比例ハザードモデル)
S X(t): 生存確率関数を推定したい.
モデルとしてS X(t) = S 0(t)c, S 0(t)はベースとなる生存確率関数c = exp(β0 + β1X1 + · · · + βnXn)
(比例ハザードモデル)
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 27 / 30
S0(t)
SX(t)
標本から最尤法により βiが(統計ソフトにより)求められる.exp biは因子 Xiに関するハザード比を表す.
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 28 / 30
ハザード比
ハザード=瞬間死亡率
ハザード比= XiありのときのハザードXiなしのときのハザード
例:ハザード比が 2ならば,「Xiあり」のときは「Xiなし」に比べて,死亡率(リスク比)は 2倍になるということ
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 29 / 30
レポートについて
成績評価のためのレポート問題 2題がホームページhttp://www.f.kpu-m.ac.jp/y/math/Med Stat/にあります.提出期限:2020年 1月 10日 長崎宛([email protected])
生命基礎数理学 (数学教室) 基礎統計学 2019. 12. 6 30 / 30