統計分析における「第三の変数」の功罪 - SAS...統計分析における「第三の変数」の功罪成蹊大学理工学部情報科学科教授岩崎学 [email protected]

統計分析における

「第三の変数」の功罪

成蹊大学理工学部情報科学科

教授岩崎学

[email protected]

1

自己紹介 1952年12月14日静岡県浜松市生まれ

• 学会など

• SASユーザー会名誉会員

• 統計関連学会連合：副理事長

• 日本統計学会：代議員，前理事長（２期）

• 日本計量生物学会：評議員

• 日本行動計量学会：理事，編集委員

• 応用統計学会：評議員

• 合計：理事２８期，評議員（代議員）３４期

• 政府機関など

• 消費者庁消費者委員会：専門委員

• 医薬品医療機器総合機構：専門委員

• 文部科学省，総務省，厚生労働省などの各種委員

2

要旨 • 統計的データ解析では因果関係の確立が大きなテーマ

• ビッグデータ解析でも，将来に対する方略・戦略の立案では，何をすればどうなるかの正しい知識が必要

• 因果関係では，文字通り「原因変数」と「結果変数」があるが，それに加え「第三の変数」が重要な役割を果たすことが多い

• これらは，無視したり使い方を誤ったりすると結果に偏りをもたらす

• 本講演では，それら「第三の変数」の正しい使い方について，分かりやすく解説

3

The Sexy Job

• Hal Varian on How the Web Challenges Managers (2009)

• Google’s chief economist

• I keep saying the sexy job in the next ten years will be

statisticians.

• The ability to take data—to be able to understand it, to

process it, to extract value from it, to visualize it, to

communicate it—that’s going to be a hugely important skill

in the next decades, not only at the professional level but

even at the educational level for elementary school kids, for

high school kids, for college kids.

4

さまざまなマスコミで (2013)

5

NHK でも

• ２０１３年７月３日（水）クローズアップ現代

• 数字のカラクリ・データの真実～統計学ブームのヒミツ～

• 視聴率：10.7%（関東地区）

6

現代思想 (2014年６月号）

特集：ポスト・ビッグデータと統計学の時代

【イントロダクション】ビッグデータと統計学／竹内啓

【討議】情報（データ）は人を自由にするか／西垣通＋ドミニク・チェン

【インパクト】統計学にとって情報とは何か／竹村彰通ビッグデータブームを考える／水田正弘ビッグデータは科学を変えたか？／出口康夫

【インタビュー】統計学は科学の文法である水俣から福島まで、なぜ公害は繰り返されるのか／津田敏秀

【統計学の現在】統計的因果推論の考え方／岩崎学統計学・確率論の有効性とその限界／小島寛之統計・実証主義・社会学的想像力／太郎丸博

【データという問題】ビッグデータの社会哲学的位相／大黒岳彦「非有機的身体」の捕獲膨脹する所与（データ）と新たな利潤（レント）源泉／長原豊工学的心身問題／西川アサキ＋森脇紀彦

【ポスト・ビッグデータ社会のために】生かさない〈生―政治〉の誕生ビッグデータと「生存資源」の分配問題／柴田邦臣「ネオ精神医学」を生み出した「トロイの木馬」：ＤＳＭアメリカにおける父殺しと科学への倒錯／樫村愛子ビッグデータとビッグソサエティ／和田伸一郎

7

日経産業新聞

(2014. 6.10) • 統計解析最前線

• ビジネスの場で生かす統計解析

• 欧米で当たり前の統計解析がなぜ日本企業で遅れているのか

• 統計解析を企業利益につなげる人材の登用・育成がカギ

• データが「集まる」時代こそより質の高い統計解析を

8

統計的データ解析の流れ

１０年以上前のスライドだが

• 研究目的の設定

• データ収集法の立案：実験，観察研究，調査

• データの収集（モニタリング）

• データの電子化

• データのチェック（クリーニング），マージ

• データの集計とグラフ化（予備的検討）：記述統計

• 統計的推測ないしは予測：推測統計

• 分析結果のプレゼンテーション：文書化，口頭発表

• 意思決定（終了もしくは最初に戻る）

9

PPDAC サイクル

• P : Problem

• P : Plan

• D : Data

• A : Analysis

• C : Conclusion

• CensusAtSchool

10

研究の種類

• 実験研究 (experimental study)

• 処置効果の評価を意図．実験条件の設定（無作為化など）が研究者自らの手でできる

• 観察研究 (observational study)

• 処置効果の評価を意図．観察条件の設定（無作為化など）が研究者自らの手でできない

• 調査 (survey)

• 必ずしも処置効果の評価を意図しない．

• 前向き研究 (prospective study)

• 条件を設定し，時間を追って観測．コホート研究

• 後ろ向き研究 (retrospective study)

• 現在の状態から過去にさかのぼって調査．ケース・コントロール研究

11

因果関係の確立

• Effect of Cause or Cause of Effect

• 統計学で主に扱うのは Effect of Cause

• ある処置 (treatment) に効果 (effect) があるか，あるとしたらどの程度か．

• 新規開発医薬品，ICTを使った新しい教育方法，新規の販売促進戦略，ある種の公共政策

• 一方で，Cause of Effect の探索も，実用上重要

• ある病気の原因は何か．どうやれば製品が売れるか．どうすれば学生の学力は上がるか．

• 原因候補が特定できても，その次の段階として Effect of Cause の評価が必要

12

因果推論での登場物

• 目的：ある処置 (treatment) T の効果を，対照 (control) C との比較において評価

• 「比較」は絶対に必要

• 「薬を飲んだら病気が治った」，「WEBのデザインを変えたらページビューが増えた」だけでは不足

• 第一の変数：処置の割り付け変数：Z = 1 (T), = 0 (C)

• 第二の変数：結果変数：Y = 1 （成功），= 0 （失敗），あるいは連続量

• 第三の変数：（観測される）共変量：X （個体を特徴づけるもろもろの値で観測されるもの，通常は多数）

• 第四の変数：（観測されない）共変量：U （観測されないあらゆる要因）

13

回帰モデル

• 単回帰モデル：y = a + bx + e

• y = ax + b + e ではない

• y = my + b(x – mx) + e

• y : 目的変数，x : 説明変数，e : 誤差項

• a : 定数項（通常は意味なし），b : 回帰係数

• my : y の平均，mx : x の平均

• 仮定：e は x とは独立に N(0, s2) に従う

• 重回帰モデル：y = b0 + b1x1 + + bpxp + e

• y = my + b1(x1 – m1) + + bp(xp – mp) + e

• y = b0 + b1x + b2x2 + bpx

p + e

• y : 目的変数， x1, . . . , xp : 説明変数，e : 誤差項

• b0 : 定数項，b1, . . . , bp : （偏）回帰係数

• 仮定：e は x1, . . . , xp とは独立に N(0, s2) に従う

14

単回帰式 (y = a + bx) の性質

• 回帰直線は楕円の長軸ではない

• E[y | x] = a + bx : x を与えたときの

y の条件付き期待値

• x を定めたとき，対応する y は (a + bx) を

中心にばらつく

• a : 定数項（通常は意味なし）

• b : x を1単位増加させたときの y の（平均的な）増分

• b の推定値 = Cov[x, y] / V[x]

• V[x] = V[y] のときは b = ρ (= R[x, y]，相関係数)

• y から x への回帰式： x = c + dy

• V[x] = V[y] のときは b = 1/ρ

• x が2値 (0 or 1) のときは b は各群の平均値の差

15

重回帰式 (y = b0 + b1x1 + b2x2) の性質

• E[y | x1, x2] = b0 + b1x1 + b2x2 : x1, x2 を与えたときの y の条件付き期待値

• b1 の解釈１: x2 の値を固定した上で，x1 を1単位増加させたときの y の（平均的な）増分

• b1 の解釈２: x2 によって y のばらつきの説明をした残りの部分（y と x2 との単回帰式の残差）に対し，x1 を1単位増加させたときの y の（平均的な）増分

• 【重要】 b1 の解釈は，R[x1, x2] = 0 であれば x2 と無関係にできるが， R[x1, x2] 0 のときは，x2 に依存する • R[x1, x2] = 0 であれば，単回帰式 y = a + bx と重回帰式 y = b0 + b1x1

+ b2x2 において，b = b1 となる

• b1 は x2 に依存するので， x2 として何をとるかが重要であり， b1 の解釈をむやみに拡大してはならない

16

回帰係数の値の推移

• r1 = R[x1, y] = 0.5,

r2 = R[x2, y] = 0.2

と固定し，r = R[x1, x2] を変化させたときの，偏回帰係数 b1，b2 の動き

• r1 = R[x1, y] = 0.5,

r2 = R[x2, y] = 0

と固定し，r = R[x1, x2] を変化させたときの，偏回帰係数 b1，b2 の動き

17

回帰係数の計算式

• (x1, x2, y) の相関行列

• b1, b2 の計算式（各分散は1に基準化）

• 説明変数間の相関 r が大きいと分母が小さくなって回帰係数が大きくなる．

• 相関 r が大きいと，r1 > 0 であっても，分子が負になることがある

18

1

1

1

21

2

1

2

1

21

rr

rr

rr

y

x

x

yxx

212

2221

11

,1 r

rrrb

r

rrrb

添加物と走行距離の例 – １

• 自動車のオイルにある添加物を入れることにより自動車の燃費（ガソリン1リットルあたりの走行距離）に差が出るかどうかを，添加物無では5台，添加物有では6台の自動車について，各走行距離を計測した．

• この添加物を加えることにより燃費が異なるかどうかを有意水準5%で両側検定せよ．

• 原因（処置）：添加物の有無 (Z = 0, 1)

• 結果（効果）：走行距離 (Y)

• 検定結果（2標本 t 検定）：t = – 0.117 (P =

0.909)

19

添加物無添加物有ID Y(0) Y(1)1 17.4 18.22 15.7 16.23 14.2 16.44 13.9 14.05 10.3 11.66 10.6

添加物と走行距離の例 – 2

• 原因（処置）：添加物の有無 (Z = 0, 1)

• 結果（効果）：走行距離 (Y)

• 共変量：自動車の総排気量（リットル）(X)

20

ID X(0) Y(0) X(1) Y(1)1 1.3 17.4 1.5 18.22 1.5 15.7 1.5 16.23 1.5 14.2 1.8 16.44 1.8 13.9 1.8 14.05 2.0 10.3 2.0 11.66 2.2 10.6

平均 1.620 14.300 1.800 14.500標準偏差 0.277 2.633 0.276 2.969

添加物無添加物有


• 共分散分析 (ANCOVA)

• モデル式：Y = a + d Z + g X + e

• 効果量 (d) の推定値：d = 1.901 (P = 0.032)

21

回帰統計重相関 R 0.925重決定 R2 0.856補正 R2 0.819標準誤差 1.140観測数 11

分散分析表

自由度変動分散分散比有意 F回帰 2 61.519 30.759 23.684 0.000残差 8 10.390 1.299合計 10 71.909

係数標準誤差 t P-値下限 95% 上限 95%切片 29.605 2.283 12.965 0.000 24.340 34.871Z 1.901 0.733 2.593 0.032 0.210 3.591X -9.448 1.374 -6.876 0.000 -12.616 -6.279


• 共変量 (X) の値でマッチング：X の値が同じもののみをピックアップ

• 共変量の偏りを排除：比較可能性を高める

• データ数が減少しているので統計的な有意性はないが，平均値の差に偏りはない

22

添加物無添加物有ID X(0) Y(0) X(1) Y(1) ID X(0) Y(0) X(1) Y(1)1 1.3 17.4 1.5 18.2 1 1.5 15.7 1.5 18.2

2 1.5 15.7 1.5 16.2 2 1.5 14.2 1.5 16.23 1.5 14.2 1.8 16.4 3 1.8 13.9 1.8 16.44 1.8 13.9 1.8 14.0 4 2.0 10.3 2 11.65 2.0 10.3 2.0 11.66 2.2 10.6

平均 1.62 14.30 1.80 14.50 平均 1.7 13.525 1.7 15.600標準偏差 0.277 2.633 0.276 2.969 標準偏差 0.245 2.290 0.245 2.814

平均の差 0.20 平均の差 2.075t 値 -0.117 t 値 -1.144P 値 0.909 P 値 0.296

添加物無添加物有

米国 SAT スコアの例 – 1

• 米国の SAT スコアは1980年に底を打ち，その後上昇に転じたとされる．

• 下の表は，人種別に見た平均 SAT スコアの推移

• White の平均は8点増加し，Non-Whiteの平均の増加は15点であるが，全体での平均の増加は7点

cf. Wainer (1986)

23

人種 1980 1984 差White 924 932 8Non-White 802 817 15全体 890 897 7

平均スコア

米国 SAT スコアの例 – 2

• White の平均が 8 点増加，Non-White の平均が 15 点増加

• 全体の平均の増加は 7 点

• 足りない情報：受験者比率

924×0.722 + 802×0.278 = 890

932×0.695 + 817×0.305 = 897

• 第三の変数「受験者比率」の情報がないと解釈を誤る可能性

24

人種 1980 1984 差White 924 932 8Non-White 802 817 15全体 890 897 7

平均スコア

人種 1980 1984 差White 72.2 69.5 -2.7Non-White 27.8 30.5 2.7全体 100 100 0

受験者比率

喫煙の死亡率の例

• 喫煙習慣と死亡率について，カナダ，英国，米国の3つの調査研究が行われ，各喫煙習慣ごとの死亡率（1000人年）が報告された

• 調査時の平均年齢（第三の変数）を考慮しないと結論を誤る．

• 調整は，年齢階級ごとに求めた死亡率を融合

cf. Cochran (1968)

25

Death rateSmoking group Canadian British U. S.Non-smokers 20.2 11.3 13.5Cigarettes only 20.5 14.1 13.5Cigars, Pipes 35.5 20.7 17.4

Mean ageSmoking group Canadian British U. S.Non-smokers 54.9 49.1 57.0Cigarettes only 50.5 49.8 53.2Cigars, Pipes 65.9 55.7 59.7

Adjusted D. R.Smoking group Canadian British U. S.Non-smokers 20.2 11.3 13.5Cigarettes only 29.5 14.8 21.2Cigars, Pipes 19.8 11.0 13.7

Study

Study

Study

さらに簡単な数値例

• 単回帰式：

y = 1.6 + 0.5429 x

• ダミー変数 d を入れた回帰式：

y = 4 + 6d – x

• ダミー変数 d の導入により，各群での x と y との関係が正しく判断される

• 添加物の例では，x の導入により d

と y との関係が明らかになった

26

５つのべからず集

• 第三の変数を用いた調整法にはいくつかのものがある

• マッチング，層別，共分散分析，．．．

• どうすればいいのか，に対する確固たる解答はないが，してはいけないことはある．

１．モデルを想定せず，やみくもに調整してはいけない

２．処置に影響された変数を用いて調整してはいけない

３．モデルのチェックなしに外挿してはいけない

４．調査対象とは異なる対象に関する変数で調整してはいけない

５．調整したからといってその結果が常に妥当であると考えては

いけない

cf. Wainer (1989), Rosenbaum (1984)

27

クロスオーバー試験における層別

• 対照食品摂取後の値の高低（高群，低群）で2群に層別し，

｛効果量」＝「被験食品での結果」－「対照食品での結果」

を計算

• その結果，高群での効果量に有意な差を認めた

• 「２．処置に影響された変数を用いて調整してはいけない」に抵触

28

第１期第２期無作為化

A グループ被験食品対照食品被験者

B グループ対照食品被験食品

出生時体重と成人での血圧

• 出生時体重 (BW) が低いほど成人血圧 (BP) が高い（Barker

仮説）： BP = const + b1BW において b1 < 0

• BP だけでなく，コレステロール値，心血管系イベントの発生率など

• 成人での BMI を説明変数に加える

BP = const + b1BW + b2BMI

• b1 の絶対値が大きくなる．

• r1 = R[BW, BP] = – 0.05

• r2 = R[BW, BMI] = 0.15

• 0 r = R[BMI, BP] < 1

「２．処置に影響された変数を

用いて調整してはいけない」

に抵触 cf. Tan, et al. (2005)

29

性差別？– 1

• 男性 (M) と女性 (F) で，賃金格差があるか

• 共変量 x = job performance

30

M M

F

F

性差別？– 2

• 同じ x (job performance)

で見ると（実線），M のほうが F よりも大きい

• 同じ成果であったとき，男性のほうが給料が高い

• 女性に不利な差別

• 同じ y (salary) で見ると（破線），M のほうが F よりも大きい

• 同じ給料をもらっている人で比較すると，男性のほうが成果が大きい

• 男性に不利な差別

31

M

F

cf. Conway and Roberts (1983)

最後に：統計家はこう考える

• 因果関係の確立には実験研究が gold standard

• 実験研究が必ずしも可能とは限らない

• 観察研究による因果推論では，実験研究に近づける努力

• 後ろ向き研究しかできないことも多い

• 稀な事象の場合には，ほとんど唯一の方法論

• 現在そこにあるデータについては

• データの素性を明確に

• データ取得の 5W1H

• Who, What, When, Where, Why + How

• 統計では特に How が重要

• Whom と How Much を加えて 6W2H (Wikipedia より）

32

統計検定 (2014)

• ２０１４年１１月３０日（日）実施

• １級，２級，３級，４級

• 専門統計調査士，統計調査士

• ２級，３級，４級は年２回実施

• 学習マテリアルと問題集

33

参考文献（和書）

• 甘利俊一・狩野裕・佐藤俊哉・松山裕・竹内啓・石黒真木夫 (2002) 多変量解析の展開隠れた構造と因果を推理する．岩波書店．

• Pearl, J.（著）黒木学（訳） (2009) 統計的因果推論モデル・推論・推測．共立出版．

• 星野崇宏 (2009) 調査観察データの統計科学因果推論・選択バイアス・データ融合．岩波書店．

• 宮川雅已 (2004) 統計的因果推論ー回帰分析の新しい枠組みー．朝倉書店．

34

参考文献（洋書 – 1）

• Berzuini, C., Dawid, P. and Bernardinelli, L. (eds.) (2012)

Causality. Statistical Perspectives and Applications. John

Wiley & Sons.

• Faries, D. E., Leon, A. C., Haro, J. M. and Obenchain, R.

L. (Eds.) (2010) Analysis of Observational Health Care

Data Using SAS. SAS Institute.

• Morgan, S. L. (ed) (2013) Handbook of Causal Analysis

for Social Research. Springer.

• Morgan, S. L. and Winship, C. (2007) Counterfactuals

and Causal Inference. Methods and Principles for Social

Research. Cambridge University Press.

35

参考文献（洋書 – 2）

• Rosenbaum, P. R. (2002) Observational Studies, Second

Edition. Springer.

• Rosenbaum, P. R. (2010) Design of Observational Studies.

Springer.

• Rothman, K. J., Greenland, S. and Lash, T. (2008) Modern

Epidemiology, Third Edition. Wolters Kluwer.

• Rubin, D. B. (2006) Matched Sampling for Causal Effects.

Cambridge University Press.

• Shadish, W. R., Cook, T. D. and Campbell, D. T. (2002)

Experimental and Quasi-Experimental designs for

Generalized Causal Inference. Houghton Mifflin Company.

and others

36

参考文献（学術論文）

• Cochran, W. G. (1968) The effectiveness of adjustment by subclassification in removing bias in observational studies. Biometrics, 24, 295-313.

• Conway, D. A. and Roberts, H. V. (1983) Reverse regression, fairness, and employment discrimination. Journal of Business & Economic Statistics, 1, 75-85.

• Rosenbaum, P. R. (1984) The consequences of adjustment for a concomitant variable that has been affected by the treatment. Journal of the Royal Statistical Society, Series A, 147, 656-666.

• Tu, Y.-K., West, R., Ellison, G. T. H. and Gilthorpe, M. S. (2005) Why evidence for the fetal origins of adult disease might be a statistical artifact: the "reversal paradox" for the relation between birth weight and blood pressure in later life (with discussion). American Journal of Epidemiology, 161, 27-32.

• Wainer, H. (1986) Minority contributions to the SAT score turnaround: an example of Simpson's paradox. Journal of Educational Statistics, 11, 239-244.

• Wainer, H. (1989) Eelworms, bullet holes, and Geraldine Ferraro: some problems with statistical adjustment and some solutions (with discussion). Journal of Educational Statistics, 14, 121-199.

and many others

37

今後の活動予定

講演予定

• 統計関連学会連合大会（2014.9.13-16) • 於：東京大学（本郷キャンパス）

• ９月１３日午後チュートリアル講演「マッチングと統計解析」（３時間）

• 日本計算機統計学会シンポジウム (2014.11.14-15) • 於：沖縄科学技術大学院大学

• Kyoto International Conference on Modern Statistics (2014.11.17-18) • 於：京都国際会館

出版予定

• 岩崎学 (2014 or 15) 統計的因果推論の基礎（仮題）．朝倉書店

38

Documents

統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 [email protected]

統計分析における「第三の変数」の功罪 - SAS...統計分析における「第三の変数」の功罪成蹊大学理工学部情報科学科教授岩崎学 [email protected]