38
統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 [email protected] 1

統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 [email protected]

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

統計分析における

「第三の変数」の功罪

成蹊大学理工学部情報科学科

教授 岩崎 学

[email protected]

1

Page 2: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

自己紹介 1952年12月14日 静岡県浜松市生まれ

• 学会など

• SASユーザー会 名誉会員

• 統計関連学会連合:副理事長

• 日本統計学会:代議員,前理事長(2期)

• 日本計量生物学会:評議員

• 日本行動計量学会:理事,編集委員

• 応用統計学会:評議員

• 合計:理事28期,評議員(代議員)34期

• 政府機関など

• 消費者庁消費者委員会:専門委員

• 医薬品医療機器総合機構:専門委員

• 文部科学省,総務省,厚生労働省などの各種委員

2

Page 3: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

要旨 • 統計的データ解析では因果関係の確立が大きなテーマ

• ビッグデータ解析でも,将来に対する方略・戦略の立案では,何をすればどうなるかの正しい知識が必要

• 因果関係では,文字通り「原因変数」と「結果変数」があるが,それに加え「第三の変数」が重要な役割を果たすことが多い

• これらは,無視したり使い方を誤ったりすると結果に偏りをもたらす

• 本講演では,それら「第三の変数」の正しい使い方について,分かりやすく解説

3

Page 4: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

The Sexy Job

• Hal Varian on How the Web Challenges Managers (2009)

• Google’s chief economist

• I keep saying the sexy job in the next ten years will be

statisticians.

• The ability to take data—to be able to understand it, to

process it, to extract value from it, to visualize it, to

communicate it—that’s going to be a hugely important skill

in the next decades, not only at the professional level but

even at the educational level for elementary school kids, for

high school kids, for college kids.

4

Page 5: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

さまざまなマスコミで (2013)

5

Page 6: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

NHK でも

• 2013年7月3日(水)クローズアップ現代

• 数字のカラクリ・データの真実~統計学ブームのヒミツ~

• 視聴率:10.7%(関東地区)

6

Page 7: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

現代思想 (2014年6月号)

特集:ポスト・ビッグデータと統計学の時代

【イントロダクション】 ビッグデータと統計学 / 竹内 啓

【討議】 情報(データ)は人を自由にするか / 西垣 通+ドミニク・チェン

【インパクト】 統計学にとって情報とは何か / 竹村彰通 ビッグデータブームを考える / 水田正弘 ビッグデータは科学を変えたか? / 出口康夫

【インタビュー】 統計学は科学の文法である 水俣から福島まで、なぜ公害は繰り返されるのか / 津田敏秀

【統計学の現在】 統計的因果推論の考え方 / 岩崎 学 統計学・確率論の有効性とその限界 / 小島寛之 統計・実証主義・社会学的想像力 / 太郎丸 博

【データという問題】 ビッグデータの社会哲学的位相 / 大黒岳彦 「非有機的身体」の捕獲 膨脹する所与(データ)と新たな利潤(レント)源泉 / 長原 豊 工学的心身問題 / 西川アサキ+森脇紀彦

【ポスト・ビッグデータ社会のために】 生かさない〈生―政治〉の誕生 ビッグデータと「生存資源」の分配問題 / 柴田邦臣 「ネオ精神医学」を生み出した「トロイの木馬」:DSM アメリカにおける父殺しと科学への倒錯 / 樫村愛子 ビッグデータとビッグソサエティ / 和田伸一郎

7

Page 8: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

日経産業新聞

(2014. 6.10) • 統計解析最前線

• ビジネスの場で生かす統計解析

• 欧米で当たり前の統計解析がなぜ日本企業で遅れているのか

• 統計解析を企業利益につなげる人材の登用・育成がカギ

• データが「集まる」時代こそより質の高い統計解析を

8

Page 9: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

統計的データ解析の流れ

10年以上前のスライドだが

• 研究目的の設定

• データ収集法の立案:実験,観察研究,調査

• データの収集(モニタリング)

• データの電子化

• データのチェック(クリーニング),マージ

• データの集計とグラフ化(予備的検討):記述統計

• 統計的推測ないしは予測:推測統計

• 分析結果のプレゼンテーション:文書化,口頭発表

• 意思決定(終了もしくは最初に戻る)

9

Page 10: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

PPDAC サイクル

• P : Problem

• P : Plan

• D : Data

• A : Analysis

• C : Conclusion

• CensusAtSchool

10

Page 11: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

研究の種類

• 実験研究 (experimental study)

• 処置効果の評価を意図.実験条件の設定(無作為化など)が研究者自らの手でできる

• 観察研究 (observational study)

• 処置効果の評価を意図.観察条件の設定(無作為化など)が研究者自らの手でできない

• 調査 (survey)

• 必ずしも処置効果の評価を意図しない.

• 前向き研究 (prospective study)

• 条件を設定し,時間を追って観測.コホート研究

• 後ろ向き研究 (retrospective study)

• 現在の状態から過去にさかのぼって調査.ケース・コントロール研究

11

Page 12: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

因果関係の確立

• Effect of Cause or Cause of Effect

• 統計学で主に扱うのは Effect of Cause

• ある処置 (treatment) に効果 (effect) があるか,あるとしたらどの程度か.

• 新規開発医薬品,ICTを使った新しい教育方法,新規の販売促進戦略,ある種の公共政策

• 一方で,Cause of Effect の探索も,実用上重要

• ある病気の原因は何か.どうやれば製品が売れるか.どうすれば学生の学力は上がるか.

• 原因候補が特定できても,その次の段階として Effect of Cause の評価が必要

12

Page 13: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

因果推論での登場物

• 目的:ある処置 (treatment) T の効果を,対照 (control) C との比較において評価

• 「比較」は絶対に必要

• 「薬を飲んだら病気が治った」,「WEBのデザインを変えたらページビューが増えた」だけでは不足

• 第一の変数:処置の割り付け変数:Z = 1 (T), = 0 (C)

• 第二の変数:結果変数:Y = 1 (成功),= 0 (失敗),あるいは連続量

• 第三の変数:(観測される)共変量:X (個体を特徴づけるもろもろの値で観測されるもの,通常は多数)

• 第四の変数:(観測されない)共変量:U (観測されないあらゆる要因)

13

Page 14: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

回帰モデル

• 単回帰モデル:y = a + bx + e

• y = ax + b + e ではない

• y = my + b(x – mx) + e

• y : 目的変数,x : 説明変数,e : 誤差項

• a : 定数項(通常は意味なし),b : 回帰係数

• my : y の平均,mx : x の平均

• 仮定:e は x とは独立に N(0, s2) に従う

• 重回帰モデル:y = b0 + b1x1 + + bpxp + e

• y = my + b1(x1 – m1) + + bp(xp – mp) + e

• y = b0 + b1x + b2x2 + bpx

p + e

• y : 目的変数, x1, . . . , xp : 説明変数,e : 誤差項

• b0 : 定数項,b1, . . . , bp : (偏)回帰係数

• 仮定:e は x1, . . . , xp とは独立に N(0, s2) に従う

14

Page 15: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

単回帰式 (y = a + bx) の性質

• 回帰直線は楕円の長軸ではない

• E[y | x] = a + bx : x を与えたときの

y の条件付き期待値

• x を定めたとき,対応する y は (a + bx) を

中心にばらつく

• a : 定数項(通常は意味なし)

• b : x を1単位増加させたときの y の(平均的な)増分

• b の推定値 = Cov[x, y] / V[x]

• V[x] = V[y] のときは b = ρ (= R[x, y],相関係数)

• y から x への回帰式: x = c + dy

• V[x] = V[y] のときは b = 1/ρ

• x が2値 (0 or 1) のときは b は各群の平均値の差

15

Page 16: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

重回帰式 (y = b0 + b1x1 + b2x2) の性質

• E[y | x1, x2] = b0 + b1x1 + b2x2 : x1, x2 を与えたときの y の条件付き期待値

• b1 の解釈1: x2 の値を固定した上で,x1 を1単位増加させたときの y の(平均的な)増分

• b1 の解釈2: x2 によって y のばらつきの説明をした残りの部分(y と x2 との単回帰式の残差)に対し,x1 を1単位増加させたときの y の(平均的な)増分

• 【重要】 b1 の解釈は,R[x1, x2] = 0 であれば x2 と無関係にできるが, R[x1, x2] 0 のときは,x2 に依存する • R[x1, x2] = 0 であれば,単回帰式 y = a + bx と重回帰式 y = b0 + b1x1

+ b2x2 において,b = b1 となる

• b1 は x2 に依存するので, x2 として何をとるかが重要であり, b1 の解釈をむやみに拡大してはならない

16

Page 17: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

回帰係数の値の推移

• r1 = R[x1, y] = 0.5,

r2 = R[x2, y] = 0.2

と固定し,r = R[x1, x2] を変化させたときの,偏回帰係数 b1,b2 の動き

• r1 = R[x1, y] = 0.5,

r2 = R[x2, y] = 0

と固定し,r = R[x1, x2] を変化させたときの,偏回帰係数 b1,b2 の動き

17

Page 18: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

回帰係数の計算式

• (x1, x2, y) の相関行列

• b1, b2 の計算式(各分散は1に基準化)

• 説明変数間の相関 r が大きいと分母が小さくなって回帰係数が大きくなる.

• 相関 r が大きいと,r1 > 0 であっても,分子が負になることがある

18

1

1

1

21

2

1

2

1

21

rr

rr

rr

y

x

x

yxx

212

2221

11

,1 r

rrrb

r

rrrb

Page 19: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

添加物と走行距離の例 – 1

• 自動車のオイルにある添加物を入れることにより自動車の燃費(ガソリン1リットルあたりの走行距離)に差が出るかどうかを,添加物無では5台,添加物有では6台の自動車について,各走行距離を計測した.

• この添加物を加えることにより燃費が異なるかどうかを有意水準5%で両側検定せよ.

• 原因(処置):添加物の有無 (Z = 0, 1)

• 結果(効果):走行距離 (Y)

• 検定結果(2標本 t 検定):t = – 0.117 (P =

0.909)

19

添加物無 添加物有ID Y(0) Y(1)1 17.4 18.22 15.7 16.23 14.2 16.44 13.9 14.05 10.3 11.66 10.6

Page 20: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

添加物と走行距離の例 – 2

• 原因(処置):添加物の有無 (Z = 0, 1)

• 結果(効果):走行距離 (Y)

• 共変量:自動車の総排気量(リットル)(X)

20

ID X(0) Y(0) X(1) Y(1)1 1.3 17.4 1.5 18.22 1.5 15.7 1.5 16.23 1.5 14.2 1.8 16.44 1.8 13.9 1.8 14.05 2.0 10.3 2.0 11.66 2.2 10.6

平均 1.620 14.300 1.800 14.500標準偏差 0.277 2.633 0.276 2.969

添加物無 添加物有

Page 21: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

添加物と走行距離の例 – 3

• 共分散分析 (ANCOVA)

• モデル式:Y = a + d Z + g X + e

• 効果量 (d) の推定値:d = 1.901 (P = 0.032)

21

回帰統計重相関 R 0.925重決定 R2 0.856補正 R2 0.819標準誤差 1.140観測数 11

分散分析表

自由度 変動 分散 分散比 有意 F回帰 2 61.519 30.759 23.684 0.000残差 8 10.390 1.299合計 10 71.909

係数 標準誤差 t P-値 下限 95% 上限 95%切片 29.605 2.283 12.965 0.000 24.340 34.871Z 1.901 0.733 2.593 0.032 0.210 3.591X -9.448 1.374 -6.876 0.000 -12.616 -6.279

Page 22: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

添加物と走行距離の例 – 4

• 共変量 (X) の値でマッチング:X の値が同じもののみをピックアップ

• 共変量の偏りを排除:比較可能性を高める

• データ数が減少しているので統計的な有意性はないが,平均値の差に偏りはない

22

添加物無 添加物有ID X(0) Y(0) X(1) Y(1) ID X(0) Y(0) X(1) Y(1)1 1.3 17.4 1.5 18.2 1 1.5 15.7 1.5 18.2

2 1.5 15.7 1.5 16.2 2 1.5 14.2 1.5 16.23 1.5 14.2 1.8 16.4 3 1.8 13.9 1.8 16.44 1.8 13.9 1.8 14.0 4 2.0 10.3 2 11.65 2.0 10.3 2.0 11.66 2.2 10.6

平均 1.62 14.30 1.80 14.50 平均 1.7 13.525 1.7 15.600標準偏差 0.277 2.633 0.276 2.969 標準偏差 0.245 2.290 0.245 2.814

平均の差 0.20 平均の差 2.075t 値 -0.117 t 値 -1.144P 値 0.909 P 値 0.296

添加物無 添加物有

Page 23: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

米国 SAT スコアの例 – 1

• 米国の SAT スコアは1980年に底を打ち,その後上昇に転じたとされる.

• 下の表は,人種別に見た平均 SAT スコアの推移

• White の平均は8点増加し,Non-Whiteの平均の増加は15点であるが,全体での平均の増加は7点

cf. Wainer (1986)

23

人種 1980 1984 差White 924 932 8Non-White 802 817 15全体 890 897 7

平均スコア

Page 24: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

米国 SAT スコアの例 – 2

• White の平均が 8 点増加,Non-White の平均が 15 点増加

• 全体の平均の増加は 7 点

• 足りない情報:受験者比率

924×0.722 + 802×0.278 = 890

932×0.695 + 817×0.305 = 897

• 第三の変数「受験者比率」の情報がないと解釈を誤る可能性

24

人種 1980 1984 差White 924 932 8Non-White 802 817 15全体 890 897 7

平均スコア

人種 1980 1984 差White 72.2 69.5 -2.7Non-White 27.8 30.5 2.7全体 100 100 0

受験者比率

Page 25: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

喫煙の死亡率の例

• 喫煙習慣と死亡率について,カナダ,英国,米国の3つの調査研究が行われ,各喫煙習慣ごとの死亡率(1000人年)が報告された

• 調査時の平均年齢(第三の変数)を考慮しないと結論を誤る.

• 調整は,年齢階級ごとに求めた死亡率を融合

cf. Cochran (1968)

25

Death rateSmoking group Canadian British U. S.Non-smokers 20.2 11.3 13.5Cigarettes only 20.5 14.1 13.5Cigars, Pipes 35.5 20.7 17.4

Mean ageSmoking group Canadian British U. S.Non-smokers 54.9 49.1 57.0Cigarettes only 50.5 49.8 53.2Cigars, Pipes 65.9 55.7 59.7

Adjusted D. R.Smoking group Canadian British U. S.Non-smokers 20.2 11.3 13.5Cigarettes only 29.5 14.8 21.2Cigars, Pipes 19.8 11.0 13.7

Study

Study

Study

Page 26: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

さらに簡単な数値例

• 単回帰式:

y = 1.6 + 0.5429 x

• ダミー変数 d を入れた回帰式:

y = 4 + 6d – x

• ダミー変数 d の導入により,各群での x と y との関係が正しく判断される

• 添加物の例では,x の導入により d

と y との関係が明らかになった

26

Page 27: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

5つのべからず集

• 第三の変数を用いた調整法にはいくつかのものがある

• マッチング,層別,共分散分析,...

• どうすればいいのか,に対する確固たる解答はないが,してはいけないことはある.

1.モデルを想定せず,やみくもに調整してはいけない

2.処置に影響された変数を用いて調整してはいけない

3.モデルのチェックなしに外挿してはいけない

4.調査対象とは異なる対象に関する変数で調整してはいけない

5.調整したからといってその結果が常に妥当であると考えては

いけない

cf. Wainer (1989), Rosenbaum (1984)

27

Page 28: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

クロスオーバー試験における層別

• 対照食品摂取後の値の高低(高群,低群)で2群に層別し,

{効果量」=「被験食品での結果」-「対照食品での結果」

を計算

• その結果,高群での効果量に有意な差を認めた

• 「2.処置に影響された変数を用いて調整してはいけない」に抵触

28

第1期 第2期無作為化

A グループ 被験食品 対照食品被験者

B グループ 対照食品 被験食品

Page 29: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

出生時体重と成人での血圧

• 出生時体重 (BW) が低いほど成人血圧 (BP) が高い(Barker

仮説): BP = const + b1BW において b1 < 0

• BP だけでなく,コレステロール値,心血管系イベントの発生率など

• 成人での BMI を説明変数に加える

BP = const + b1BW + b2BMI

• b1 の絶対値が大きくなる.

• r1 = R[BW, BP] = – 0.05

• r2 = R[BW, BMI] = 0.15

• 0 r = R[BMI, BP] < 1

「2.処置に影響された変数を

用いて調整してはいけない」

に抵触 cf. Tan, et al. (2005)

29

Page 30: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

性差別?– 1

• 男性 (M) と女性 (F) で,賃金格差があるか

• 共変量 x = job performance

30

M M

F

F

Page 31: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

性差別?– 2

• 同じ x (job performance)

で見ると(実線),M のほうが F よりも大きい

• 同じ成果であったとき,男性のほうが給料が高い

• 女性に不利な差別

• 同じ y (salary) で見ると(破線),M のほうが F よりも大きい

• 同じ給料をもらっている人で比較すると,男性のほうが成果が大きい

• 男性に不利な差別

31

M

F

cf. Conway and Roberts (1983)

Page 32: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

最後に:統計家はこう考える

• 因果関係の確立には実験研究が gold standard

• 実験研究が必ずしも可能とは限らない

• 観察研究による因果推論では,実験研究に近づける努力

• 後ろ向き研究しかできないことも多い

• 稀な事象の場合には,ほとんど唯一の方法論

• 現在そこにあるデータについては

• データの素性を明確に

• データ取得の 5W1H

• Who, What, When, Where, Why + How

• 統計では特に How が重要

• Whom と How Much を加えて 6W2H (Wikipedia より)

32

Page 33: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

統計検定 (2014)

• 2014年11月30日(日)実施

• 1級,2級,3級,4級

• 専門統計調査士,統計調査士

• 2級,3級,4級は年2回実施

• 学習マテリアルと問題集

33

Page 34: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

参考文献(和書)

• 甘利俊一・狩野 裕・佐藤俊哉・松山 裕・竹内 啓・石黒真木夫 (2002) 多変量解析の展開 隠れた構造と因果を推理する.岩波書店.

• Pearl, J.(著)黒木 学(訳) (2009) 統計的因果推論 モデル・推論・推測.共立出版.

• 星野崇宏 (2009) 調査観察データの統計科学 因果推論・選択バイアス・データ融合.岩波書店.

• 宮川雅已 (2004) 統計的因果推論ー回帰分析の新しい枠組みー.朝倉書店.

34

Page 35: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

参考文献(洋書 – 1)

• Berzuini, C., Dawid, P. and Bernardinelli, L. (eds.) (2012)

Causality. Statistical Perspectives and Applications. John

Wiley & Sons.

• Faries, D. E., Leon, A. C., Haro, J. M. and Obenchain, R.

L. (Eds.) (2010) Analysis of Observational Health Care

Data Using SAS. SAS Institute.

• Morgan, S. L. (ed) (2013) Handbook of Causal Analysis

for Social Research. Springer.

• Morgan, S. L. and Winship, C. (2007) Counterfactuals

and Causal Inference. Methods and Principles for Social

Research. Cambridge University Press.

35

Page 36: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

参考文献(洋書 – 2)

• Rosenbaum, P. R. (2002) Observational Studies, Second

Edition. Springer.

• Rosenbaum, P. R. (2010) Design of Observational Studies.

Springer.

• Rothman, K. J., Greenland, S. and Lash, T. (2008) Modern

Epidemiology, Third Edition. Wolters Kluwer.

• Rubin, D. B. (2006) Matched Sampling for Causal Effects.

Cambridge University Press.

• Shadish, W. R., Cook, T. D. and Campbell, D. T. (2002)

Experimental and Quasi-Experimental designs for

Generalized Causal Inference. Houghton Mifflin Company.

and others

36

Page 37: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

参考文献(学術論文)

• Cochran, W. G. (1968) The effectiveness of adjustment by subclassification in removing bias in observational studies. Biometrics, 24, 295-313.

• Conway, D. A. and Roberts, H. V. (1983) Reverse regression, fairness, and employment discrimination. Journal of Business & Economic Statistics, 1, 75-85.

• Rosenbaum, P. R. (1984) The consequences of adjustment for a concomitant variable that has been affected by the treatment. Journal of the Royal Statistical Society, Series A, 147, 656-666.

• Tu, Y.-K., West, R., Ellison, G. T. H. and Gilthorpe, M. S. (2005) Why evidence for the fetal origins of adult disease might be a statistical artifact: the "reversal paradox" for the relation between birth weight and blood pressure in later life (with discussion). American Journal of Epidemiology, 161, 27-32.

• Wainer, H. (1986) Minority contributions to the SAT score turnaround: an example of Simpson's paradox. Journal of Educational Statistics, 11, 239-244.

• Wainer, H. (1989) Eelworms, bullet holes, and Geraldine Ferraro: some problems with statistical adjustment and some solutions (with discussion). Journal of Educational Statistics, 14, 121-199.

and many others

37

Page 38: 統計分析における 「第三の変数」の功罪 - SAS...統計分析における 「第三の変数」の功罪 成蹊大学理工学部情報科学科 教授 岩崎 学 iwasaki@st.seikei.ac.jp

今後の活動予定

講演予定

• 統計関連学会連合大会(2014.9.13-16) • 於:東京大学(本郷キャンパス)

• 9月13日午後チュートリアル講演「マッチングと統計解析」(3時間)

• 日本計算機統計学会シンポジウム (2014.11.14-15) • 於:沖縄科学技術大学院大学

• Kyoto International Conference on Modern Statistics (2014.11.17-18) • 於:京都国際会館

出版予定

• 岩崎 学 (2014 or 15) 統計的因果推論の基礎(仮題).朝倉書店

38