34
1 分散分析 id:yokkuns 洋平 3 R 勉強会@東京 (Tokyo.R#03)

R Study Tokyo03

Embed Size (px)

Citation preview

Page 1: R Study Tokyo03

1

分散分析

id:yokkuns 里 洋平

第 3 回 R 勉強会@東京 (Tokyo.R#03)

Page 2: R Study Tokyo03

2

自己紹介● id:yokkuns

● 名前 : 里 洋平● 職業 :Web エンジニア● 出身 : 種子島● 趣味 : プログラミングとかカラオケとか● 最近、何故か数学に興味があり、アクチュア

リーとか金融工学とか勉強してたりする

Page 3: R Study Tokyo03

3

アジェンダ

● 分散分析とは● 一元配置分散分析

– 対応なし– 対応あり

● 二元配置分散分析– 対応なし– 2 要因とも対応あり– 1 要因のみ対応あり

Page 4: R Study Tokyo03

4

分散分析とは

Page 5: R Study Tokyo03

5

3 つ以上の平均値差を比較

● 2 つの平均値差の検定では t 検定を使うが、 3 つ以上の標本には使えない。

– 検定の多重性の問題● 3 つ以上の平均値差の検定は分散分析

– 3 つ以上の平均値が等しいかどうかを検定– 等しい時は、有意差なしと結論– 等しくない場合、どの平均対の間に差があるかを検定

Page 6: R Study Tokyo03

6

分散分析の意味● 観測データの変動を要因による変動 ( 要因効果 ) と誤差

による変動に分解し、要因に有意な効果があるかを検定する手法 データ = 全体平均 + 要因効果 + 誤差

A B C D

15 13 10 10

9 8 6 7

18 8 11 3

14 12 7 5

18 7 12 7

A B C D

10 10 10 10

10 10 10 10

10 10 10 10

10 10 10 10

10 10 10 10

A B C D

4.8 -0.4 -0.8 -3.6

4.8 -0.4 -0.8 -3.6

4.8 -0.4 -0.8 -3.6

4.8 -0.4 -0.8 -3.6

4.8 -0.4 -0.8 -3.6

A B C D

0.2 3.4 0.8 3.6

-5.8 -1.6 -3.2 0.6

3.2 -1.6 1.8 -3.4

-0.8 2.4 -2.2 -1.4

3.2 -2.6 2.8 0.6

= + +

要因平均 - 全平均 全データ - 要因平均

Page 7: R Study Tokyo03

7

平方和の分解

● 平方和とは– 観測データのばらつきの大きさを表す指標で、

個々のデータと平均値との差の 2 乗和● 平方和の分解

– 全体の平方和を要因平方和と誤差平方和に分解すること

全体平方和 = 要因平方和 + 誤差平方和

Page 8: R Study Tokyo03

8

分散分析表自由度

df平方和

Sum Sq平均平方和Mean Sq

分散比F value

p値Pr(>F)

変動要因 3 184.000 61.333 7.1111 0.002988

誤差 16 138.000 8.625

● 自由度 : 要因水準数 – 1 、全体ではデータ総数 – 1

● 平均平方和 : 平方和 ÷ 自由度● 分散比 : 要因の平均平方和 ÷ 誤差の平均平方和

Page 9: R Study Tokyo03

9

多重比較( Tukey の方法)

● 分散分析で分かるのは、 n 群の母平均が等しくないことであり、具体的にどの群に差があるのかまでは分からない。

● これを検定するには、多重比較を用いる必要がある

Page 10: R Study Tokyo03

10

一元配置分散分析(対応なし)

Page 11: R Study Tokyo03

11

概要

● 帰無仮説と対立仮説– 帰無仮説 : n 群の母平均は等しい– 対立仮説 : n 群の母平均は等しくない

● 検定統計量

F = 群間平方和 / 群間の自由度 郡内平方和 / 郡内の自由度

Page 12: R Study Tokyo03

12

R で一元配置分散分析 ( 対応なし )

● 一元配置分散分析(対応なし)– oneway.test(y~x)– summary(aov(y~x))– anova(lm(y~x))

● Tukey の多重比較– TukeyHSD(aov(y~x))

Page 13: R Study Tokyo03

13

● p.201 練習問題 (1)

ある大学の法学部、文学部、理大学部、工学部の 4 学部から 8 名ずつの学生を無作為抽出してテストを行った。学部間でテストの母平均に差があるかを有意水準5% で分散分析を実行してください。

法学部 75 61 68 58 66 55 65 63文学部 62 60 66 63 55 53 59 63理学部 65 60 78 52 59 66 73 64工学部 52 59 44 67 47 53 58 49

Page 14: R Study Tokyo03

14

5% 水準で有意となったので、多重比較を行う

法学部と工学部、理学部と工学部の間で有意差があることが分かった

Page 15: R Study Tokyo03

15

一元配置分散分析(対応あり)

Page 16: R Study Tokyo03

16

概要

● 帰無仮説と対立仮説– 帰無仮説 : 条件の母平均は等しい– 対立仮説 : 条件の母平均は等しくない

● 検定統計量

F = 条件平方和 / 条件の自由度 残差平方和 / 残差の自由度

Page 17: R Study Tokyo03

17

対応の有無による違い

● 対応ありとは– 同じ被験者が複数の条件を経験するようなデータ– 個人の違いにより説明出来る部分を分解する必要がある

● 平方和の分解– 対応無し

全体平方和 = 群間平方和 + 郡内平方和– 対応あり

全体平方和 = 条件平方和 + 個人差平方和 + 残差平方和

Page 18: R Study Tokyo03

18

R で一元配置分散分析 ( 対応あり )

● 一元配置分散分析(対応あり)– summary(aov(y~x+t))

● Tukey の多重比較– TukeyHSD(aov(y~x))

Page 19: R Study Tokyo03

19

● p.201 練習問題 (2)

7 名の学生を無作為に抽出し、全員が「講義中心型」、「問題練習中心型」、「コンピュータ実習中心型」の 3 種類の授業を受けて、それぞれ授業後に行う定着度テストの得点で効果を比較した。授業形態で有意な差があるかを有意水準 5% で分散分析を実行してください。学生 A B C D E F G講義 51 66 70 75 73 62 55問題 47 54 55 39 60 62 56実習 55 37 47 60 62 53 50

Page 20: R Study Tokyo03

20

5% 水準で有意となったので多重比較

講義中心型とコンピュータ実習中心型の間に有意差があることが分かった

Page 21: R Study Tokyo03

21

二元配置分散分析

Page 22: R Study Tokyo03

22

二元配置分散分析

● 二元配置分散分析とは– 2 つの条件の組み合わせによって母平均がこと

なるかどうかを検定する手法● 主効果と交互作用

– 主効果各要因による単独の効果

– 交互作用効果1 つの要因の結果に与える他方の要因の効果

Page 23: R Study Tokyo03

23

二元配置分散分析

● 帰無仮説と対立仮説– 2 つの主効果と 1 つの交互作用効果を検定– 帰無仮説と対立仮説のペアも 3 つになる

● 検定統計量– 3 ペアそれぞれで F を利用

Page 24: R Study Tokyo03

24

交互作用交互作用なし 交互作用あり

単純な要因の効果の足し算で説明出来る場合は平行になる

単純な要因の効果の足し算で説明出来ない場合は平行にならない

Page 25: R Study Tokyo03

25

R で二元配置分散分析

● 二元配置分散分析(対応なし)– summary(aov(y~a*b))

● 二元配置分散分析( 2 要因とも対応あり)– summary(aov(y~a+Error(t+t:a+t:b+t:a:b)))

● 二元配置分散分析( 1 要因のみ対応あり)– summary(aov(y~a*b+Error(t:a+t:a:b)))

● 交互作用効果を確認するための平均値プロット– interaction.plot(a, b, y)

Page 26: R Study Tokyo03

26

例(対応なし)

● p.183 例題3 種類の銘柄のミネラルウォーターのおいしさについて、 2 種類の温度のもとで、それぞれの条件に 5 人ずつ割当て、計 30人に評定してもらった。このデータから銘柄の違いや温度の違いによって、おいしさの評定の母平均は異なると言えるか。

A①冷蔵庫 A②常温

B①イカアン B②ボスビッグB③ビビッテル B①イカアン B②ボスビッグ B③ビビッテル

6 10 11 5 7 12

4 8 12 4 6 8

5 10 12 2 5 5

3 8 10 2 4 6

2 9 10 2 3 4

Page 27: R Study Tokyo03

27

■結果温度の主効果 : 5% 水準で有意な効果がある銘柄の主効果 : 5% 水準で有意な効果がある温度と銘柄の交互作用効果 : 5% 水準で有意な効果はない

温度を fa 、銘柄を fb とした。

Page 28: R Study Tokyo03

28

例( 2 要因とも対応あり)

● p.192 例題5 人の評定者が温度と銘柄を組み合わせた 6 つの条件全てでおいしさの評定を行った。

このデータから銘柄の違いや温度の違いによっておいしさの評定の母平均は異なると言えるか

A①冷蔵庫 A②常温

B① B② B③ B① B② B③

A 6 10 11 5 7 12

B 4 8 12 4 6 8

C 5 10 12 2 5 5

D 3 8 10 2 4 6

E 2 9 10 2 3 4

Page 29: R Study Tokyo03

29

■結果温度の主効果 : 5% 水準で有意な効果がある銘柄の主効果 : 5% 水準で有意な効果がある温度と銘柄の交互作用効果 : 5% 水準で有意な効果がある

温度を fa 、銘柄を fb 、人を id ( 1〜 5 )とした。

Page 30: R Study Tokyo03

30

例( 1 要因のみ対応あり)

● p.195 例題各評定者に 6 つの条件の水を全て飲んでもらうのではなく、冷蔵か常温のどちらかの温度条件に割り当てた上で、その温度のものだけ 3 種類飲んで評定してもらった。銘柄の違いや温度の違いによっておいしさの評定の母平均は異なると言えるか。

A① A②

B① B② B③ B① B② B③

A 6 10 11 F 5 7 12

B 4 8 12 G 4 6 8

C 5 10 12 H 2 5 5

D 3 8 10 I 2 4 6

E 2 9 10 J 2 3 4

Page 31: R Study Tokyo03

31

■結果温度の主効果 : 5% 水準で有意な効果がある銘柄の主効果 : 5% 水準で有意な効果がある温度と銘柄の交互作用効果 : 5% 水準で有意な効果がある

温度を fa 、銘柄を fb 、人を id ( 1〜 10 )とした。

Page 32: R Study Tokyo03

32

まとめ

● 3 つ以上の平均値差の検定には、分散分析● 分散分析とは、データの変動を各要因とそれら

の交互作用による変動、誤差変動に分解して、各要因、交互作用に有意な効果があるかを検定する手法

● 有意差がある場合は多重比較を行い、どの要因間で差があるかを調べる

Page 33: R Study Tokyo03

33

ご清聴ありがとうございました。