R Study Tokyo03

Preview:

Citation preview

1

分散分析

id:yokkuns 里 洋平

第 3 回 R 勉強会@東京 (Tokyo.R#03)

2

自己紹介● id:yokkuns

● 名前 : 里 洋平● 職業 :Web エンジニア● 出身 : 種子島● 趣味 : プログラミングとかカラオケとか● 最近、何故か数学に興味があり、アクチュア

リーとか金融工学とか勉強してたりする

3

アジェンダ

● 分散分析とは● 一元配置分散分析

– 対応なし– 対応あり

● 二元配置分散分析– 対応なし– 2 要因とも対応あり– 1 要因のみ対応あり

4

分散分析とは

5

3 つ以上の平均値差を比較

● 2 つの平均値差の検定では t 検定を使うが、 3 つ以上の標本には使えない。

– 検定の多重性の問題● 3 つ以上の平均値差の検定は分散分析

– 3 つ以上の平均値が等しいかどうかを検定– 等しい時は、有意差なしと結論– 等しくない場合、どの平均対の間に差があるかを検定

6

分散分析の意味● 観測データの変動を要因による変動 ( 要因効果 ) と誤差

による変動に分解し、要因に有意な効果があるかを検定する手法 データ = 全体平均 + 要因効果 + 誤差

A B C D

15 13 10 10

9 8 6 7

18 8 11 3

14 12 7 5

18 7 12 7

A B C D

10 10 10 10

10 10 10 10

10 10 10 10

10 10 10 10

10 10 10 10

A B C D

4.8 -0.4 -0.8 -3.6

4.8 -0.4 -0.8 -3.6

4.8 -0.4 -0.8 -3.6

4.8 -0.4 -0.8 -3.6

4.8 -0.4 -0.8 -3.6

A B C D

0.2 3.4 0.8 3.6

-5.8 -1.6 -3.2 0.6

3.2 -1.6 1.8 -3.4

-0.8 2.4 -2.2 -1.4

3.2 -2.6 2.8 0.6

= + +

要因平均 - 全平均 全データ - 要因平均

7

平方和の分解

● 平方和とは– 観測データのばらつきの大きさを表す指標で、

個々のデータと平均値との差の 2 乗和● 平方和の分解

– 全体の平方和を要因平方和と誤差平方和に分解すること

全体平方和 = 要因平方和 + 誤差平方和

8

分散分析表自由度

df平方和

Sum Sq平均平方和Mean Sq

分散比F value

p値Pr(>F)

変動要因 3 184.000 61.333 7.1111 0.002988

誤差 16 138.000 8.625

● 自由度 : 要因水準数 – 1 、全体ではデータ総数 – 1

● 平均平方和 : 平方和 ÷ 自由度● 分散比 : 要因の平均平方和 ÷ 誤差の平均平方和

9

多重比較( Tukey の方法)

● 分散分析で分かるのは、 n 群の母平均が等しくないことであり、具体的にどの群に差があるのかまでは分からない。

● これを検定するには、多重比較を用いる必要がある

10

一元配置分散分析(対応なし)

11

概要

● 帰無仮説と対立仮説– 帰無仮説 : n 群の母平均は等しい– 対立仮説 : n 群の母平均は等しくない

● 検定統計量

F = 群間平方和 / 群間の自由度 郡内平方和 / 郡内の自由度

12

R で一元配置分散分析 ( 対応なし )

● 一元配置分散分析(対応なし)– oneway.test(y~x)– summary(aov(y~x))– anova(lm(y~x))

● Tukey の多重比較– TukeyHSD(aov(y~x))

13

● p.201 練習問題 (1)

ある大学の法学部、文学部、理大学部、工学部の 4 学部から 8 名ずつの学生を無作為抽出してテストを行った。学部間でテストの母平均に差があるかを有意水準5% で分散分析を実行してください。

法学部 75 61 68 58 66 55 65 63文学部 62 60 66 63 55 53 59 63理学部 65 60 78 52 59 66 73 64工学部 52 59 44 67 47 53 58 49

14

5% 水準で有意となったので、多重比較を行う

法学部と工学部、理学部と工学部の間で有意差があることが分かった

15

一元配置分散分析(対応あり)

16

概要

● 帰無仮説と対立仮説– 帰無仮説 : 条件の母平均は等しい– 対立仮説 : 条件の母平均は等しくない

● 検定統計量

F = 条件平方和 / 条件の自由度 残差平方和 / 残差の自由度

17

対応の有無による違い

● 対応ありとは– 同じ被験者が複数の条件を経験するようなデータ– 個人の違いにより説明出来る部分を分解する必要がある

● 平方和の分解– 対応無し

全体平方和 = 群間平方和 + 郡内平方和– 対応あり

全体平方和 = 条件平方和 + 個人差平方和 + 残差平方和

18

R で一元配置分散分析 ( 対応あり )

● 一元配置分散分析(対応あり)– summary(aov(y~x+t))

● Tukey の多重比較– TukeyHSD(aov(y~x))

19

● p.201 練習問題 (2)

7 名の学生を無作為に抽出し、全員が「講義中心型」、「問題練習中心型」、「コンピュータ実習中心型」の 3 種類の授業を受けて、それぞれ授業後に行う定着度テストの得点で効果を比較した。授業形態で有意な差があるかを有意水準 5% で分散分析を実行してください。学生 A B C D E F G講義 51 66 70 75 73 62 55問題 47 54 55 39 60 62 56実習 55 37 47 60 62 53 50

20

5% 水準で有意となったので多重比較

講義中心型とコンピュータ実習中心型の間に有意差があることが分かった

21

二元配置分散分析

22

二元配置分散分析

● 二元配置分散分析とは– 2 つの条件の組み合わせによって母平均がこと

なるかどうかを検定する手法● 主効果と交互作用

– 主効果各要因による単独の効果

– 交互作用効果1 つの要因の結果に与える他方の要因の効果

23

二元配置分散分析

● 帰無仮説と対立仮説– 2 つの主効果と 1 つの交互作用効果を検定– 帰無仮説と対立仮説のペアも 3 つになる

● 検定統計量– 3 ペアそれぞれで F を利用

24

交互作用交互作用なし 交互作用あり

単純な要因の効果の足し算で説明出来る場合は平行になる

単純な要因の効果の足し算で説明出来ない場合は平行にならない

25

R で二元配置分散分析

● 二元配置分散分析(対応なし)– summary(aov(y~a*b))

● 二元配置分散分析( 2 要因とも対応あり)– summary(aov(y~a+Error(t+t:a+t:b+t:a:b)))

● 二元配置分散分析( 1 要因のみ対応あり)– summary(aov(y~a*b+Error(t:a+t:a:b)))

● 交互作用効果を確認するための平均値プロット– interaction.plot(a, b, y)

26

例(対応なし)

● p.183 例題3 種類の銘柄のミネラルウォーターのおいしさについて、 2 種類の温度のもとで、それぞれの条件に 5 人ずつ割当て、計 30人に評定してもらった。このデータから銘柄の違いや温度の違いによって、おいしさの評定の母平均は異なると言えるか。

A①冷蔵庫 A②常温

B①イカアン B②ボスビッグB③ビビッテル B①イカアン B②ボスビッグ B③ビビッテル

6 10 11 5 7 12

4 8 12 4 6 8

5 10 12 2 5 5

3 8 10 2 4 6

2 9 10 2 3 4

27

■結果温度の主効果 : 5% 水準で有意な効果がある銘柄の主効果 : 5% 水準で有意な効果がある温度と銘柄の交互作用効果 : 5% 水準で有意な効果はない

温度を fa 、銘柄を fb とした。

28

例( 2 要因とも対応あり)

● p.192 例題5 人の評定者が温度と銘柄を組み合わせた 6 つの条件全てでおいしさの評定を行った。

このデータから銘柄の違いや温度の違いによっておいしさの評定の母平均は異なると言えるか

A①冷蔵庫 A②常温

B① B② B③ B① B② B③

A 6 10 11 5 7 12

B 4 8 12 4 6 8

C 5 10 12 2 5 5

D 3 8 10 2 4 6

E 2 9 10 2 3 4

29

■結果温度の主効果 : 5% 水準で有意な効果がある銘柄の主効果 : 5% 水準で有意な効果がある温度と銘柄の交互作用効果 : 5% 水準で有意な効果がある

温度を fa 、銘柄を fb 、人を id ( 1〜 5 )とした。

30

例( 1 要因のみ対応あり)

● p.195 例題各評定者に 6 つの条件の水を全て飲んでもらうのではなく、冷蔵か常温のどちらかの温度条件に割り当てた上で、その温度のものだけ 3 種類飲んで評定してもらった。銘柄の違いや温度の違いによっておいしさの評定の母平均は異なると言えるか。

A① A②

B① B② B③ B① B② B③

A 6 10 11 F 5 7 12

B 4 8 12 G 4 6 8

C 5 10 12 H 2 5 5

D 3 8 10 I 2 4 6

E 2 9 10 J 2 3 4

31

■結果温度の主効果 : 5% 水準で有意な効果がある銘柄の主効果 : 5% 水準で有意な効果がある温度と銘柄の交互作用効果 : 5% 水準で有意な効果がある

温度を fa 、銘柄を fb 、人を id ( 1〜 10 )とした。

32

まとめ

● 3 つ以上の平均値差の検定には、分散分析● 分散分析とは、データの変動を各要因とそれら

の交互作用による変動、誤差変動に分解して、各要因、交互作用に有意な効果があるかを検定する手法

● 有意差がある場合は多重比較を行い、どの要因間で差があるかを調べる

33

ご清聴ありがとうございました。