草薙 LET掲載論文の効果量・検定力・標本サイズ

Preview:

DESCRIPTION

草薙邦広・水本篤・竹内理 (2014) 「日本の外国語教育研究における効果量・検定力・標本サイズ:Language Education & Technology掲載論文を対象にした事例分析」 第54回外国語教育メディア学会全国研究大会. 福岡大学.

Citation preview

日本の外国語教育研究における効果量・検定⼒・標本サイズ効果量・検定⼒・標本サイズ

Language Education & TechnologyLanguage Education & TechnologyLanguage Education & TechnologyLanguage Education & Technology掲載論文を対象にした事例分析

草薙邦広 水本篤 ⽵内理草薙邦広名古屋大学大学院

日本学術振興会特別研究員

水本篤関⻄大学

⽵内理関⻄大学

国内の外国語教育研究における統計的仮説検定は…………

検定⼒が著しく低いものがある!概して標本サイズの決定手順の

不透明さに由来する!不透明さに由来する!標本サイズの設定方法について

理解を!

アウトライン• 背景• 調査方法• 調査方法• 結果

– t 検定– χ2検定– 分散分析– 分散分析

• 総括• 今後の展望

背景

• 日本の外国語教育研究における統計手法日本の外国語教育研究における統計手法– Mizumoto, Urano and Maeda (2014)

• 全国英語教育学会機関誌ARELEを対象にした分析

• 掲載論⽂の7777割ほどが量的研究• 掲載論⽂の7777割ほどが量的研究• しばしば統計手法に問題がある事例が⾒られる

背景• 応用言語学における統計的改革運動

–当該分野における統計手法や研究法の–当該分野における統計手法や研究法の概観(e.g., Plonsky and Gass, 2011; Plonsky, 2013, 2014, Mizumoto, Urano & Maeda, 2014)

–頑健な統計手法の導入(e.g., 水本・竹内, 2008,

2011; Plonsky, Egbert & LaFlair, 2014; Larson-Hall & Herrington, 2010)2010)

–研究者の統計に関わる知識(e.g., Lowen et al., 2014)

背景• 効果量・検定⼒・信頼区間

– 効果量(概観としては大久保・岡田, 2012; 水本・竹内, 2008)– 効果量(概観としては大久保・岡田, 2012; 水本・竹内, 2008)• 標本サイズに依存しない実験的操作の効果や変数間の関係の

強さの指標• d , r , η2など• 小・中・大などの基準がある

– 検定⼒(e.g., 水本・竹内, 2011)• ⼆種の過誤を犯さない確率,検定の検定らしさ• 1-β• 1-β• 通常.80がよいとされる

– 信頼区間• ⺟数がどのような値にあるか⽰す方法

背景• 統計的仮説検定

–効果の大きさに独⽴して,標本サイズ–効果の大きさに独⽴して,標本サイズが大きければ大きいほど有意になりやすい

–統計的に有意でも効果が小さい場合もある

–効果が大きくても統計的に有意でない–効果が大きくても統計的に有意でないこともある

–決して帰無仮説を主張することはできない(cf. 草薙, 2014a)

• 統計的仮説検定の理想像は,任意の効果を⼗分な検定⼒(.80.80.80.80など)を

背景

効果を⼗分な検定⼒(.80.80.80.80など)を以って帰無仮説を棄却すること

• 検定⼒が低いと第二種の過誤を否定できない→標本サイズが不適切?実際研究者が調整できるのは標本サ• 実際研究者が調整できるのは標本サイズのみ

効果量・検定⼒・サンプルサイズ

0.8

1.0

0.2

0.4

0.6

Pow

er

d = 0.2d = 0.4d = 0.6d = 0.8

0 50 100 150 200 250 300

0.0

Sample Size n

d = 0.8d = 1.0

対応ありのt 検定α = .05,両側

背景

• 各分野における効果量・検定⼒・標本サイズの体系的概観各分野における効果量・検定⼒・標本サイズの体系的概観–国内の⼼理学(杉澤, 1998; 鈴川・豊田, 2012)

–検定⼒について望ましい水準を満たしていない研究がしばしば⾒られる標本サイズが不適切 帰無仮説を採択ていない研究がしばしば⾒られる

–標本サイズが不適切 & 帰無仮説を採択する研究

国内の外国語教育研究国内の外国語教育研究における

統計的仮説検定は…………

どうだろうか?どうだろうか?

調査方法

調査方法

• 目的目的–これまでLET の機関誌で報告されてきた統計的検定の効果量と検定⼒,および標本サイズを分析し,我が国の外国語教育研究のおける統計的仮説検定の使用実態の一端我が国の外国語教育研究のおける統計的仮説検定の使用実態の一端を調査する

調査方法

• 研究対象外国語教育メディア学会( )機関誌

研究対象–外国語教育メディア学会(LET)機関誌

Language Education & TechnologyLanguage Education & TechnologyLanguage Education & TechnologyLanguage Education & Technology– 2001—2012年度掲載論⽂134本

調査方法

• 対象とする統計的仮説検定とコーディング

• 対象とする統計的仮説検定とコーディング–平均差に関わるt 検定–χ2検定–χ 検定–分散分析

調査方法• tttt 検定

– 対応のある・なし– 対応のある・なし– 自由度– 標本サイズ– M, SD– 効果量(標準化平均差)Cohen’s Cohen’s Cohen’s Cohen’s dddd

• 整合性が取れない(6%程度)→除外• 対応ありの場合,相関係数を考慮しない式• 対応ありの場合,相関係数を考慮しない式• 記述統計が報告している→計算• 対応がありt 値のみ報告→除外• 対応なしt 値のみ→t 値から換算

調査方法• χχχχ2222検定

–事後の検定は含めない–事後の検定は含めない–適合度検定のみ–χ2

–効果量φ,Cramer’s V–効果量φ,Cramer’s V–⾃由度–n

調査方法

• 分散分析–整合性のとれないものを除外分散分析–整合性のとれないものを除外(14%)

–第一自由度・第⼆自由度–各標本サイズ–効果量の算出各標本サイズ

–効果量の算出• F 値+⾃由度→ ηp

2 (計算可能)• 検定⼒の計算は⾏わなかった

調査方法

•その他のカテゴリー刊⾏年度その他のカテゴリー–刊⾏年度

•前半(2001-2006)•後半(2007-2012)

–研究テーマ–研究テーマ• 複数カテゴリーを設けたものの比較に十分なカテゴリーができなかった

tttt 検定

tttt 検定対象検定数 = 183効果量平均

対応あり 0.97対応なし 0.59

Effect Size (Paired)

Effect Size d

Fre

quen

cy

0 1 2 3 4 5 6

020

4060

80

Effect Size (Two Group)

Effect Size d

Fre

quen

cy

0 1 2 3 4 5 6

010

2030

40

Power (Paired)

Pow er at α = .05

Fre

quen

cy

0.0 0.2 0.4 0.6 0.8 1.0

020

4060

80

Power (Two Group)

Pow er at α = .05

Fre

quen

cy

0.0 0.2 0.4 0.6 0.8 1.0

02

46

810

Pow er at α = .05 Pow er at α = .05

Sample Size (Paired)

n

Fre

quen

cy

0 50 100 150 200

010

2030

40

Sample Size (Two Group)

n

Fre

quen

cy0 50 100 150 200

05

1015

20

tttt 検定対象検定数 = 183効果量平均

対応あり 0.97対応なし 0.59

Effect Size (Paired)

Effect Size d

Fre

quen

cy

0 1 2 3 4 5 6

020

4060

80

Effect Size (Two Group)

Effect Size d

Fre

quen

cy

0 1 2 3 4 5 6

010

2030

40

検定⼒(0.80以下)対応あり 31%対応なし 78%

Power (Paired)

Pow er at α = .05

Fre

quen

cy

0.0 0.2 0.4 0.6 0.8 1.0

020

4060

80

Power (Two Group)

Pow er at α = .05

Fre

quen

cy

0.0 0.2 0.4 0.6 0.8 1.0

02

46

810

Pow er at α = .05 Pow er at α = .05

Sample Size (Paired)

n

Fre

quen

cy

0 50 100 150 200

010

2030

40

Sample Size (Two Group)

n

Fre

quen

cy0 50 100 150 200

05

1015

20

tttt 検定対象検定数 = 183効果量平均

対応あり 0.97対応なし 0.59

Effect Size (Paired)

Effect Size d

Fre

quen

cy

0 1 2 3 4 5 6

020

4060

80

Effect Size (Two Group)

Effect Size d

Fre

quen

cy

0 1 2 3 4 5 6

010

2030

40

検定⼒(0.80以下)対応あり 31%対応なし 78%

Power (Paired)

Pow er at α = .05

Fre

quen

cy

0.0 0.2 0.4 0.6 0.8 1.0

020

4060

80

Power (Two Group)

Pow er at α = .05

Fre

quen

cy

0.0 0.2 0.4 0.6 0.8 1.0

02

46

810

Pow er at α = .05 Pow er at α = .05

Sample Size (Paired)

n

Fre

quen

cy

0 50 100 150 200

010

2030

40

Sample Size (Two Group)

n

Fre

quen

cy0 50 100 150 200

05

1015

20

tttt 検定対象検定数 = 183効果量平均

対応あり 0.97対応なし 0.59

Effect Size (Paired)

Effect Size d

Fre

quen

cy

0 1 2 3 4 5 6

020

4060

80

Effect Size (Two Group)

Effect Size d

Fre

quen

cy

0 1 2 3 4 5 6

010

2030

40

検定⼒(0.80以下)対応あり 31%対応なし 78%

Power (Paired)

Pow er at α = .05

Fre

quen

cy

0.0 0.2 0.4 0.6 0.8 1.0

020

4060

80

Power (Two Group)

Pow er at α = .05

Fre

quen

cy

0.0 0.2 0.4 0.6 0.8 1.0

02

46

810

Pow er at α = .05 Pow er at α = .05

Sample Size (Paired)

n

Fre

quen

cy

0 50 100 150 200

010

2030

40

Sample Size (Two Group)

n

Fre

quen

cy0 50 100 150 200

05

1015

20

tttt 検定対象検定数 = 183効果量平均

対応あり 0.97対応なし 0.59

Effect Size (Paired)

Effect Size d

Fre

quen

cy

0 1 2 3 4 5 6

020

4060

80

Effect Size (Two Group)

Effect Size d

Fre

quen

cy

0 1 2 3 4 5 6

010

2030

40

検定⼒(0.80以下)対応あり 31%対応なし 78%

Power (Paired)

Pow er at α = .05

Fre

quen

cy

0.0 0.2 0.4 0.6 0.8 1.0

020

4060

80

Power (Two Group)

Pow er at α = .05

Fre

quen

cy

0.0 0.2 0.4 0.6 0.8 1.0

02

46

810

標本サイズ平均対応あり 48.67対応なし 57.70

Pow er at α = .05 Pow er at α = .05

Sample Size (Paired)

n

Fre

quen

cy

0 50 100 150 200

010

2030

40

Sample Size (Two Group)

n

Fre

quen

cy0 50 100 150 200

05

1015

20

tttt 検定効果量と標本サイズ

無相関!

12

34

56

Paired

Effe

ct S

ize

(d)

12

34

56

Two Group

Effe

ct S

ize

(d)

0 50 100 150 200

0

Sample Size (n)

0 50 100 150 200

0

Sample Size (n)

tttt 検定効果量と標本サイズ

無相関!

12

34

56

Paired

Effe

ct S

ize

(d)

12

34

56

Two Group

Effe

ct S

ize

(d)

0 50 100 150 200

0

Sample Size (n)

0 50 100 150 200

0

Sample Size (n)

tttt 検定効果量と標本サイズ

無相関!

12

34

56

Paired

Effe

ct S

ize

(d)

12

34

56

Two Group

Effe

ct S

ize

(d)

実際の標本サイズと検定⼒0.800.800.800.80を満たす標本サイズ

無相関!

0 50 100 150 200

0

Sample Size (n)

0 50 100 150 200

0

Sample Size (n)

0 200 400 600 800

020

060

0

Paired

Req

uire

d S

ampl

e S

ize

n

0 20 40 60 80 100

020

4060

8010

0

Paired

Req

uire

d S

ampl

e S

ize

n

無相関! Sample Size n Sample Size n

0 200 400 600 800

020

060

0

Two Group

Sample Size n

Req

uire

d S

ampl

e S

ize

n

0 20 40 60 80 1000

2040

6080

100

Two Group

Sample Size n

Req

uire

d S

ampl

e S

ize

n

tttt 検定効果量と標本サイズ

無相関!

12

34

56

Paired

Effe

ct S

ize

(d)

12

34

56

Two Group

Effe

ct S

ize

(d)

実際の標本サイズと検定⼒0.800.800.800.80を満たす標本サイズ

無相関!

0 50 100 150 200

0

Sample Size (n)

0 50 100 150 200

0

Sample Size (n)

0 200 400 600 800

020

060

0

Paired

Req

uire

d S

ampl

e S

ize

n

0 20 40 60 80 100

020

4060

8010

0

Paired

Req

uire

d S

ampl

e S

ize

n

無相関! Sample Size n Sample Size n

0 200 400 600 800

020

060

0

Two Group

Sample Size n

Req

uire

d S

ampl

e S

ize

n

0 20 40 60 80 1000

2040

6080

100

Two Group

Sample Size n

Req

uire

d S

ampl

e S

ize

n

20

40

60

80

100

120

Nu

mb

er

Paired

Two Group

0

20

2001-2006 2007-2012

20.0

40.0

60.0

80.0

Sa

mp

e S

ize

n

Paired Two Group

20

40

60

80

100

120

Nu

mb

er

Paired

Two Group

0.0

2001-2006 2007-2012

0

20

2001-2006 2007-2012

20.0

40.0

60.0

80.0

Sa

mp

e S

ize

n

Paired Two Group

20

40

60

80

100

120

Nu

mb

er

Paired

Two Group

1.2

1.6

Effect

Siz

e d

Paired

Two Group

0.0

2001-2006 2007-2012

0

20

2001-2006 2007-2012

0.0

0.4

0.8

2001-2006 2007-2012

Effect

Siz

e d

20.0

40.0

60.0

80.0

Sa

mp

e S

ize

n

Paired Two Group

20

40

60

80

100

120

Nu

mb

er

Paired

Two Group

1.2

1.6

Effect

Siz

e d

Paired

Two Group

0.0

2001-2006 2007-2012

0.8

1.0

Paired Two Group

0

20

2001-2006 2007-2012

0.0

0.4

0.8

2001-2006 2007-2012

Effect

Siz

e d

0.0

0.2

0.4

0.6

2001-2006 2007-2012

Po

we

r

tttt 検定まとめ• 効果量

–対応のある場合に高い–対応のある場合に高い– 効果量中〜⼤が平均的

• 検定⼒– 対応のない場合に大半の研究が望ましいレベルに届かない

–他分野より低いといえる–他分野より低いといえる• 標本サイズ

– 検定⼒や効果量と無関係に設定されていることが上記の原因

χχχχ2222検定

87の検定が対象効果量:小〜中程度が多い検定⼒:0.80に満たない研究が大半(しかし…)サンプルサイズ:ばらつきが多い

Effect Size

Fre

quen

cy

510

15

Power

Fre

quen

cy

510

15

Sample Size

Fre

quen

cy

2030

4050

6070

Ef fect Size

0.0 0.2 0.4 0.6 0.8 1.0

05

Pow er

0.0 0.2 0.4 0.6 0.8 1.0

05

Sample Size n

0 2000 4000 6000

010

20

分散分析

分散分析対象検定数=306

基準がないものの…Effect Size

150

Fre

quen

cy

5010

015

0

Effect Size

0.0 0.2 0.4 0.6 0.8 1.0

0

総括

総括

Language Education & Technology Language Education & Technology Language Education & Technology Language Education & Technology 掲載論⽂掲載論⽂における

統計的仮説検定は…………

①検定⼒不⾜が⾒られる

②標本サイズの設定が不適切②標本サイズの設定が不適切③時系列変化は小さい

今後の展望

今後の展望

• どうしたらよいか?統計的仮説検定に過度に依存

どうしたらよいか?–統計的仮説検定に過度に依存しない研究の報告と設計(e.g., 大久保・岡田, 2012)

•効果量の報告(e.g., 水本・竹内, 2008)

•信頼区間の報告•信頼区間の報告•データの可視化(e.g., 草薙, 2014b; Larson-

Hall & Herrington, 2010)

今後の展望

• 標本サイズの決定方法• 標本サイズの決定方法•検定⼒分析の活用

–明日への分析(e.g., 豊田, 2009)

»任意の効果量»任意の危険率»任意の危険率»目標とする検定⼒→これを満たす標本サイズの逆算

効果量・検定⼒・サンプルサイズ

0.8

1.0

0.2

0.4

0.6

Pow

er

d = 0.2d = 0.4d = 0.6d = 0.8

0 50 100 150 200 250 300

0.0

Sample Size n

d = 0.8d = 1.0

対応ありのt 検定α = .05,両側

今後の展望

• もう一つの方法もう一つの方法•目標とする信頼区間の幅から逆算

–目標とする信頼区間の幅–標準偏差–信頼区間–信頼区間→これを満たす標本サイズを求める

8000

①予備実験を⾏い標準偏差の予測を⾏う

目標とする信頼区間の幅に対応する標本サイズ(⺟平均)

2000

4000

6000

8000

Sam

ple

Siz

e n

準偏差の予測を⾏う

②標準偏差と目標とする信頼区間の幅を満たす標本サイズを逆算する

③本実験の標本サイ0.0 0.5 1.0 1.5 2.0 2.5 3.0

0

Precision

③本実験の標本サイズとして決定する

*原理的には効果量の信頼区間なども計算できる

今後の展望• ツール

–「標本サイズ決定シートββββ」–「標本サイズ決定シートββββ」– エクセルでできる– 数字を入れるだけで計算– 公開中

https://sites.google.com/site/kusanagikuni/home/tipshttps://sites.google.com/site/kusanagikuni/home/tipshttps://sites.google.com/site/kusanagikuni/home/tipshttps://sites.google.com/site/kusanagikuni/home/tips

今後の展望

• 可視化可視化–ますます重要!

• 草薙邦広 (2014) 「外国語教育研究における量的データの可視化—分析・発表・論⽂執筆のために—」『外国語教育メディア学会中部支部外国語教育基礎研究部会2013年度報告論集』 53-70.

0.8

Plot

SD

0.00

0.08

Density Plot

Den

sity

First

10 30

5015

0

0.2 0.4 0.6 0.8

0.5

Mean

15 20 25 30 35 40 45

0.00

Score

Den

sity

-20

2Boxplot

Test A

SC

ore

Beeswarm

Test A

SC

ore

710

14

First

50

1030

Second

50 150 20 60 100

2060

100

Third

参考文献①• 草薙邦広(2014a)「英語の⽂法処理研究における統計的仮説検定:帰無

仮説を主張する処遇について」『秋田英語英⽂学』55, 1–11.• 草薙邦広 (2014b) 「外国語教育研究における量的データの可視化—分

析・発表・論⽂執筆のために 」『外国語教育メディア学会中部支部外国• 草薙邦広 (2014b) 「外国語教育研究における量的データの可視化—分

析・発表・論⽂執筆のために—」『外国語教育メディア学会中部支部外国語教育基礎研究部会2013年度報告論集』53–70.

• Larson-Hall, J., & Herrington, R. (2010). Examining the difference that robust statistics can make to studies in language acquisition. Applied Linguistics, 31, 368–390.

• Mizumoto, A., Urano, K., & Maeda, H. (2014). A systematic review of published articles in ARELE 1-24: Focusing on their themes, methods, and outcomes. ARELE, 25, 33–48.

• 水本篤・竹内理 (2008)「研究論⽂における効果量の報告のために—基礎的概念と注意点—」『 関⻄英語教育学会紀要 英語教育研究』31, 57–66.礎的概念と注意点—」『 関⻄英語教育学会紀要 英語教育研究』31, 57–66.

• 水本篤・竹内理 (2011)「効果量と検定⼒分析入門—統計的検定を正しく使うために—」『外国語教育メディア学会(LET)関⻄支部メソドロジー研究部会2010年度報告論集』47–73.

• 大久保街亜・岡田謙介(2012)『 伝えるための⼼理統計—効果量・信頼区間・検定⼒—』勁草書房

参考文献②• Plonsky, L. (2013). Study quality in SLA: An assessment of designs, analyses, and

reporting practices in quantitative L2 research. Studies in Second Language Acquisition, 35, 655–687.Acquisition, 35, 655–687.

• Plonsky, L. (2014). Study quality in quantitative L2 research (1990-2010): A methodological synthesis and call for reform. Modern Language Journal, 98, 450–470.

• Plonsky, L., & Gass, S. (2011). Quantitative research methods, study quality, and outcomes: The case of interaction research. Language Learning, 61, 325–366.

• Plonsky, L., Egbert, J., & Laflair, G. T. (2014). Bootstrapping in applied linguistics: Assessing its potential using shared data. Applied Linguistics, Advanced Online Publication. http://applij.oxfordjournals.org/content/early/2014/02/14/applin.amu001.short

• 杉澤武俊(1999)「教育⼼理学研究における統計的検定の検定⼒」『教育⼼理学研• 杉澤武俊(1999)「教育⼼理学研究における統計的検定の検定⼒」『教育⼼理学研究』47, 150–159.

• 鈴川由美・豊田秀樹(2012)「“⼼理学研究”における効果量・検定⼒・必要標本数の展望的事例分析」『⼼理学研究』83, 51–63.

• 豊田秀樹(2009)『検定⼒分析入門—R で学ぶ最新データ解析—』東京図書

日本の外国語教育研究における

効果量・検定⼒・標本サイズLanguage Education & TechnologyLanguage Education & TechnologyLanguage Education & TechnologyLanguage Education & Technology

掲載論文を対象にした事例分析

お問い合わせは…………

国内の外国語教育研究における統計的仮説検定は…………

検定⼒が著しく低いものがある!概して標本サイズの決定手順の

不透明さに由来する!標本サイズ 設定方法

お問い合わせは…………

草薙邦広名古屋大学大学院/日本学術振興会特別研究員

kusanagi@nagoya-u.jp

不透明さに由来する!標本サイズの設定方法

について理解を!Effect Size (Paired)

Effect Size d

Fre

quen

cy

0 1 2 3 4 5 6

020

4060

80

Effect Size (Two Group)

Effect Size d

Fre

quen

cy

0 1 2 3 4 5 6

010

2030

40

https://sites.google.com/site/kusanagikuni/home/tips

Power (Paired)

Pow er at α = .05F

requ

ency

0.0 0.2 0.4 0.6 0.8 1.0

020

4060

80

Power (Two Group)

Pow er at α = .05

Fre

quen

cy

0.0 0.2 0.4 0.6 0.8 1.0

02

46

810

Sample Size (Paired)

n

Fre

quen

cy

0 50 100 150 200

010

2030

40Sample Size (Two Group)

n

Fre

quen

cy

0 50 100 150 200

05

1015

20

Recommended