反応時間データの記述的報告と可視化

反応時間データの反応時間データの記述的報告と可視化記述的報告と可視化

…というよりはむしろ…というよりはむしろRを使った単変量のモデル化Rを使った単変量のモデル化

コンテンツコンテンツ• 外国語教育研究における反応時間データ• 五数要約・箱ひげ図• 五数要約・箱ひげ図• モーメントによる把握

ヒストグラムとカーネル密度推定モーメントによる把握

• ヒストグラムとカーネル密度推定• 変換• 変換• 各種分布へのフィッティング

正規分布，Ex-Gaussian分布，ワイブル分布，ガ各種分布へのフィッティング– 正規分布，Ex-Gaussian分布，ワイブル分布，ガ

ンマ分布，ワルド分布，混合分布ンマ分布，ワルド分布，混合分布• これからの報告と可視化

[email protected]@nagoya-u.jp

@HiRoshima.R #[email protected] #5

外国語教育研究におけるRT外国語教育研究におけるRT外国語教育研究のざっくりな歴史• 外国語教育研究のざっくりな歴史– 国内の外国語教育研究は1970年代頃（さまざまな政治的背景によって）学問化

– 国内の外国語教育研究は1970年代頃（さまざまな政治的背景によって）学問化

– 1980年代からはゆるーく自然科学，基礎科学志向になっていく

– 1980年代からはゆるーく自然科学，基礎科学志向になっていく

– 1990年代頃からは欧米の応用言語学，第二言語習得（認知科学志向，言語学由来）を輸入，どん

– 1990年代頃からは欧米の応用言語学，第二言語習得（認知科学志向，言語学由来）を輸入，どんどん学際化という体裁の「うん，まあ…」へ

– 2000年代頃→もうなにがなんだかわからへんね– 2000年代頃→もうなにがなんだかわからへんねん

– 最近，統計改革やEBMなどが台頭してきて，科– 最近，統計改革やEBMなどが台頭してきて，科学性やエビデンスの質に注目

外国語教育研究におけるRT外国語教育研究におけるRT• RT

– 1990年代ごろから，欧米（主要国際誌）が認– 1990年代ごろから，欧米（主要国際誌）が認知⼼理学の⼿法を導入しはじめる知⼼理学の⼿法を導入しはじめる

– 2000年代ごろから，⽇本でも⼤衆化– 現在は「測定のオンライン化」– 現在は「測定のオンライン化」

• 各種判断課題，読解課題，視線計測などが主要な方法のひとつへ方法のひとつへ

– ただし外国語教育研究における認知メカニズ– ただし外国語教育研究における認知メカニズムの取り扱いはナイーブ

外国語教育研究におけるRT外国語教育研究におけるRT• 問題点

– しっかりとした⼿法論上の基盤がない– しっかりとした⼿法論上の基盤がない• データの非正規性（non-normality）に無頓着な

場合がほとんど場合がほとんど• これまでは人平均値や項目平均値をまとめてパラ

メトリックな検定をおこなってきたメトリックな検定をおこなってきた• 最近は混合効果モデル，一般化線形モデル，一般

化線形混合効果モデルなどが普及し始めている化線形混合効果モデルなどが普及し始めている• 解析はマシになってきた→ただし，記述的報告や可視化は?可視化は?

• 反応時間データは再現性が低すぎる

外国語教育研究におけるRT外国語教育研究におけるRT

• 記述的報告や可視化の重要性–データを再現できるか–データを再現できるか

• 例えば，遜⾊ない乱数セットがそこから作• 例えば，遜⾊ない乱数セットがそこから作れるか

–現実をどれだけ視覚的に把握できるか–現実をどれだけ視覚的に把握できるか

強く歪んでいるのに35

0

強く歪んでいるのに平均と標準偏差の報告

だけでいいの？

Fre

quen

cy

250

だけでいいの？

Fre

quen

cy

150

050

0 20000 40000 60000 80000

RT (ms)

100

平均と標準偏差

Fre

quen

cy 6080

平均と標準偏差だけから再現できるもの

Fre

quen

cy

4060できるもの

350 0

20

250

350

RT (ms)

-10000 0 10000 20000

Fre

quen

cy

150

250

Fre

quen

cy

5015

0

0 20000 40000 60000 80000

0

RT (ms)

0 20000 40000 60000 80000

五数要約・箱ひげ図五数要約・箱ひげ図• 五数要約はマシなアプローチ

– summary( dat ) # 要約統計量– summary( dat ) # 要約統計量– quantile(dat,c(0,.25,.5,.75,1)) # 分位点

箱ひげ図– boxplot(dat) # 箱ひげ図

0 20000 40000 60000 80000

五数要約・箱ひげ図五数要約・箱ひげ図• 別に5じゃなくてよくね

– 経験累積分布関数（ECDF）– 経験累積分布関数（ECDF）• ecdf(dat) #ECDF の作成

プロット• plot(ecdf(dat)) # プロット

五数要約・箱ひげ図五数要約・箱ひげ図• ⾒るだけだったら…

– 分位点を繋いでいっちゃえばいいじゃん– 分位点を繋いでいっちゃえばいいじゃん• X<-seq(0,1,.01)

分位点の計算• q<-quantile(dat,x) # 分位点の計算• plot(q,x,type=“l”) # プロット

0.8

0.4

0.8

x

0.0

0 20000 40000 60000 80000

quantile(r, x)

五数要約・箱ひげ図五数要約・箱ひげ図

• 手元のデータの把握としてはいいかもだけど，ここからデータは再手元のデータの把握としてはいいかもだけど，ここからデータは再現できない現できない

モーメントによる把握モーメントによる把握E{(x-a)^k}• E{(x-a)^k}– a周りのk乗の期待値をモーメントとよぶ– a周りのk乗の期待値をモーメントとよぶ– 原点（0）周りのモーメントは平均– 平均周りの2乗のモーメントが分散– 平均周りの2乗のモーメントが分散– 標準化した原点周りの3乗のモーメントが歪度– 標準化した原点周りの4乗のモーメントが尖度– 標準化した原点周りの4乗のモーメントが尖度– psych パッケージ

• skew, kurtosi （0基準）パッケージ

• skew, kurtosi （0基準）– momentsパッケージ

• skewnwss, kurtosis （3基準）• 統計量

（基準）• jarque.test[1] #JB 統計量

モーメントによる把握モーメントによる把握

• 一応は乱数の生成もできるフライシュマン変換

一応は乱数の生成もできる–フライシュマン変換（Fleishman’s power

transformation）transformation）– 正規分布に従う乱数セットを，任意の尖度と

歪度をもつように変換できる正規分布に従う乱数セットを，任意の尖度と歪度をもつように変換できる

– PoisNonNor パッケージ– PoisNonNor パッケージ

http://kusanagi.hatenablog.jp/entry/2015/05/26/182026

モーメントによる把握モーメントによる把握

• 手元のデータの把握としてはいいかもだけどry手元のデータの把握としてはいいかもだけどry

カーネル密度推定カーネル密度推定

• もちろんどんなときもヒストグラムなのだもちろんどんなときもヒストグラムなのだ–hist ( dat )–hist ( dat )

• ただし階級数も問題だ• ただし階級数も問題だ• スタージェス？

Histogram of dat

• スタージェス？• 平方根選択？

Fre

quen

cy

400

600

• 平方根選択？F

requ

ency

200

400

dat

0 20000 40000 60000 80000

0


• カーネル密度推定を使うのもいい好み

カーネル密度推定を使うのもいい– library( ks ) # 好み–kf <- kde ( dat ) # 関数–kf <- kde ( dat ) # 関数–plot( kf )–plot( kf )

8e-0

5

Den

sity

func

tion

4e-0

58e

-05

Den

sity

func

tion

0e+0

0

Den

sity

func

tion

0 20000 40000 60000 80000

x


• 累積分布関数もで累積分布関数へ

累積分布関数も–pkde で累積分布関数へ

1.0

pkde

(fhat

= k

f, q

= se

q(m

in(d

at),

max

(dat

), 1)

)

0.6

0.8

1.0

pkde

(fhat

= k

f, q

= se

q(m

in(d

at),

max

(dat

), 1)

)

0.4

0.6

pkde

(fhat

= k

f, q

= se

q(m

in(d

at),

max

(dat

), 1)

)

0.0

0.2

pkde

(fhat

= k

f, q

= se

q(m

in(d

at),

max

(dat

), 1)

)

0 20000 40000 60000 80000

seq(min(dat), max(dat), 1)

pkde

(fhat

= k

f, q

= se

q(m

in(d

at),

max

(dat

), 1)

)


• 乱数も作れる乱数も作れる– rkf <-rkde (fhat =kf,1500)

– Hist ( rkf )– Hist ( rkf )

Kernel ObservationKernel25

0Observation

300

Fre

quen

cy

150

250

Fre

quen

cy

100

200

Fre

quen

cy

050

Fre

quen

cy

010

0

RT (ms)

0 20000 60000

RT (ms)

0 20000 60000


• でもこの関数自体を論⽂で共有したりはできないし，情報量ありすでもこの関数自体を論⽂で共有したりはできないし，情報量ありすぎぎ–それにバンド幅も問題だ–それにバンド幅も問題だ

100 1000 5000 10000

4e-0

6

100000

0.00

006

0.00

012

Den

sity

4e-0

58e

-05

Den

sity 4e

-05

6e-0

5

Den

sity

1.5e

-05

3.0e

-05

Den

sity

2e-0

64e

-06

Den

sity

0 40000 80000

0.00

000

0.00

006

Den

sity

0 40000 80000

0e+0

04e

-05

Den

sity

0e+00 6e+04

0e+0

02e

-05Den

sity

-20000 600000.

0e+0

01.

5e-0

5

Den

sity

-3e+05 1e+05

0e+0

02e

-06

Den

sity

0 40000 80000

N = 1536 Bandw idth = 100

0 40000 80000

N = 1536 Bandw idth = 1000

0e+00 6e+04

N = 1536 Bandw idth = 5000

-20000 60000

N = 1536 Bandw idth = 1e+04

-3e+05 1e+05

N = 1536 Bandw idth = 1e+05

変換変換• めんどいから変換しちゃえ？

Histogram of log(dat)

500ちゃえ？

– 対数変換で正規分布になる場合がおおい 40

050

0

になる場合がおおい– 私自身は実測値のス

ケールや分布の形状

Fre

quen

cy 300

ケールや分布の形状に意味がないなら積極的にやってもいい

Fre

quen

cy

100

200

極的にやってもいいんじゃない派

– ただそれでは⽴ち⾏ 010

0– ただそれでは⽴ち⾏

かない場合もあるlog(dat)

6 7 8 9 10 11 12

各種分布へのフィッティング各種分布へのフィッティング

世の中にはたくさん分布があるんだ• 世の中にはたくさん分布があるんだからなにかにはてはめてしまえからなにかにはてはめてしまえ–正規分布–正規分布–Ex-Gaussian–ガンマ

Ex-Gaussian–ガンマ–ワイブル–ワイブル–ワルド（今回パスですすみません）–ワルド（今回パスですすみません）–混合分布


• 正規分布総じてだめぽ

正規分布– 総じてだめぽ


• Ex-Gaussian分布正規分布と指数分布の合成

Ex-Gaussian分布– 正規分布と指数分布の合成– 反応時間データの常套手段– 反応時間データの常套手段– パラメータは3つ

μ，σ，τパラメータは3つ

• μ，σ，τ– retimes パッケージがある– retimes パッケージがある


• timefit (dat ) # 最尤推定• AIC( timefit ( dat )) # 赤池• AIC( timefit ( dat )) # 赤池• x<seq (min( dat ),max( dat ),1)• x<seq (min( dat ),max( dat ),1)

• d<-dexgauss (x,mu,sigma,tau )# 確率密度• plot( x,d,type =“l”)#plot• plot( x,d,type =“l”)#plot

• rexgauss ( n,mu,sigma,tau )• rexgauss ( n,mu,sigma,tau )

0.00

012

0.00

012

0.00

006

p

0.00

006

0.00

000

0 20000 40000 60000 80000

0.00

000

RT (ms)RT (ms)


• いい感じたった3つの⺟数を報告するだけで

いい感じ–たった3つの⺟数を報告するだけでいいいい

–数学的にも簡単だ–数学的にも簡単だ–フィットや誤差も報告できるし–フィットや誤差も報告できるし


ガンマ• ガンマ–壊れるまでの時間など–壊れるまでの時間など–2つの⺟数–2つの⺟数–形状κ，スケールθ–形状κ，スケールθ

• ワイブル• ワイブル–2つの⺟数–形状κ，スケールθ2つの⺟数

–形状κ，スケールθ


• Library(MASS)

• est <- fitdistr ( dat,densfun =“ Weibull ”) • est <- fitdistr ( dat,densfun =“ Weibull ”) #最尤推定

赤池• AIC( est ) # 赤池• d<- dweibull ( x,shape,scale )# 確率密度• d<- dweibull ( x,shape,scale )# 確率密度• plot( x,d,type =“l”)#plot

• rweibull (n,shape,scale )

0.00

015

0.00

010

0.00

015

0.00

010

p

0.00

005

p

0.00

000

0.00

005

0 20000 40000 60000 80000

0.00

000

RT (ms)

これからの報告と可視化これからの報告と可視化• 要約統計量や⾼次モーメントまで報告するのも重要るのも重要

• いくつかの分布にデータを（いくつかの• いくつかの分布にデータを（いくつかの⽅法で）フィットさせ，その⺟数と誤差，フィットの良さを報告しようフィットの良さを報告しよう

• フィットのよいモデルの⺟数とその誤差• フィットのよいモデルの⺟数とその誤差を報告しよう

これからの報告と可視化これからの報告と可視化AIC BIC 対数尤度AIC BIC 対数尤度

正規分布 31218 31292 -15638Ex-Gaussian 30134 30150 -15064Ex-Gaussian 30134 30150 -15064ワイブル分布 30460 30471 -15228

点推定値 95%上限 95%下限点推定値 95%上限 95%下限

μ 3026 2796 3269

σ 1160 969 1350σ 1160 969 1350

τ 5576 5172 6004

6000

080

000

6000

080

000

4000

060

000

Obs

erva

tion

4000

060

000

Obs

erva

tion

2000

040

000

Obs

erva

tion

2000

040

000

Obs

erva

tion

0 20000 40000 60000 80000

0

0 20000 40000 60000 80000

0

QQプロット描いたり

Theoretical

0 20000 40000 60000 80000

Theoretical

Change in Mu Change in Sigma Change in Tau

0.8

1.0

0.8

1.0

0.8

1.0

0.4

0.6

p

0.4

0.6

p

0.4

0.6

p

0.2

0.4

0.2

0.4

0.2

0.4

0 10000 20000 30000 40000

RT (ms)

0 10000 20000 30000 40000

RT (ms)

0 10000 20000 30000 40000

RT (ms)

Education

反応時間データの記述的報告と可視化