Upload
kusanagi-kunihiro
View
545
Download
0
Embed Size (px)
Citation preview
反応時間データの反応時間データの記述的報告と可視化記述的報告と可視化
…というよりはむしろ…というよりはむしろRを使った単変量のモデル化Rを使った単変量のモデル化
コンテンツコンテンツ• 外国語教育研究における反応時間データ• 五数要約・箱ひげ図• 五数要約・箱ひげ図• モーメントによる把握
ヒストグラムとカーネル密度推定モーメントによる把握
• ヒストグラムとカーネル密度推定• 変換• 変換• 各種分布へのフィッティング
正規分布,Ex-Gaussian分布,ワイブル分布,ガ各種分布へのフィッティング– 正規分布,Ex-Gaussian分布,ワイブル分布,ガ
ンマ分布,ワルド分布,混合分布ンマ分布,ワルド分布,混合分布• これからの報告と可視化
外国語教育研究におけるRT外国語教育研究におけるRT外国語教育研究のざっくりな歴史• 外国語教育研究のざっくりな歴史– 国内の外国語教育研究は1970年代頃(さまざまな政治的背景によって)学問化
– 国内の外国語教育研究は1970年代頃(さまざまな政治的背景によって)学問化
– 1980年代からはゆるーく自然科学,基礎科学志向になっていく
– 1980年代からはゆるーく自然科学,基礎科学志向になっていく
– 1990年代頃からは欧米の応用言語学,第二言語習得(認知科学志向,言語学由来)を輸入,どん
– 1990年代頃からは欧米の応用言語学,第二言語習得(認知科学志向,言語学由来)を輸入,どんどん学際化という体裁の「うん,まあ…」へ
– 2000年代頃→もうなにがなんだかわからへんね– 2000年代頃→もうなにがなんだかわからへんねん
– 最近,統計改革やEBMなどが台頭してきて,科– 最近,統計改革やEBMなどが台頭してきて,科学性やエビデンスの質に注目
外国語教育研究におけるRT外国語教育研究におけるRT• RT
– 1990年代ごろから,欧米(主要国際誌)が認– 1990年代ごろから,欧米(主要国際誌)が認知⼼理学の⼿法を導入しはじめる知⼼理学の⼿法を導入しはじめる
– 2000年代ごろから,⽇本でも⼤衆化– 現在は「測定のオンライン化」– 現在は「測定のオンライン化」
• 各種判断課題,読解課題,視線計測などが主要な方法のひとつへ方法のひとつへ
– ただし外国語教育研究における認知メカニズ– ただし外国語教育研究における認知メカニズムの取り扱いはナイーブ
外国語教育研究におけるRT外国語教育研究におけるRT• 問題点
– しっかりとした⼿法論上の基盤がない– しっかりとした⼿法論上の基盤がない• データの非正規性(non-normality)に無頓着な
場合がほとんど場合がほとんど• これまでは人平均値や項目平均値をまとめてパラ
メトリックな検定をおこなってきたメトリックな検定をおこなってきた• 最近は混合効果モデル,一般化線形モデル,一般
化線形混合効果モデルなどが普及し始めている化線形混合効果モデルなどが普及し始めている• 解析はマシになってきた→ただし,記述的報告や可視化は?可視化は?
• 反応時間データは再現性が低すぎる
外国語教育研究におけるRT外国語教育研究におけるRT
• 記述的報告や可視化の重要性–データを再現できるか–データを再現できるか
• 例えば,遜⾊ない乱数セットがそこから作• 例えば,遜⾊ない乱数セットがそこから作れるか
–現実をどれだけ視覚的に把握できるか–現実をどれだけ視覚的に把握できるか
強く歪んでいるのに35
0
強く歪んでいるのに平均と標準偏差の報告
だけでいいの?
Fre
quen
cy
250
だけでいいの?
Fre
quen
cy
150
050
0 20000 40000 60000 80000
RT (ms)
100
平均と標準偏差
Fre
quen
cy 6080
平均と標準偏差だけから再現できるもの
Fre
quen
cy
4060できるもの
350 0
20
250
350
RT (ms)
-10000 0 10000 20000
Fre
quen
cy
150
250
Fre
quen
cy
5015
0
0 20000 40000 60000 80000
0
RT (ms)
0 20000 40000 60000 80000
五数要約・箱ひげ図五数要約・箱ひげ図• 五数要約はマシなアプローチ
– summary( dat ) # 要約統計量– summary( dat ) # 要約統計量– quantile(dat,c(0,.25,.5,.75,1)) # 分位点
箱ひげ図– boxplot(dat) # 箱ひげ図
0 20000 40000 60000 80000
五数要約・箱ひげ図五数要約・箱ひげ図• 別に5じゃなくてよくね
– 経験累積分布関数(ECDF)– 経験累積分布関数(ECDF)• ecdf(dat) #ECDF の作成
プロット• plot(ecdf(dat)) # プロット
五数要約・箱ひげ図五数要約・箱ひげ図• ⾒るだけだったら…
– 分位点を繋いでいっちゃえばいいじゃん– 分位点を繋いでいっちゃえばいいじゃん• X<-seq(0,1,.01)
分位点の計算• q<-quantile(dat,x) # 分位点の計算• plot(q,x,type=“l”) # プロット
0.8
0.4
0.8
x
0.0
0 20000 40000 60000 80000
quantile(r, x)
五数要約・箱ひげ図五数要約・箱ひげ図
• 手元のデータの把握としてはいいかもだけど,ここからデータは再手元のデータの把握としてはいいかもだけど,ここからデータは再現できない現できない
モーメントによる把握モーメントによる把握E{(x-a)^k}• E{(x-a)^k}– a周りのk乗の期待値をモーメントとよぶ– a周りのk乗の期待値をモーメントとよぶ– 原点(0)周りのモーメントは平均– 平均周りの2乗のモーメントが分散– 平均周りの2乗のモーメントが分散– 標準化した原点周りの3乗のモーメントが歪度– 標準化した原点周りの4乗のモーメントが尖度– 標準化した原点周りの4乗のモーメントが尖度– psych パッケージ
• skew, kurtosi (0基準)パッケージ
• skew, kurtosi (0基準)– momentsパッケージ
• skewnwss, kurtosis (3基準)• 統計量
( 基準)• jarque.test[1] #JB 統計量
モーメントによる把握モーメントによる把握
• 一応は乱数の生成もできるフライシュマン変換
一応は乱数の生成もできる–フライシュマン変換(Fleishman’s power
transformation)transformation)– 正規分布に従う乱数セットを,任意の尖度と
歪度をもつように変換できる正規分布に従う乱数セットを,任意の尖度と歪度をもつように変換できる
– PoisNonNor パッケージ– PoisNonNor パッケージ
http://kusanagi.hatenablog.jp/entry/2015/05/26/182026
モーメントによる把握モーメントによる把握
• 手元のデータの把握としてはいいかもだけどry手元のデータの把握としてはいいかもだけどry
カーネル密度推定カーネル密度推定
• もちろんどんなときもヒストグラムなのだもちろんどんなときもヒストグラムなのだ–hist ( dat )–hist ( dat )
• ただし階級数も問題だ• ただし階級数も問題だ• スタージェス?
Histogram of dat
• スタージェス?• 平方根選択?
Fre
quen
cy
400
600
• 平方根選択?F
requ
ency
200
400
dat
0 20000 40000 60000 80000
0
カーネル密度推定カーネル密度推定
• カーネル密度推定を使うのもいい好み
カーネル密度推定を使うのもいい– library( ks ) # 好み–kf <- kde ( dat ) # 関数–kf <- kde ( dat ) # 関数–plot( kf )–plot( kf )
8e-0
5
Den
sity
func
tion
4e-0
58e
-05
Den
sity
func
tion
0e+0
0
Den
sity
func
tion
0 20000 40000 60000 80000
x
カーネル密度推定カーネル密度推定
• 累積分布関数もで累積分布関数へ
累積分布関数も–pkde で累積分布関数へ
1.0
pkde
(fhat
= k
f, q
= se
q(m
in(d
at),
max
(dat
), 1)
)
0.6
0.8
1.0
pkde
(fhat
= k
f, q
= se
q(m
in(d
at),
max
(dat
), 1)
)
0.4
0.6
pkde
(fhat
= k
f, q
= se
q(m
in(d
at),
max
(dat
), 1)
)
0.0
0.2
pkde
(fhat
= k
f, q
= se
q(m
in(d
at),
max
(dat
), 1)
)
0 20000 40000 60000 80000
seq(min(dat), max(dat), 1)
pkde
(fhat
= k
f, q
= se
q(m
in(d
at),
max
(dat
), 1)
)
カーネル密度推定カーネル密度推定
• 乱数も作れる乱数も作れる– rkf <-rkde (fhat =kf,1500)
– Hist ( rkf )– Hist ( rkf )
Kernel ObservationKernel25
0Observation
300
Fre
quen
cy
150
250
Fre
quen
cy
100
200
Fre
quen
cy
050
Fre
quen
cy
010
0
RT (ms)
0 20000 60000
RT (ms)
0 20000 60000
カーネル密度推定カーネル密度推定
• でもこの関数自体を論⽂で共有したりはできないし,情報量ありすでもこの関数自体を論⽂で共有したりはできないし,情報量ありすぎぎ–それにバンド幅も問題だ–それにバンド幅も問題だ
100 1000 5000 10000
4e-0
6
100000
0.00
006
0.00
012
Den
sity
4e-0
58e
-05
Den
sity 4e
-05
6e-0
5
Den
sity
1.5e
-05
3.0e
-05
Den
sity
2e-0
64e
-06
Den
sity
0 40000 80000
0.00
000
0.00
006
Den
sity
0 40000 80000
0e+0
04e
-05
Den
sity
0e+00 6e+04
0e+0
02e
-05Den
sity
-20000 600000.
0e+0
01.
5e-0
5
Den
sity
-3e+05 1e+05
0e+0
02e
-06
Den
sity
0 40000 80000
N = 1536 Bandw idth = 100
0 40000 80000
N = 1536 Bandw idth = 1000
0e+00 6e+04
N = 1536 Bandw idth = 5000
-20000 60000
N = 1536 Bandw idth = 1e+04
-3e+05 1e+05
N = 1536 Bandw idth = 1e+05
変換変換• めんどいから変換しちゃえ?
Histogram of log(dat)
500ちゃえ?
– 対数変換で正規分布になる場合がおおい 40
050
0
になる場合がおおい– 私自身は実測値のス
ケールや分布の形状
Fre
quen
cy 300
ケールや分布の形状に意味がないなら積極的にやってもいい
Fre
quen
cy
100
200
極的にやってもいいんじゃない派
– ただそれでは⽴ち⾏ 010
0– ただそれでは⽴ち⾏
かない場合もあるlog(dat)
6 7 8 9 10 11 12
各種分布へのフィッティング各種分布へのフィッティング
世の中にはたくさん分布があるんだ• 世の中にはたくさん分布があるんだからなにかにはてはめてしまえからなにかにはてはめてしまえ–正規分布–正規分布–Ex-Gaussian–ガンマ
Ex-Gaussian–ガンマ–ワイブル–ワイブル–ワルド(今回パスですすみません)–ワルド(今回パスですすみません)–混合分布
各種分布へのフィッティング各種分布へのフィッティング
• 正規分布総じてだめぽ
正規分布– 総じてだめぽ
各種分布へのフィッティング各種分布へのフィッティング
• Ex-Gaussian分布正規分布と指数分布の合成
Ex-Gaussian分布– 正規分布と指数分布の合成– 反応時間データの常套手段– 反応時間データの常套手段– パラメータは3つ
μ,σ,τパラメータは3つ
• μ,σ,τ– retimes パッケージがある– retimes パッケージがある
各種分布へのフィッティング各種分布へのフィッティング
• timefit (dat ) # 最尤推定• AIC( timefit ( dat )) # 赤池• AIC( timefit ( dat )) # 赤池• x<seq (min( dat ),max( dat ),1)• x<seq (min( dat ),max( dat ),1)
• d<-dexgauss (x,mu,sigma,tau )# 確率密度• plot( x,d,type =“l”)#plot• plot( x,d,type =“l”)#plot
• rexgauss ( n,mu,sigma,tau )• rexgauss ( n,mu,sigma,tau )
0.00
012
0.00
012
0.00
006
p
0.00
006
0.00
000
0 20000 40000 60000 80000
0.00
000
RT (ms)RT (ms)
各種分布へのフィッティング各種分布へのフィッティング
• いい感じたった3つの⺟数を報告するだけで
いい感じ–たった3つの⺟数を報告するだけでいいいい
–数学的にも簡単だ–数学的にも簡単だ–フィットや誤差も報告できるし–フィットや誤差も報告できるし
各種分布へのフィッティング各種分布へのフィッティング
ガンマ• ガンマ–壊れるまでの時間など–壊れるまでの時間など–2つの⺟数–2つの⺟数–形状κ,スケールθ–形状κ,スケールθ
• ワイブル• ワイブル–2つの⺟数–形状κ,スケールθ2つの⺟数
–形状κ,スケールθ
各種分布へのフィッティング各種分布へのフィッティング
• Library(MASS)
• est <- fitdistr ( dat,densfun =“ Weibull ”) • est <- fitdistr ( dat,densfun =“ Weibull ”) #最尤推定
赤池• AIC( est ) # 赤池• d<- dweibull ( x,shape,scale )# 確率密度• d<- dweibull ( x,shape,scale )# 確率密度• plot( x,d,type =“l”)#plot
• rweibull (n,shape,scale )
0.00
015
0.00
010
0.00
015
0.00
010
p
0.00
005
p
0.00
000
0.00
005
0 20000 40000 60000 80000
0.00
000
RT (ms)
これからの報告と可視化これからの報告と可視化• 要約統計量や⾼次モーメントまで報告するのも重要るのも重要
• いくつかの分布にデータを(いくつかの• いくつかの分布にデータを(いくつかの⽅法で)フィットさせ,その⺟数と誤差,フィットの良さを報告しようフィットの良さを報告しよう
• フィットのよいモデルの⺟数とその誤差• フィットのよいモデルの⺟数とその誤差を報告しよう
これからの報告と可視化これからの報告と可視化AIC BIC 対数尤度AIC BIC 対数尤度
正規分布 31218 31292 -15638Ex-Gaussian 30134 30150 -15064Ex-Gaussian 30134 30150 -15064ワイブル分布 30460 30471 -15228
点推定値 95%上限 95%下限点推定値 95%上限 95%下限
μ 3026 2796 3269
σ 1160 969 1350σ 1160 969 1350
τ 5576 5172 6004
6000
080
000
6000
080
000
4000
060
000
Obs
erva
tion
4000
060
000
Obs
erva
tion
2000
040
000
Obs
erva
tion
2000
040
000
Obs
erva
tion
0 20000 40000 60000 80000
0
0 20000 40000 60000 80000
0
QQプロット描いたり
Theoretical
0 20000 40000 60000 80000
Theoretical
Change in Mu Change in Sigma Change in Tau
0.8
1.0
0.8
1.0
0.8
1.0
0.4
0.6
p
0.4
0.6
p
0.4
0.6
p
0.2
0.4
0.2
0.4
0.2
0.4
0 10000 20000 30000 40000
RT (ms)
0 10000 20000 30000 40000
RT (ms)
0 10000 20000 30000 40000
RT (ms)