Upload
kusanagi-kunihiro
View
239
Download
0
Embed Size (px)
Citation preview
増加語数の時系列推移情報を増加語数の時系列推移情報をもちいた時系列モデリングもちいた時系列モデリング
草薙邦広草薙邦広名古屋大学大学院日本学術振興会川口勇作
日本学術振興会川口勇作
名古屋大学大学院阿部大輔
名古屋大学大学院阿部大輔
名古屋大学大学院
概要概要• WMX Corpus Projectで蓄積されたデー
タの⼀部をもちいて,増加語数の時系列タの⼀部をもちいて,増加語数の時系列推移傾向に対する時系列データ分析の⽅法を紹介推移傾向に対する時系列データ分析の⽅法を紹介
ポアソン分布へのあてはめポアソン分布へのあてはめ• 推定された⺟数(λ)
– 離散確率の分布Λが高ければ高いほどよいというわけではなく,発達– 離散確率の分布
• 当てはまり(カイ二乗値)というわけではなく,発達に対して非線形の関係をもつ可能性が指摘されている(草薙ほか, 2014; 川口ほか, 2014)• 当てはまり(カイ二乗値) (草薙ほか, 2014; 川口ほか, 2014)
150
200
これまでのさまざまな研究(e.g., 草薙ほか, 2012; 川口ほか, 2014;
5010
015
0
Wor
ds
(e.g., 草薙ほか, 2012; 川口ほか, 2014; 石井ほか, 2014)では理論的予測
に反して実測値が適切にフィットしない場合がある
050フィットしない場合がある
ことがわかってきている
0 10 20 30 40 50 60
Time
1次関数へのあてはめ1次関数へのあてはめ• 推定された⺟数(切片,傾き)• 当てはまり(決定係数)• 当てはまり(決定係数)• 語数を標準化することも可能• 語数を標準化することも可能
150
200
これまでのさまざまな研究50
100
150
Wor
ds
これまでのさまざまな研究(e.g., 川口ほか, 2014; 石井ほか,
2014)では概して線形モデルのほうがフィットがよいと
050
のほうがフィットがよいと報告されている
0 10 20 30 40 50 60
Time
多項式平滑化曲線(LOESS)多項式平滑化曲線(LOESS)
• 可視化による把握• 適切にフィットするが,変数化すること• 適切にフィットするが,変数化すること
はできないはできない
200
100
150
200
all..
.2.LOESSは学習者へのライ
ティングプロセスのフィー50
100
all..
.2.
ティングプロセスのフィードバックに応用することが
よい
0 10 20 30 40 50 60
0
Time
自己相関係数自己相関係数• 4-5分毎に⾃⼰相関係数が高くなる例
– 書き手のリズムや局所的計画– 書き手のリズムや局所的計画1.
00.
6
AC
F
0.2
AC
F
-0.2
0 5 10 15
Lag
成分の分解成分の分解• トレンド + 周期性成 20
0
• トレンド + 周期性成分 + 誤差 50
100
150
data
分 + 誤差– ほかにも⾃⼰回帰モデ
ル,状態空間モデルな
0
0.0
0.5
seas
onal
ル,状態空間モデルなどより高度な時系列データ分析が可能
-1.5
-0.5
seas
onal
200データ分析が可能
5010
015
020
0
trend
050
24
rem
aind
erただし実測値のライティングプロセスが
-4-2
0
rem
aind
erただし実測値のライティングプロセスが明確な周期性をもつことは稀であると予
測される2 4 6 8 10 12
time
時系列モデリングの目的時系列モデリングの目的• 情報の適切なレベルでの縮約・次元削減• 情報の適切なレベルでの縮約・次元削減
– 時系列データは膨大であり,処理が非常に困– 時系列データは膨大であり,処理が非常に困難
– 適切なレベルで変数化ないし多変量による構– 適切なレベルで変数化ないし多変量による構成概念として扱うことでさまざまな解析が可能になる能になる
• エデュケーショナルデータマインニング• エデュケーショナルデータマインニングや教育評価の観点