12
増加語数の時系列推移情報を 増加語数の時系列推移情報を もちいた時系列モデリング もちいた時系列モデリング 名古屋大学大学院 日本学術振興会 名古屋大学大学院 部大輔 部大輔 名古屋大学大学院

増加語数の時系列推移情報をもちいた時系列モデリング

Embed Size (px)

Citation preview

増加語数の時系列推移情報を増加語数の時系列推移情報をもちいた時系列モデリングもちいた時系列モデリング

草薙邦広草薙邦広名古屋大学大学院日本学術振興会川口勇作

日本学術振興会川口勇作

名古屋大学大学院阿部大輔

名古屋大学大学院阿部大輔

名古屋大学大学院

概要概要• WMX Corpus Projectで蓄積されたデー

タの⼀部をもちいて,増加語数の時系列タの⼀部をもちいて,増加語数の時系列推移傾向に対する時系列データ分析の⽅法を紹介推移傾向に対する時系列データ分析の⽅法を紹介

複数データの同時可視化複数データの同時可視化40

030

020

010

00

Time

0 10 20 30 40 50 60

単位時間内の語数の増減単位時間内の語数の増減• ラグ処理(lag processing)

100

050

-50

0-1

50-1

00-1

50

Time

0 10 20 30 40 50 60

ポアソン分布へのあてはめポアソン分布へのあてはめ• 推定された⺟数(λ)

– 離散確率の分布Λが高ければ高いほどよいというわけではなく,発達– 離散確率の分布

• 当てはまり(カイ二乗値)というわけではなく,発達に対して非線形の関係をもつ可能性が指摘されている(草薙ほか, 2014; 川口ほか, 2014)• 当てはまり(カイ二乗値) (草薙ほか, 2014; 川口ほか, 2014)

150

200

これまでのさまざまな研究(e.g., 草薙ほか, 2012; 川口ほか, 2014;

5010

015

0

Wor

ds

(e.g., 草薙ほか, 2012; 川口ほか, 2014; 石井ほか, 2014)では理論的予測

に反して実測値が適切にフィットしない場合がある

050フィットしない場合がある

ことがわかってきている

0 10 20 30 40 50 60

Time

1次関数へのあてはめ1次関数へのあてはめ• 推定された⺟数(切片,傾き)• 当てはまり(決定係数)• 当てはまり(決定係数)• 語数を標準化することも可能• 語数を標準化することも可能

150

200

これまでのさまざまな研究50

100

150

Wor

ds

これまでのさまざまな研究(e.g., 川口ほか, 2014; 石井ほか,

2014)では概して線形モデルのほうがフィットがよいと

050

のほうがフィットがよいと報告されている

0 10 20 30 40 50 60

Time

多項式平滑化曲線(LOESS)多項式平滑化曲線(LOESS)

• 可視化による把握• 適切にフィットするが,変数化すること• 適切にフィットするが,変数化すること

はできないはできない

200

100

150

200

all..

.2.LOESSは学習者へのライ

ティングプロセスのフィー50

100

all..

.2.

ティングプロセスのフィードバックに応用することが

よい

0 10 20 30 40 50 60

0

Time

自己相関係数自己相関係数• 周期性が⾒られる場合もある

10

Wor

ds

50

Time

0 10 20 30 40 50 60

Time

自己相関係数自己相関係数• 4-5分毎に⾃⼰相関係数が高くなる例

– 書き手のリズムや局所的計画– 書き手のリズムや局所的計画1.

00.

6

AC

F

0.2

AC

F

-0.2

0 5 10 15

Lag

成分の分解成分の分解• トレンド + 周期性成 20

0

• トレンド + 周期性成分 + 誤差 50

100

150

data

分 + 誤差– ほかにも⾃⼰回帰モデ

ル,状態空間モデルな

0

0.0

0.5

seas

onal

ル,状態空間モデルなどより高度な時系列データ分析が可能

-1.5

-0.5

seas

onal

200データ分析が可能

5010

015

020

0

trend

050

24

rem

aind

erただし実測値のライティングプロセスが

-4-2

0

rem

aind

erただし実測値のライティングプロセスが明確な周期性をもつことは稀であると予

測される2 4 6 8 10 12

time

時系列モデリングの目的時系列モデリングの目的• 情報の適切なレベルでの縮約・次元削減• 情報の適切なレベルでの縮約・次元削減

– 時系列データは膨大であり,処理が非常に困– 時系列データは膨大であり,処理が非常に困難

– 適切なレベルで変数化ないし多変量による構– 適切なレベルで変数化ないし多変量による構成概念として扱うことでさまざまな解析が可能になる能になる

• エデュケーショナルデータマインニング• エデュケーショナルデータマインニングや教育評価の観点

これからお送りする3つの事例報告これからお送りする3つの事例報告

プロダクトとのプロダクトとの関係性

⽅略との関係性

剽窃などといった異常なライティング異常なライティングプロセスについて