40
1 時系列トピックに対する バーストモデルの適用手法 専門家向け研究紹介スライド 筑波大学 システム情報工学系 知能機能工学域 自然言語処理研究室 (宇津呂研究室)

時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

Embed Size (px)

DESCRIPTION

時系列のニュース報道記事に対して、時間軸方向に話題を集約することにより、 社会における出来事の推移を俯瞰します。 そして、主要な話題に関するバースト(見逃してはいけない急激な勃発)を 検出します。 出典: 筑波大学・システム情報系・知能機能工学域 自然言語処理研究室(宇津呂研究室) http://nlp.iit.tsukuba.ac.jp ⇒ 研究紹介 ⇒ 4. ツイッター・ブログ・ニュースの話題を集約・俯瞰する検索エンジン ⇒ 時間軸方向に話題を集約・俯瞰し、バースト(見逃してはいけない急激な勃発)を検出する

Citation preview

Page 1: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

11

時系列トピックに対するバーストモデルの適用手法

専門家向け研究紹介スライド

筑波大学 システム情報工学系 知能機能工学域自然言語処理研究室 (宇津呂研究室)

Page 2: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

2

概要

本研究は,

DTM ( Dynamic Topic Model ) [Blei06] を用いて推定したトピックに対して,

Kleinbergのバースト解析 [Kleinberg02] の手法を適用することで,

トピック単位のバーストが検出可能であることを

示したものです

Page 3: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

3

概要

バースト解析[Kleinberg02]

一日の記事集合中のキーワードの平均出現確率

2状態のストリームを出力

キーワードのバースト状態/非バースト状態

上の図が,

Kleinbergのバースト解析手法の基本的な流れになります

ニュース記事ストリーム

Page 4: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

4

概要

バースト解析[Kleinberg02]

2状態のストリームを出力

キーワードのバースト状態/非バースト状態

この手法ではまず,

ニュース記事ストリームを入力とし,

各日におけるニュース記事集合中の

各キーワードの平均出現確率を算出します

ニュース記事ストリーム

一日の記事集合中のキーワードの平均出現確率

Page 5: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

5

概要

バースト解析[Kleinberg02]

2状態のストリームを出力

キーワードのバースト状態/非バースト状態

そして,

その平均出現確率をもとに,

各キーワードの,

バースト状態・非バースト状態の2状態系列を求めます

これが,一般的なKleinbergのバースト解析手法です

ニュース記事ストリーム

一日の記事集合中のキーワードの平均出現確率

Page 6: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

6

概要

バースト解析[Kleinberg02]

2状態のストリームを出力

キーワードのバースト状態/非バースト状態

では,実際に,

キーワードのバースト解析結果を見てみましょう

ニュース記事ストリーム

一日の記事集合中のキーワードの平均出現確率

Page 7: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

7

0

0.01

0.02

0.03

0.04

0.05

0.06

2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7

くない

はたち

アイリス

アパート

イスラム教

ウル

オイル

カフェ

キャンプ場

クロマグロ

コミック

サンティアゴ国際空港

シリコンウエハー

スカイライン

スパイ

ソルトレーク

チェンジアップ

デジタル一眼レフカメラ

ドォーモ

ノミ

バラン

パレスチナ自治政府

フィリップ

ブレザー

ベアリング

ポー

ミカ

モーグル

ラッパ

リンク

ロシア

安全装置

遺作

右腕

益子修

岡崎

加奈子

貨物車

海水浴

格安航空会社

葛藤

監査役

キーワードのバースト解析結果2010年3月1日~3月7日(一週間)

バースト状態

その日におけるキーワードの出現確率

※線グラフは「バーストの有無」,棒グラフは「出現確率」を表す

非バースト状態

色々なキーワードのバースト系列が重なってしまっているので,パターンごとに何キーワードあるかを見ていきます.

Page 8: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

8

0

0.01

0.02

0.03

0.04

0.05

0.06

2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7

くない

はたち

アイリス

アパート

イスラム教

ウル

オイル

カフェ

キャンプ場

クロマグロ

コミック

サンティアゴ国際空港

シリコンウエハー

スカイライン

スパイ

ソルトレーク

チェンジアップ

デジタル一眼レフカメラ

ドォーモ

ノミ

バラン

パレスチナ自治政府

フィリップ

ブレザー

ベアリング

ポー

ミカ

モーグル

ラッパ

リンク

ロシア

安全装置

遺作

右腕

益子修

岡崎

加奈子

貨物車

海水浴

格安航空会社

葛藤

監査役

キーワードのバースト解析結果2010年3月1日~3月7日(一週間)

バースト状態

その日におけるキーワードの出現確率

※線グラフは「バーストの有無」,棒グラフは「出現確率」を表す

1391 キーワード

335 キーワード

非バースト状態

Page 9: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

9

0

0.01

0.02

0.03

0.04

0.05

0.06

2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7

くない

はたち

アイリス

アパート

イスラム教

ウル

オイル

カフェ

キャンプ場

クロマグロ

コミック

サンティアゴ国際空港

シリコンウエハー

スカイライン

スパイ

ソルトレーク

チェンジアップ

デジタル一眼レフカメラ

ドォーモ

ノミ

バラン

パレスチナ自治政府

フィリップ

ブレザー

ベアリング

ポー

ミカ

モーグル

ラッパ

リンク

ロシア

安全装置

遺作

右腕

益子修

岡崎

加奈子

貨物車

海水浴

格安航空会社

葛藤

監査役

キーワードのバースト解析結果2010年3月1日~3月7日(一週間)

バースト状態

その日におけるキーワードの出現確率

※線グラフは「バーストの有無」,棒グラフは「出現確率」を表す

1391 キーワード

335 キーワード

329 キーワード267 キーワード

216 キーワード 230 キーワード

215 キーワード非バースト状態

Page 10: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

10

0

0.01

0.02

0.03

0.04

0.05

0.06

2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7

くない

はたち

アイリス

アパート

イスラム教

ウル

オイル

カフェ

キャンプ場

クロマグロ

コミック

サンティアゴ国際空港

シリコンウエハー

スカイライン

スパイ

ソルトレーク

チェンジアップ

デジタル一眼レフカメラ

ドォーモ

ノミ

バラン

パレスチナ自治政府

フィリップ

ブレザー

ベアリング

ポー

ミカ

モーグル

ラッパ

リンク

ロシア

安全装置

遺作

右腕

益子修

岡崎

加奈子

貨物車

海水浴

格安航空会社

葛藤

監査役

キーワードのバースト解析結果2010年3月1日~3月7日(一週間)

バースト状態

その日におけるキーワードの出現確率

※線グラフは「バーストの有無」,棒グラフは「出現確率」を表す

1391 キーワード

335 キーワード

329 キーワード267 キーワード

216 キーワード 230 キーワード

215 キーワード

220キーワード

非バースト状態

正直,色々あって見きれませんね?それもそのはずです・・・・・・

Page 11: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

11

0

0.01

0.02

0.03

0.04

0.05

0.06

2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7

くない

はたち

アイリス

アパート

イスラム教

ウル

オイル

カフェ

キャンプ場

クロマグロ

コミック

サンティアゴ国際空港

シリコンウエハー

スカイライン

スパイ

ソルトレーク

チェンジアップ

デジタル一眼レフカメラ

ドォーモ

ノミ

バラン

パレスチナ自治政府

フィリップ

ブレザー

ベアリング

ポー

ミカ

モーグル

ラッパ

リンク

ロシア

安全装置

遺作

右腕

益子修

岡崎

加奈子

貨物車

海水浴

格安航空会社

葛藤

監査役

キーワードのバースト解析結果2010年3月1日~3月7日(一週間)

バースト状態

その日におけるキーワードの出現確率

※線グラフは「バーストの有無」,棒グラフは「出現確率」を表す

1391 キーワード

335 キーワード

329 キーワード267 キーワード

216 キーワード 230 キーワード

215 キーワード

220キーワードこの期間,バーストしているキーワードの数

4,700 キーワード(※全130,000 キーワード中)

非バースト状態

Page 12: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

12

キーワードのバースト解析結果2010年3月1日~3月7日(一週間)

このことからわかるように,実は,キーワードという情報の粒度は非常に細かいのです

Page 13: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

13

概要

DTM[Blei06]

トピック

対して,本研究では,

LDAに代表されるトピックモデルの一種である

DTMを用いて,

各日のニュース記事集合中のトピックを

推定します

Page 14: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

14

一日の記事集合中のトピックの平均出現確率

ニュース記事ストリーム

概要

バースト解析[Kleinberg02]

2状態のストリームを出力

トピックのバースト状態/非バースト状態

DTM[Blei06]

トピック

そして,

各日のトピックの平均出現確率を算出することで,

キーワードと同じ枠組みで,

トピックのバースト解析を行います

Page 15: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

15

一日の記事集合中のトピックの平均出現確率

ニュース記事ストリーム

概要

バースト解析[Kleinberg02]

2状態のストリームを出力

トピックのバースト状態/非バースト状態

DTM[Blei06]

トピック

では,実際に,

トピックのバースト解析結果を見てみましょう

Page 16: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

16

トピックのバースト

2010年3月1日~3月7日(一週間)

0

0.05

0.1

0.15

0.2

0.25

2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7

経済

社会

海外の政治

小沢一郎違法献金疑惑

学校,コラム

経済

企業の業績

企業

交通

裁判

トヨタリコール事件

スポーツ,製品情報

バンクーバー五輪

普天間問題

芸能

刑事事件

地域

国内の政治

社会

医療

自然現象

地方の行政

海外の政治

小沢一郎違法献金疑惑

学校,コラム

企業の業績

企業

交通

裁判

トヨタリコール事件

スポーツ,製品情報

バンクーバー五輪

普天間問題

芸能

刑事事件

地域

国内の政治

医療

自然現象

地方の行政

この期間,バーストしているトピックの数

7 トピック※ 全トピック数は20として実験

バースト状態

Page 17: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

17

トピックのバースト

2010年3月1日~3月7日(一週間)

0

0.05

0.1

0.15

0.2

0.25

2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7

経済

社会

海外の政治

小沢一郎違法献金疑惑

学校,コラム

経済

企業の業績

企業

交通

裁判

トヨタリコール事件

スポーツ,製品情報

バンクーバー五輪

普天間問題

芸能

刑事事件

地域

国内の政治

社会

医療

自然現象

地方の行政

海外の政治

小沢一郎違法献金疑惑

学校,コラム

企業の業績

企業

交通

裁判

トヨタリコール事件

スポーツ,製品情報

バンクーバー五輪

普天間問題

芸能

刑事事件

地域

国内の政治

医療

自然現象

地方の行政

この期間,バーストしているトピックの数

7 トピック※ 全トピック数は20として実験

バースト状態

4800 キーワード

トピックのバースト解析結果は,右下の,キーワードのバースト解析結果と比較しても

だいぶスッキリしたことがわかります.

Page 18: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

18

トピックのバースト

2010年3月1日~3月7日(一週間)

0

0.05

0.1

0.15

0.2

0.25

2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7

経済

社会

海外の政治

小沢一郎違法献金疑惑

学校,コラム

経済

企業の業績

企業

交通

裁判

トヨタリコール事件

スポーツ,製品情報

バンクーバー五輪

普天間問題

芸能

刑事事件

地域

国内の政治

社会

医療

自然現象

地方の行政

海外の政治

小沢一郎違法献金疑惑

学校,コラム

企業の業績

企業

交通

裁判

トヨタリコール事件

スポーツ,製品情報

バンクーバー五輪

普天間問題

芸能

刑事事件

地域

国内の政治

医療

自然現象

地方の行政

この期間,バーストしているトピックの数

7 トピック※ 全トピック数は20として実験

バースト状態

では,どんなトピックがバーストしているか,実際に見てみましょう.

Page 19: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

19

トピックのバースト

2010年3月1日~3月7日(一週間)

0

0.05

0.1

0.15

0.2

0.25

2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7

~3月1日「トピック:自然現象」

がバースト→チリ地震によるもの

バースト状態

Page 20: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

20

トピックのバースト

2010年3月1日~3月7日(一週間)

0

0.05

0.1

0.15

0.2

0.25

2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7

2010年3月2日~3日「トピック:トヨタリコール事件」

がバースト→米国で公聴会が開かれた

2バースト状態

Page 21: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

21

トピックのバースト

2010年3月1日~3月7日(一週間)

0

0.05

0.1

0.15

0.2

0.25

2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7

2010年3月5日~

「トピック:普天間問題」がバースト

→ 官房長官と駐日米大使が

対談。県内移設が濃厚に。

3バースト状態

Page 22: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

22

トピックのバースト

2010年3月1日~3月7日(一週間)

0

0.05

0.1

0.15

0.2

0.25

2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7

3月6日~7日「トピック:学校,コラム」

「トピック:スポーツ,製品情報」がバースト

→ 雑多な話題を含むトピックなので

偶然バーストしてしまったもの

~3月1日「トピック:バンクーバー五輪」

がバースト→閉会式が行われた

2010年3月7日~

「トピック:海外の政治」がバースト

→ 中国の全国人民代表大会、

イスラエルとパレスチナの和平交渉の成立など

45

67

バースト状態

Page 23: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

23

トピックのバースト

2010年3月1日~3月7日(一週間)

0

0.05

0.1

0.15

0.2

0.25

2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7

経済

社会

海外の政治

小沢一郎違法献金疑惑

学校,コラム

経済

企業の業績

企業

交通

裁判

トヨタリコール事件

スポーツ,製品情報

バンクーバー五輪

普天間問題

芸能

刑事事件

地域

国内の政治

社会

医療

自然現象

地方の行政

海外の政治

小沢一郎違法献金疑惑

学校,コラム

企業の業績

企業

交通

裁判

トヨタリコール事件

スポーツ,製品情報

バンクーバー五輪

普天間問題

芸能

刑事事件

地域

国内の政治

医療

自然現象

地方の行政

この期間,バーストしているトピックの数

7 トピック※ 全トピック数は20として実験

バースト状態

これなら簡単に,一週間の出来事を知ることができそうではないでしょうか.

Page 24: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

24

小まとめ

「Kleinbergの手法にのっとり,

トピックのバースト解析ができる枠組みを提案した」

ここでいったんまとめると

というのが本研究の成果です

・・・ということで次は,

実際に,それを実現する手法について説明していきます

Page 25: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

25

手法説明

1.Kleinbergのバースト解析の仕組み(キーワードのバースト解析)

2.トピックのバースト解析をするには?

そこで,まずは

次に

について説明していきます

について説明し,

Page 26: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

26

手法説明

1.Kleinbergのバースト解析の仕組み(キーワードのバースト解析)

2.トピックのバースト解析をするには?

では,1番から説明します

Page 27: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

27 27

キーワードの出現確率

文書集合におけるキーワードw の出現確率rt /dtは,一日の文書数dtと,そのキーワードw を含む文書の数rt から求めることができます

t1 t2 t3 t4 t5 t6 t7 t8 t9 ………. t365

rt /dt

時間

3310

=t

t

dr

Kleinbergのバースト解析では,各日におけるキーワードの出現確率を求めます.

w w w w

www

w

w

w

t における

文書集合

Page 28: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

2828

バースト解析[Kleinberg02](直観的理解)

すると,解析したい期間におけるキーワードの平均出現確率p0が求まります

そして,期間内平均出現確率 p0をどれだけ上回るかにより,

バースト状態・非バースト状態を識別することになります

t1 t2 t3 t4 t5 t6 t7 t8 t9 ………. t365

rt /dt

時間

非バースト状態

バースト状態

閾値 = 0.072例

p0

050.00 ==∑∑

tt

tt

d

rp

Page 29: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

29 29

バースト解析[Kleinberg02]直観的には先程の説明で問題ありませんが,厳密には,各日の出現確率 rt /dtから,バースト状態・非バースト状態を遷移する系列q のコストを計算して最小コスト系列を求めたものが解になります

バースト状態 q1

非バースト状態 q0

t1 t2 t3 t4 t5 t6 t7 t8 t9 ………. t365

時間

⎟⎠

⎞⎜⎝

⎛+⎟⎠

⎞⎜⎝

⎛= ∑∑

=

=+

m

tttt

m

ttttt driiidrc

1

1

01 ),,()|(),|( στq

Page 30: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

30

手法説明

以上で,

1.Kleinbergのバースト解析の仕組み(キーワードのバースト解析)

についての説明は終わります

Page 31: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

31

手法説明

1.Kleinbergのバースト解析の仕組み(キーワードのバースト解析)

2.トピックのバースト解析をするには?

次は2番について説明します

Page 32: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

32

キーワードの出現確率

t1 t2 t3 t4 t5 t6 t7 t8 t9 ………. t365

rt /dt

時間

w w w w

www

w

w

w

t における

文書集合

3310

=t

t

dr

さきほどの説明を振り返ってみると

ということは・・・

Kleinbergのバースト解析では,各日におけるキーワードw の出現確率rt /dt が必要でした

Page 33: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

33 33

トピックの出現確率

t1 t2 t3 t4 t5 t6 t7 t8 t9 ………. t365

rt /dt

時間

同様に,

t における

文書集合

3312

=t

t

dr

z z z z

zzzz

z z z z

文書集合におけるトピックz の出現確率rt /dt を求めるため,

一日の文書数dtと,そのトピックz の文書の数rt を得ることができれば

トピックをバースト解析できると考えられます

Page 34: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

34 34

トピックの出現確率

t1 t2 t3 t4 t5 t6 t7 t8 t9 ………. t365

rt /dt

時間

では,どのようにしてトピックz の出現確率rt /dt の分子である

トピックz の文書の数rt を求めるかですが,

t における

文書集合

3312

=t

t

dr

z z z z

zzzz

z z z z

ここで先に説明した 「トピックモデル」 を使います

Page 35: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

35

トピックの出現確率 rt /dtの算出方法(トピックの関連記事数 rt の算出方法)

……………………………………………………

……………………………………………………

文書b p(z1|b) = 0.85

p(z2|b) = 0.10

p(z3|b)=0.05

0.85記事

具体的には,トピックモデルによって推定されるp( zn | b )の値を用います

これは,「文書b が,どれくらいの割合,どれくらいのトピックについて書かれているか」

を表したものでした

そこで,その条件付き確率の値を,そのまま記事数rt に用いることにします

トピックz1について 書かれていると見なす

Page 36: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

36

トピックの出現確率 rt /dtの算出方法(トピックの関連記事数 rt の算出方法)

……………………

………………

………………………………

………………

………………

………………

……………………

……………………………………………………

……………………………………………………

… …

文書b p(z1|b) = 0.85

p(z2|b) = 0.10

…………………… … …

……………………

………………

………………

……………………… …

ある日t の文書集合

p(z3|b)=0.05

0.85記事

具体的には, p( zn | b ) の値を,その日の文書集合で足し合わせることで,

その日における各トピックの関連文書数rtn とします

Page 37: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

37

トピックの出現確率 rt /dtの算出方法(トピックの関連記事数 rt の算出方法)

……………………

………………

………………………………

………………

………………

………………

……………………

……………………………………………………

……………………………………………………

… …

文書b p(z1|b) = 0.85

p(z2|b) = 0.10

…………………… … …

……………………

………………

………………

……………………… …

ある日t の文書集合

p(z3|b)=0.05

0.85記事

22 )|( t

b

rbzp ≈∑

11 )|( t

b

rbzp ≈∑

33 )|( t

brbzp ≈∑

具体的には, p( zn | b ) の値を,その日の文書集合で足し合わせることで,

その日における各トピックの関連文書数rtn とします

Page 38: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

38

トピックの出現確率 rt /dtの算出方法(トピックの関連記事数 rt の算出方法)

22 )|( t

brbzp ≈∑

11 )|( t

brbzp ≈∑

……………………

………………

………………………………

………………

………………

………………

……………………

……………………………………………………

……………………………………………………

… …

文書b p(z1|b) = 0.85

p(z2|b) = 0.10

…………………… … …

……………………

………………

………………

……………………… …

ある日t の文書集合

p(z3|b)=0.05

0.85記事

33 )|( t

brbzp ≈∑

t

2tr

1tr

3tr

tr

t drt

=∑

具体的には, p( zn | b ) の値を,その日の文書集合で足し合わせることで,

その日における各トピックの関連文書数rtn とします

Page 39: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

39

手法説明

2.トピックのバースト解析をするには?

以上が,

の説明でした

Page 40: 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)

40

おわり

以上で,手法,および,全体の説明を終わりにします

ありがとうございました