読解支援@2015 07-13

Distributed Representa/ons of Sentences and Documents

Quoc Le and Tomas Mikolov

In Proceedings of the 31st Interna<onal Conference

on Machine Learning, 2014

プレゼンテーション関沢祐樹

2015/07/13 1

概要

•  機械学習アルゴリズム：固定長素性ベクトルが必要 –  bag-‐of-‐words が代表例

•  単純なため、使われやすいが、弱点もある

•  提案手法 –  可変長テキストから、固定長ベクトルを表現

•  文、段落、文書などを高密度ベクトルで表現

–  今までの手法よりも良い成果 –  テキスト分類、意味分析タスクで最先端の結果をだした

2015/07/13 2

テキストの分類やクラスタリング

– 文書検索、ウェブ検索、スパム選別において重要 – ロジスティック回帰、K−meansなどの方法

•  テキストを表す固定長ベクトルを入力とする •  bag-‐of-‐words や bag-‐of-‐ngram で生成

•  両手法とも単語の意味、距離を考慮しない

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　全て同距離 2015/07/13 3

単語順番を無考慮データスパース性、高次元が問題点

powerful

strong Paris

powerful

strong

Paris

提案手法：Paragraph Vector

•  テキストの一部を分散ベクトル表現する –  教師なし学習アルゴリズム

•  テキストの長さは可変 –  文〜文書の範囲

•  段落のいくつかの単語ベクトルから段落ベクトルを生成 •  与えられた文脈に続く単語を予測 •  タスク依存でない、構文解析もいらない

2015/07/13 4

アルゴリズム

•  Learning Vector Representa<on of Words – 既存手法

•  提案手法 – Paragraph Vector: A distributed memory model

– Paragraph Vector without word ordering: Distributed bag of words

2015/07/13 5

Learning Vector Representa<on of Words

•  　　　　　　　　　　　　　　　　　　　　　　W:行列

•  入力(the, cat, sat) から次の単語を予測(on) 2015/07/13 6

Learning Vector Representa<on of Words

•  各単語が行列Wに入る •  それぞれに対してベクトルができる

•  それらを連結 •  予測する

2015/07/13 7

Paragraph Vector: A distributed memory model

•  Paragraph id が追加された 2015/07/13 8

Paragraph Vector: A distributed memory model

•  行列Dによって段落を一意にできる •  段落情報を記憶できる

•  PV-‐DM と表記

2015/07/13 9

段落ベクトルの利点

•  ラベルのないデータから学習 – ラベルがあんまりないタスクでうまく動きやすい

•  単語の意味情報を引き継ぐ – BOWの弱点をカバー

•  単語の順序を考慮する – n – gram の性質を持つ

2015/07/13 10

Paragraph Vector without word ordering: Distributed bag of words

•  　　　　　　　　　　　　　　　　　　　　　　　　PV-‐DBOW •  　　　　　　　　　　　　　　　　　　　　　　　　と表記

•  短い文脈を予測して出力 2015/07/13 11

Paragraph Vector without word ordering: Distributed bag of words

•  入力に単語（ベクトル）を使わない •  ↓Skip-‐gram に似ている

2015/07/13 12

実験１−１：感情分析

•  １文内で感情分析 •  データセット：Stanford sen<ment treebank dataset

–  映画のレビューから11,855文 •  訓練セット　　：8,544文 •  開発セット　　：1,101文 •  テストセット　：2,210文

•  ラベル：ネガティブ　0.0　　　　　　　　　　　1.0 ポジティブ –  この範囲の値で、Amazon Mechanical Turk で人手で付与

•  この文から同様のラベル付きの句239,232を作成

2015/07/13 13


•  ２つの分類タスク (５値分類と２値分類) –  Fine-‐grain : Very Nega<ve, Nega<ve, Neutral, Posi<ve, Very Posi<ve –  coarse-‐grain : Nega<ve, Posi<ve

•  実験では段落ベクトルと７単語を用いて８番目の単語を予測 •  他の手法とあわせて、段落ベクトルの成果を比較

–  エラー率を用いる

2015/07/13 14


2015/07/13 15

実験１−２：感情分析

•  複数文にわたった感情分析 •  データセット：IMDB –  ここから映画のレビュー（複数文からなる）を１０万個

•  ラベルなし訓練セット　　：50,000 •  ラベル付き訓練セット　　：25,000 •  ラベル付きテストセット　：25,000

•  ラベルは２パターン：Posi<ve と Nega<ve

2015/07/13 16

実験１−２：感情分析

2015/07/13 17

実験２：情報抽出

•  データセット：よく使われる上位１００万トークンの　　　　　　　　　　検索結果の上位１０位の結果のセット –  各クエリに対して、段落の三つ組を作成

•  ２つは同じクエリの結果である •  残り１つは他のトークンの結果と称して、ランダムなクエリの結果 •  どの三つ組が、３つ全て同じトークンの段落であるかを判別する

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　違う

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　同じ

2015/07/13 18

段落１段落２

段落２段落１

段落３

段落３

実験２：情報抽出

•  データセットの使われ方 –  訓練セット　　：８０％ –  開発セット　　：１０％ –  テストセット　：１０％

2015/07/13 19

まとめ

•  提案手法 – 教師なし段落ベクトル – 単語を予測することができる

•  行った実験 – テキスト分類タスク

•  段落ベクトルは意味をとらえるとわかった •  bowモデルの弱点を克服できる

2015/07/13 20

Education

読解支援@2015 07-13