20
Distributed Representa/ons of Sentences and Documents Quoc Le and Tomas Mikolov In Proceedings of the 31st Interna<onal Conference on Machine Learning, 2014 プレゼンテーション 関沢祐樹 2015/07/13 1

読解支援@2015 07-13

Embed Size (px)

Citation preview

Page 1: 読解支援@2015 07-13

Distributed  Representa/ons  of  Sentences  and  Documents  

 Quoc  Le  and  Tomas  Mikolov  

   In  Proceedings  of  the  31st  Interna<onal  Conference  

on  Machine  Learning,  2014

プレゼンテーション  関沢祐樹  

2015/07/13 1

Page 2: 読解支援@2015 07-13

概要

•  機械学習アルゴリズム:固定長素性ベクトルが必要  –  bag-­‐of-­‐words  が代表例  

•  単純なため、使われやすいが、弱点もある  

•  提案手法  –  可変長テキストから、固定長ベクトルを表現  

•  文、段落、文書などを高密度ベクトルで表現  

–  今までの手法よりも良い成果  –  テキスト分類、意味分析タスクで最先端の結果をだした  

2015/07/13 2

Page 3: 読解支援@2015 07-13

テキストの分類やクラスタリング

– 文書検索、ウェブ検索、スパム選別において重要  – ロジスティック回帰、K−meansなどの方法  

•  テキストを表す固定長ベクトルを入力とする  •  bag-­‐of-­‐words  や bag-­‐of-­‐ngram  で生成  

 •  両手法とも単語の意味、距離を考慮しない  

                                全て同距離    2015/07/13 3

単語順番を無考慮 データスパース性、高次元が問題点

powerful

strong Paris

powerful

strong

Paris

Page 4: 読解支援@2015 07-13

提案手法:Paragraph  Vector

•  テキストの一部を分散ベクトル表現する  –  教師なし学習アルゴリズム  

•  テキストの長さは可変  –  文〜文書の範囲  

•  段落のいくつかの単語ベクトルから段落ベクトルを生成  •  与えられた文脈に続く単語を予測  •  タスク依存でない、構文解析もいらない  

2015/07/13 4

Page 5: 読解支援@2015 07-13

アルゴリズム

•  Learning  Vector  Representa<on  of  Words    – 既存手法  

•  提案手法  – Paragraph  Vector:  A  distributed  memory  model    

– Paragraph  Vector  without  word  ordering:  Distributed  bag  of  words    

 2015/07/13 5

Page 6: 読解支援@2015 07-13

Learning  Vector  Representa<on  of  Words  

•                        W:行列  

•  入力(the,  cat,  sat)    から次の単語を予測(on)  2015/07/13 6

Page 7: 読解支援@2015 07-13

Learning  Vector  Representa<on  of  Words  

•  各単語が行列Wに入る  •  それぞれに対してベクトルができる  

•  それらを連結  •  予測する  

2015/07/13 7

Page 8: 読解支援@2015 07-13

Paragraph  Vector:    A  distributed  memory  model

•  Paragraph  id  が追加された 2015/07/13 8

Page 9: 読解支援@2015 07-13

Paragraph  Vector:    A  distributed  memory  model

•  行列Dによって段落を一意にできる  •  段落情報を記憶できる  

•  PV-­‐DM  と表記  

2015/07/13 9

Page 10: 読解支援@2015 07-13

段落ベクトルの利点

•  ラベルのないデータから学習  – ラベルがあんまりないタスクでうまく動きやすい  

•  単語の意味情報を引き継ぐ  – BOWの弱点をカバー  

•  単語の順序を考慮する  – n  –  gram  の性質を持つ

2015/07/13 10

Page 11: 読解支援@2015 07-13

Paragraph  Vector  without  word  ordering:  Distributed  bag  of  words    

•                          PV-­‐DBOW    •                          と表記  

•  短い文脈を予測して出力  2015/07/13 11

Page 12: 読解支援@2015 07-13

Paragraph  Vector  without  word  ordering:  Distributed  bag  of  words    

•  入力に単語(ベクトル)を使わない  •  ↓Skip-­‐gram  に似ている  

2015/07/13 12

Page 13: 読解支援@2015 07-13

実験1−1:感情分析

•  1文内で感情分析  •  データセット:Stanford  sen<ment  treebank  dataset    

–  映画のレビューから11,855文  •  訓練セット  :8,544文  •  開発セット  :1,101文  •  テストセット  :2,210文  

•  ラベル: ネガティブ 0.0           1.0  ポジティブ  –   この範囲の値で、Amazon  Mechanical  Turk  で人手で付与  

•  この文から同様のラベル付きの句239,232を作成  

2015/07/13 13

Page 14: 読解支援@2015 07-13

実験1−1:感情分析

•  2つの分類タスク  (5値分類と2値分類)  –  Fine-­‐grain  :  Very  Nega<ve,  Nega<ve,  Neutral,  Posi<ve,  Very  Posi<ve    –  coarse-­‐grain  :  Nega<ve,  Posi<ve  

•  実験では段落ベクトルと7単語を用いて8番目の単語を予測  •  他の手法とあわせて、段落ベクトルの成果を比較  

–  エラー率を用いる  

2015/07/13 14

Page 15: 読解支援@2015 07-13

実験1−1:感情分析

2015/07/13 15

Page 16: 読解支援@2015 07-13

実験1−2:感情分析

•  複数文にわたった感情分析  •  データセット:IMDB    –  ここから映画のレビュー(複数文からなる)を10万個  

•  ラベルなし訓練セット   :50,000  •  ラベル付き訓練セット  :25,000  •  ラベル付きテストセット  :25,000  

•  ラベルは2パターン:Posi<ve  と Nega<ve      

2015/07/13 16

Page 17: 読解支援@2015 07-13

実験1−2:感情分析

2015/07/13 17

Page 18: 読解支援@2015 07-13

実験2:情報抽出

•  データセット:よく使われる上位100万トークンの            検索結果の上位10位の結果のセット  –  各クエリに対して、段落の三つ組を作成  

•  2つは同じクエリの結果である  •  残り1つは他のトークンの結果と称して、ランダムなクエリの結果  •  どの三つ組が、3つ全て同じトークンの段落であるかを判別する  

                                 違う  

                                 同じ  

2015/07/13 18

段落1 段落2

段落2 段落1

段落3

段落3

Page 19: 読解支援@2015 07-13

実験2:情報抽出

•  データセットの使われ方  –  訓練セット  :80%  –  開発セット  :10%  –  テストセット  :10%

2015/07/13 19

Page 20: 読解支援@2015 07-13

まとめ

•  提案手法  – 教師なし段落ベクトル  – 単語を予測することができる  

•  行った実験  – テキスト分類タスク  

•  段落ベクトルは意味をとらえるとわかった  •  bowモデルの弱点を克服できる  

2015/07/13 20