Upload
sekizawayuuki
View
25
Download
1
Embed Size (px)
Citation preview
Distributed Representa/ons of Sentences and Documents
Quoc Le and Tomas Mikolov
In Proceedings of the 31st Interna<onal Conference
on Machine Learning, 2014
プレゼンテーション 関沢祐樹
2015/07/13 1
概要
• 機械学習アルゴリズム:固定長素性ベクトルが必要 – bag-‐of-‐words が代表例
• 単純なため、使われやすいが、弱点もある
• 提案手法 – 可変長テキストから、固定長ベクトルを表現
• 文、段落、文書などを高密度ベクトルで表現
– 今までの手法よりも良い成果 – テキスト分類、意味分析タスクで最先端の結果をだした
2015/07/13 2
テキストの分類やクラスタリング
– 文書検索、ウェブ検索、スパム選別において重要 – ロジスティック回帰、K−meansなどの方法
• テキストを表す固定長ベクトルを入力とする • bag-‐of-‐words や bag-‐of-‐ngram で生成
• 両手法とも単語の意味、距離を考慮しない
全て同距離 2015/07/13 3
単語順番を無考慮 データスパース性、高次元が問題点
powerful
strong Paris
powerful
strong
Paris
提案手法:Paragraph Vector
• テキストの一部を分散ベクトル表現する – 教師なし学習アルゴリズム
• テキストの長さは可変 – 文〜文書の範囲
• 段落のいくつかの単語ベクトルから段落ベクトルを生成 • 与えられた文脈に続く単語を予測 • タスク依存でない、構文解析もいらない
2015/07/13 4
アルゴリズム
• Learning Vector Representa<on of Words – 既存手法
• 提案手法 – Paragraph Vector: A distributed memory model
– Paragraph Vector without word ordering: Distributed bag of words
2015/07/13 5
Learning Vector Representa<on of Words
• W:行列
• 入力(the, cat, sat) から次の単語を予測(on) 2015/07/13 6
Learning Vector Representa<on of Words
• 各単語が行列Wに入る • それぞれに対してベクトルができる
• それらを連結 • 予測する
2015/07/13 7
Paragraph Vector: A distributed memory model
• Paragraph id が追加された 2015/07/13 8
Paragraph Vector: A distributed memory model
• 行列Dによって段落を一意にできる • 段落情報を記憶できる
• PV-‐DM と表記
2015/07/13 9
段落ベクトルの利点
• ラベルのないデータから学習 – ラベルがあんまりないタスクでうまく動きやすい
• 単語の意味情報を引き継ぐ – BOWの弱点をカバー
• 単語の順序を考慮する – n – gram の性質を持つ
2015/07/13 10
Paragraph Vector without word ordering: Distributed bag of words
• PV-‐DBOW • と表記
• 短い文脈を予測して出力 2015/07/13 11
Paragraph Vector without word ordering: Distributed bag of words
• 入力に単語(ベクトル)を使わない • ↓Skip-‐gram に似ている
2015/07/13 12
実験1−1:感情分析
• 1文内で感情分析 • データセット:Stanford sen<ment treebank dataset
– 映画のレビューから11,855文 • 訓練セット :8,544文 • 開発セット :1,101文 • テストセット :2,210文
• ラベル: ネガティブ 0.0 1.0 ポジティブ – この範囲の値で、Amazon Mechanical Turk で人手で付与
• この文から同様のラベル付きの句239,232を作成
2015/07/13 13
実験1−1:感情分析
• 2つの分類タスク (5値分類と2値分類) – Fine-‐grain : Very Nega<ve, Nega<ve, Neutral, Posi<ve, Very Posi<ve – coarse-‐grain : Nega<ve, Posi<ve
• 実験では段落ベクトルと7単語を用いて8番目の単語を予測 • 他の手法とあわせて、段落ベクトルの成果を比較
– エラー率を用いる
2015/07/13 14
実験1−1:感情分析
2015/07/13 15
実験1−2:感情分析
• 複数文にわたった感情分析 • データセット:IMDB – ここから映画のレビュー(複数文からなる)を10万個
• ラベルなし訓練セット :50,000 • ラベル付き訓練セット :25,000 • ラベル付きテストセット :25,000
• ラベルは2パターン:Posi<ve と Nega<ve
2015/07/13 16
実験1−2:感情分析
2015/07/13 17
実験2:情報抽出
• データセット:よく使われる上位100万トークンの 検索結果の上位10位の結果のセット – 各クエリに対して、段落の三つ組を作成
• 2つは同じクエリの結果である • 残り1つは他のトークンの結果と称して、ランダムなクエリの結果 • どの三つ組が、3つ全て同じトークンの段落であるかを判別する
違う
同じ
2015/07/13 18
段落1 段落2
段落2 段落1
段落3
段落3
実験2:情報抽出
• データセットの使われ方 – 訓練セット :80% – 開発セット :10% – テストセット :10%
2015/07/13 19
まとめ
• 提案手法 – 教師なし段落ベクトル – 単語を予測することができる
• 行った実験 – テキスト分類タスク
• 段落ベクトルは意味をとらえるとわかった • bowモデルの弱点を克服できる
2015/07/13 20