31
修修修修 2016/07/13 修修修修修修 修修修修修修修 (COMPUTATIONAL INTELLIGENCE LABORATORY) 修修 修修 16425 1/ 31

論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

Embed Size (px)

Citation preview

Page 1: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

修士輪講2016/07/13豊田工業大学 知能数理研究室(COMPUTATIONAL INTELLIGENCE LABORATORY)16425 長野 直之

1/ 31

Page 2: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

A table of Contents

・ Paper Overview

・ Abstract / 1. Introduction

・ 2. Neural Network Architecture

・ 3. Network Training

・ 4. Experiments

・ 6. Conclusion

2/ 31

Page 3: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

Paper Overview ・タイトル  「 End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF 」

・著者   1. Xuezhe Ma 2. Eduard Hovy

  (Language Technologies Institute Carnegie Mellon University)

3/ 31

Page 4: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

【提案手法】

Paper Overview ・概要

Bi-directional LSTM(Forward and Backward)

CNN(Word embedding

and Char Representation)

CRF

系列ラベリングに有効な新たなニューラルネットワークの提案4/ 31

Page 5: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

Abstract / 1. Introduction ・提案 (end-to-end モデル )

 系列ラベリング (sequence labeling) の為の  新たなニューラルネットワークアーキテクチャ ・特徴 (end-to-end モデル )

  1. タスク固有の資源   2. 素性エンジニアリング   3. ラベリングされていないコーパスの事前学習のデータ前処理  を必要としない

5/ 31

Page 6: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

2. Neural Network Architecture ・ CNN for Character-level Representation

・文字レベルでの表現  文字レベルの” embedding” について、 畳み込みニューラルネットワーク (CNN) を使用する。

6/ 31

Page 7: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

2. Neural Network Architecture ・ LSTM Unit

𝜎: 要素ごとのシグモイド関数:要素ごとの積

𝑥𝑡 :入力ベクトルh𝑡:隠れ層のベクトル𝑈 𝑖 ,𝑈 𝑓 ,𝑈𝑐 ,𝑈𝑜 ,:重み関数 (入力層)𝑏𝑖 ,𝑏 𝑓 ,𝑏𝑐 ,𝑏𝑜 ,: バイアスベクトル

7/ 31

Page 8: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

2. Neural Network Architecture ・ BLSTM

 ・過去 (past) と未来 (future) の文脈から LSTM で判断   →2つの隠れ層 (Forward & Backward) を用意する必要がある

PAST

FUTURE

8/ 31

Page 9: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

2. Neural Network Architecture ・ CRF

 系列ラベリング (Sequence labeling) の問題に適用するために、  対数線形モデルの一つである条件付確率場 (CRF) を適用する。 1. 入力データ    入力系列:              , 系列ラベル :

  2. 条件付き確率

   ポテンシャル関数:    重みベクトル:     , バイアス:

9/ 31

Page 10: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

2. Neural Network Architecture ・ CRF

 系列ラベリング (Sequence labeling) の問題に適用するために、  対数線形モデルの一つである条件付確率場 (CRF) を適用する。 3. 条件付確率場の学習 (Training)

学習データ:   目的関数 ( 対数尤度 ) :   4. 最大条件付確率   系列条件付確率場 (a sequence CRF) のモデルは、  ビタビアルゴリズムを採用することで効率よく問題を解決できる。 

10/ 31

Page 11: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

2. Neural Network Architecture ・提案手法 (BLSTM-CNNs-CRF)

Bi-directional LSTM(Forward and Backward)

CNN(Word embedding

and Char Representation)

CRF

: Dropout Layers

(ドロップアウトによる学習)

11/ 31

Page 12: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

3. Network Training ・訓練 (Training)

 ・ Theano library (Bergstra et al.,2010)

 ・ 単一モデルの計算において、 GeForce GTX TITAN X GPU を使用  ・ POS tagging:12hours

 ・ NER : 8hours

・単語埋め込み (Word Embedding)

  1.GloVe: Global Vectors for Word Representation(Pennington et al., 2014)

   100 次元の埋め込みモデルを使用   Wikipedia やウェブテキストから 60 億語を訓練

12/ 31

Page 13: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

3. Network Training ・単語埋め込み (Word Embedding)

  2.SENNA (Collobert et al., 2011)

   50 次元の埋め込みモデルを使用   Wikipedia やロイター RCV-1 から訓練   3. Google’s Word2Vec (Mikolov et al., 2013)

   300 次元の埋め込みモデルを使用   Google News から 1000 億語を訓練

13/ 31

Page 14: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

3. Network Training ・単語埋め込み (Word Embedding)

  Word Embedding の有効性をテストする為に、   1. 100 次元の埋め込み (embedding) をランダムに初期化し実験   2. 100 次元の埋め込み (embedding) のサンプルについて、                  ※ dim :埋め込み(embedding) の次元数 ・文字埋め込み (Character Embedding)

  Character Embedding の初期化のサンプルについて、

[−√ 3𝑑𝑖𝑚 ,+√ 3

𝑑𝑖𝑚 ]

 14/ 31

Page 15: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

3. Network Training ・重み行列 (Weight Matrices)

 行列のパラーメータはランダムに初期化し、サンプルについて、

・バイアスベクトル (Bias Vectors)

  1. 0 で初期化   2. LSTM の忘却ゲート (forget gate) については 1.0 で初期化

[−√ 6𝑟+𝑐 ,+√ 6

𝑟+𝑐 ] ・ :行列内の行数 ・ :行列内の列数

15/ 31

Page 16: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

3. Network Training ・ 最適化アルゴリズム (Optimization Algorithm)

  ・ 確率的勾配降下法 (SGD) を使用 バッチサイズは 10 で更新量は 0.9

学習係数 (POS Tagging), (NER)

・     ※減衰率:   ・ 「勾配爆発 (Gradient Exploding) 」の影響を低減させるのに、     5.0 のクリッピングを使用 (Pascanu et al., 2012)

16/ 31

Page 17: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

3. Network Training ・ 最適化アルゴリズム (Optimization Algorithm)

  1. Early Stopping(Giles,2001; Graves et al., 2013)

   最良のパラーメータは 50epoch であるので、本実験にて使用  2. Fine Tuning(Collobert et al., 2011; Peng and Dredze, 2015)

それぞれの埋め込み (embedding) の初期の微調整は、    ニューラルネットの勾配更新時に、 誤差逆伝搬法 (back propagation) を使用  3. Dropout(Srivastava et al., 2014)

過学習を軽減する為に、    CNN の入力前と LSTM の入力前と出力後に適用する 本実験では出力を 0 にする割合を 0.5 とする   

17/ 31

Page 18: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

3. Network Training ・ ハイパーパラメータの調整 (Tuning Hyper-Parameters)   

1. LSTM のサイズを 200 次元2. CNN のウィンドウサイズを 33. CNN のフィルタ数を 30に設定する前回までのスライドで説明

18/ 31

Page 19: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

4. Experiments ・ DataSets

1. POS Tagging

・ Wall Street Journal (WSJ) portion of Penn Treebank (PTB)

45 個の品詞が上記のデータセットに含まれている。 (Marcus et al., 1993)

      データセットの分割については標準的な手法を採用 ・セクション 0-18 を訓練データ      ・セクション 19-21 を開発データ      ・セクション 22-24 をテストデータ (Manning, 2011; Søgaard, 2011)

19/ 31

Page 20: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

4. Experiments ・ DataSets

1. NER

・ CoNLL 2003(Tjong Kim Sang and De Meulder, 2003)

4つの異なった固有表現が含まれている。      ・ PERSON

     ・ LOCATION

     ・ ORGANIZATION

     ・ MISC

   ・ BIOES タグ付けを従来の BIO2 の代わりに使用      (Ratinov and Roth, 2009;Dai et al., 2015; Lample et al., 2016)

20/ 31

Page 21: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

4. Experiments ・ DataSets

21/ 31

Page 22: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

4. Experiments ・ Main Results

提案手法 (BRNN-CNN-CRF) では、過去の研究結果 (Santos and Zadrozny, 2014; Chiu and Nichols, 2015) よりも良い結果を得ることができた。

BLSTM-CNN に CRF 層を追加することは有効である22/ 31

Page 23: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

4. Experiments ・ Comparison with Previous Work

  1. POS Tagging

0.23%向上CharWNN

SENNA (Collobert et al., 2011) で比較

23/ 31

Page 24: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

4. Experiments ・ Comparison with Previous Work

  1. POS Tagging

0.05%向上

BLSTM-CRF のモデルで比較

24/ 31

Page 25: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

4. Experiments ・ Comparison with Previous Work

  2. NER

LSTM-CRF

CoNLL-2003 で比較

LSTM-CNNs

25/ 31

Page 26: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

4. Experiments ・ Word Embedding

  Word Embedding の有効性をテストした結果ランダム抽出を実施

GloVe で良い結果を得た

【 Word2Vec の NER でスコアが良くなかった理由】・語彙の不一致 →句読点や数字といった一般的な記号を除き、   大文字と小文字を区別した訓練を実施した。26/ 31

Page 27: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

4. Experiments ・ Effect of Dropout

  Dropout の有効性をテストした結果

Dropout の適用はスコアの向上に有効である

27/ 31

Page 28: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

4. Experiments ・ OOV Error Analysis

 提案手法の挙動を確認するために、   Out-of-Vocabulary words (OOV) によるエラー解析を実施

28/ 31

Page 29: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

4. Experiments ・ OOV Error Analysis

  Out-of-Vocabulary words (OOV) によるエラー解析を実施  【用語】 ・ IV : in-vocabulary words

学習 (Training) と埋め込み (Embedding) に出現する単語 ・ OOTV : out-of-training-vocabulary words

      埋め込み (Embedding) に出現する単語 ・ OOEV : out-of-embedding-vocabulary words

学習 (Training) に出現する単語 ・ OOBV : out-of-both-vocabulary words

      学習 (Training) と埋め込み (Embedding) に出現しない単語29/ 31

Page 30: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

4. Experiments ・ OOV Error Analysis

OOBV で大幅に向上した

OOBV の学習や埋め込みにおいて良い結果を得ることが出来る

30/ 31

Page 31: 論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」

6. Conclusion ・ 今後の展望   1. 複数のタスクでの学習でのアプローチ    より有用かつ関連性のある情報を考えることで、     POS tagging と NER の両方のニューラルネットを改善できる。   2. ソーシャルメディア (Twitter and Weibo)への適用 ドメイン依存やタスク固有の知識を必要としないので、    Twitter や Weibo といったソーシャルメディアの学習に適用する。   

31/ 31