View
445
Download
1
Category
Preview:
Citation preview
修士輪講2016/07/13豊田工業大学 知能数理研究室(COMPUTATIONAL INTELLIGENCE LABORATORY)16425 長野 直之
1/ 31
A table of Contents
・ Paper Overview
・ Abstract / 1. Introduction
・ 2. Neural Network Architecture
・ 3. Network Training
・ 4. Experiments
・ 6. Conclusion
2/ 31
Paper Overview ・タイトル 「 End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF 」
・著者 1. Xuezhe Ma 2. Eduard Hovy
(Language Technologies Institute Carnegie Mellon University)
3/ 31
【提案手法】
Paper Overview ・概要
Bi-directional LSTM(Forward and Backward)
CNN(Word embedding
and Char Representation)
CRF
系列ラベリングに有効な新たなニューラルネットワークの提案4/ 31
Abstract / 1. Introduction ・提案 (end-to-end モデル )
系列ラベリング (sequence labeling) の為の 新たなニューラルネットワークアーキテクチャ ・特徴 (end-to-end モデル )
1. タスク固有の資源 2. 素性エンジニアリング 3. ラベリングされていないコーパスの事前学習のデータ前処理 を必要としない
5/ 31
2. Neural Network Architecture ・ CNN for Character-level Representation
・文字レベルでの表現 文字レベルの” embedding” について、 畳み込みニューラルネットワーク (CNN) を使用する。
6/ 31
2. Neural Network Architecture ・ LSTM Unit
𝜎: 要素ごとのシグモイド関数:要素ごとの積
𝑥𝑡 :入力ベクトルh𝑡:隠れ層のベクトル𝑈 𝑖 ,𝑈 𝑓 ,𝑈𝑐 ,𝑈𝑜 ,:重み関数 (入力層)𝑏𝑖 ,𝑏 𝑓 ,𝑏𝑐 ,𝑏𝑜 ,: バイアスベクトル
7/ 31
2. Neural Network Architecture ・ BLSTM
・過去 (past) と未来 (future) の文脈から LSTM で判断 →2つの隠れ層 (Forward & Backward) を用意する必要がある
PAST
FUTURE
8/ 31
2. Neural Network Architecture ・ CRF
系列ラベリング (Sequence labeling) の問題に適用するために、 対数線形モデルの一つである条件付確率場 (CRF) を適用する。 1. 入力データ 入力系列: , 系列ラベル :
2. 条件付き確率
ポテンシャル関数: 重みベクトル: , バイアス:
9/ 31
2. Neural Network Architecture ・ CRF
系列ラベリング (Sequence labeling) の問題に適用するために、 対数線形モデルの一つである条件付確率場 (CRF) を適用する。 3. 条件付確率場の学習 (Training)
学習データ: 目的関数 ( 対数尤度 ) : 4. 最大条件付確率 系列条件付確率場 (a sequence CRF) のモデルは、 ビタビアルゴリズムを採用することで効率よく問題を解決できる。
10/ 31
2. Neural Network Architecture ・提案手法 (BLSTM-CNNs-CRF)
Bi-directional LSTM(Forward and Backward)
CNN(Word embedding
and Char Representation)
CRF
: Dropout Layers
(ドロップアウトによる学習)
11/ 31
3. Network Training ・訓練 (Training)
・ Theano library (Bergstra et al.,2010)
・ 単一モデルの計算において、 GeForce GTX TITAN X GPU を使用 ・ POS tagging:12hours
・ NER : 8hours
・単語埋め込み (Word Embedding)
1.GloVe: Global Vectors for Word Representation(Pennington et al., 2014)
100 次元の埋め込みモデルを使用 Wikipedia やウェブテキストから 60 億語を訓練
12/ 31
3. Network Training ・単語埋め込み (Word Embedding)
2.SENNA (Collobert et al., 2011)
50 次元の埋め込みモデルを使用 Wikipedia やロイター RCV-1 から訓練 3. Google’s Word2Vec (Mikolov et al., 2013)
300 次元の埋め込みモデルを使用 Google News から 1000 億語を訓練
13/ 31
3. Network Training ・単語埋め込み (Word Embedding)
Word Embedding の有効性をテストする為に、 1. 100 次元の埋め込み (embedding) をランダムに初期化し実験 2. 100 次元の埋め込み (embedding) のサンプルについて、 ※ dim :埋め込み(embedding) の次元数 ・文字埋め込み (Character Embedding)
Character Embedding の初期化のサンプルについて、
[−√ 3𝑑𝑖𝑚 ,+√ 3
𝑑𝑖𝑚 ]
14/ 31
3. Network Training ・重み行列 (Weight Matrices)
行列のパラーメータはランダムに初期化し、サンプルについて、
・バイアスベクトル (Bias Vectors)
1. 0 で初期化 2. LSTM の忘却ゲート (forget gate) については 1.0 で初期化
[−√ 6𝑟+𝑐 ,+√ 6
𝑟+𝑐 ] ・ :行列内の行数 ・ :行列内の列数
15/ 31
3. Network Training ・ 最適化アルゴリズム (Optimization Algorithm)
・ 確率的勾配降下法 (SGD) を使用 バッチサイズは 10 で更新量は 0.9
学習係数 (POS Tagging), (NER)
・ ※減衰率: ・ 「勾配爆発 (Gradient Exploding) 」の影響を低減させるのに、 5.0 のクリッピングを使用 (Pascanu et al., 2012)
16/ 31
3. Network Training ・ 最適化アルゴリズム (Optimization Algorithm)
1. Early Stopping(Giles,2001; Graves et al., 2013)
最良のパラーメータは 50epoch であるので、本実験にて使用 2. Fine Tuning(Collobert et al., 2011; Peng and Dredze, 2015)
それぞれの埋め込み (embedding) の初期の微調整は、 ニューラルネットの勾配更新時に、 誤差逆伝搬法 (back propagation) を使用 3. Dropout(Srivastava et al., 2014)
過学習を軽減する為に、 CNN の入力前と LSTM の入力前と出力後に適用する 本実験では出力を 0 にする割合を 0.5 とする
17/ 31
3. Network Training ・ ハイパーパラメータの調整 (Tuning Hyper-Parameters)
1. LSTM のサイズを 200 次元2. CNN のウィンドウサイズを 33. CNN のフィルタ数を 30に設定する前回までのスライドで説明
18/ 31
4. Experiments ・ DataSets
1. POS Tagging
・ Wall Street Journal (WSJ) portion of Penn Treebank (PTB)
45 個の品詞が上記のデータセットに含まれている。 (Marcus et al., 1993)
データセットの分割については標準的な手法を採用 ・セクション 0-18 を訓練データ ・セクション 19-21 を開発データ ・セクション 22-24 をテストデータ (Manning, 2011; Søgaard, 2011)
19/ 31
4. Experiments ・ DataSets
1. NER
・ CoNLL 2003(Tjong Kim Sang and De Meulder, 2003)
4つの異なった固有表現が含まれている。 ・ PERSON
・ LOCATION
・ ORGANIZATION
・ MISC
・ BIOES タグ付けを従来の BIO2 の代わりに使用 (Ratinov and Roth, 2009;Dai et al., 2015; Lample et al., 2016)
20/ 31
4. Experiments ・ DataSets
21/ 31
4. Experiments ・ Main Results
提案手法 (BRNN-CNN-CRF) では、過去の研究結果 (Santos and Zadrozny, 2014; Chiu and Nichols, 2015) よりも良い結果を得ることができた。
BLSTM-CNN に CRF 層を追加することは有効である22/ 31
4. Experiments ・ Comparison with Previous Work
1. POS Tagging
0.23%向上CharWNN
SENNA (Collobert et al., 2011) で比較
23/ 31
4. Experiments ・ Comparison with Previous Work
1. POS Tagging
0.05%向上
BLSTM-CRF のモデルで比較
24/ 31
4. Experiments ・ Comparison with Previous Work
2. NER
LSTM-CRF
CoNLL-2003 で比較
LSTM-CNNs
25/ 31
4. Experiments ・ Word Embedding
Word Embedding の有効性をテストした結果ランダム抽出を実施
GloVe で良い結果を得た
【 Word2Vec の NER でスコアが良くなかった理由】・語彙の不一致 →句読点や数字といった一般的な記号を除き、 大文字と小文字を区別した訓練を実施した。26/ 31
4. Experiments ・ Effect of Dropout
Dropout の有効性をテストした結果
Dropout の適用はスコアの向上に有効である
27/ 31
4. Experiments ・ OOV Error Analysis
提案手法の挙動を確認するために、 Out-of-Vocabulary words (OOV) によるエラー解析を実施
28/ 31
4. Experiments ・ OOV Error Analysis
Out-of-Vocabulary words (OOV) によるエラー解析を実施 【用語】 ・ IV : in-vocabulary words
学習 (Training) と埋め込み (Embedding) に出現する単語 ・ OOTV : out-of-training-vocabulary words
埋め込み (Embedding) に出現する単語 ・ OOEV : out-of-embedding-vocabulary words
学習 (Training) に出現する単語 ・ OOBV : out-of-both-vocabulary words
学習 (Training) と埋め込み (Embedding) に出現しない単語29/ 31
4. Experiments ・ OOV Error Analysis
OOBV で大幅に向上した
OOBV の学習や埋め込みにおいて良い結果を得ることが出来る
30/ 31
6. Conclusion ・ 今後の展望 1. 複数のタスクでの学習でのアプローチ より有用かつ関連性のある情報を考えることで、 POS tagging と NER の両方のニューラルネットを改善できる。 2. ソーシャルメディア (Twitter and Weibo)への適用 ドメイン依存やタスク固有の知識を必要としないので、 Twitter や Weibo といったソーシャルメディアの学習に適用する。
31/ 31
Recommended