26
Language Models as Representa1ons for WeaklySupervised NLP Tasks Fei Huang, Alexander Yates, Arun Ahuja and Doug Downey CoNLL2011 紹介者 : 松田 2011/12/13 1

Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

Embed Size (px)

Citation preview

Page 1: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

Language  Models  as  Representa1ons  for    

Weakly-­‐Supervised  NLP  Tasks Fei  Huang,  Alexander  Yates,  Arun  Ahuja  

and  Doug  Downey  CoNLL2011  紹介者  :  松田

2011/12/13 1

Page 2: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

Introduc1on •  NLPのタスクの多くは分類問題に帰着できる  •  分類に用いる素性ベクトルの作り方に性能が大きく依存する  – 人手で注意深くつくられた素性が強い  

•  しかし、(特にDomain  Adapta1onのような状況において)次のような問題が性能を制限している  –   スパース性  

•  訓練データに出てきていない語に対応する能力  – 多義性  

•  ドメインに依存して語義の分布がかわる(POSの分布もかわる)ような語に対応する能力  

2011/12/13 2

Page 3: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

Introduc1on •  この問題に対処するために、素性表現に着目  

–  unseen  exampleに対する汎化性能を上げるような素性表現  –  distribu1onal  hypothesis  :  意味の似た語はコンテキストも似ている  

•  研究のゴール  –  コンテキストを考慮した確率的言語モデルに基づく素性表現を開発  

–  素性表現:語(token  /  type)から実数値ベクトルへのマッピング  •  言語モデルから生成  →  コンテキストを考慮したベクトルを生成できる  •  コンテキストから生成  →  多義性やスパース性に対して頑健になる  

2011/12/13 3

Page 4: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

Previous  Work •  素性表現についての研究は主に四つに分類される  

1.  文書レベルでの共起指標に基づくVector  Space  Model  2.  Vector  Space  Modelに対する次元削減  3.  分布類似度に基づくクラスタリング  4.  言語モデルに基づく素性表現  

•  PL-­‐MRFという新しいrepresenta1onを提案し、 POS  Taggerにおいてstate-­‐of-­‐the-­‐artな性能を達成したところがcontribu1on  

•  Domain  Adapta1onの研究としては  –  targetドメインのラベルつきデータがある設定  –  targetドメインのラベルつきデータが無い設定  –  本研究は後者  

2011/12/13 4

Page 5: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

Representa1ons

•  A  representa1on  is  a  set  of  features  that  describe  instances  for  a  classifier  

•  形式的な定義  

– 事例集合から素性空間への写像を行う関数  

– R(x)  :  Yという素性空間(  such  as  Rd  )  の中の一つのベクトル  

2011/12/13 5

Page 6: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

Representa1ons(具体例)

伝統的な素性表現

trigram言語モデル

グラフィカルモデル

クラスタリングに  基づく表現

提案手法

*-­‐TOKEN-­‐R  :  ある語の”特定の”出現事例に対する素性表現(Viterbi等でデコードした値)  *-­‐TYPE-­‐R  :  語それ自体に対する素性表現(コーパス中で一定) 2011/12/13 6

Page 7: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

フレームワーク

大量の  unlabeled  data Representa1on

1.学習

解くtaskの  labeled  data  

素性  ベクトル 2.  素性ベクトル作成

解くtaskの  分類器

3.  学習

2011/12/13 7

Page 8: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

Unsupervised  HMMs (本当は有向)  

•  それぞれの語が  K  状態のうちのいずれかの状態を持つ、というモデル  •  EMアルゴリズムによってパラメータ P(xi|yi),  P(yi|yi-­‐1) の推定が可能  •  Viterbiアルゴリズムによって状態のデコードが可能  

•  高村さんの本に書いてあるHMMは  Supervised-­‐HMMs  なので注意  2011/12/13 8

Page 9: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

I-­‐HMM(Independent-­‐HMM)

M個のHMM(レイヤー)を(初期値をランダムに変えて)独立に構築  それぞれのノードが  K  状態のいずれかの値をもっている(HMMと同じ)  

M

本当は有向

2011/12/13 9

Page 10: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

I-­‐HMMの問題点

•    それぞれのHMMが独立に訓練されており、文の別の側面を(異なるレイヤで)捉えるというモデルになっていない  

•  それぞれのレイヤーが語の異なる側面をとらえるようにしたい  – POS,  gender,  number,  格(case),  人称,  テンス,  etc..  

•  レイヤー間のインタラクションの導入

2011/12/13 10

Page 11: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

La`ce  Structured  MRF

M

i

j

2011/12/13 11

Page 12: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

La`ce  Structured  MRF

観測された語に関するパラメタ

P(x)  =  

極大クリークを因子とした対数線形モデルで表現(PRML  8.3に類似例あり)

となりあった二つのノードに関する遷移パラメタ

となりあった二つのレイヤに関するパラメタ

ただし、O(2M)個のパラメータがあるのでExactな推論/学習はほぼ不可能

パラメータとしては、例えば・・・

2011/12/13 12

Page 13: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

Par1al  La`ce  MRF

いくつかのエッジを削除する。文の前半では(odd  –  even),  文の後半では  (even  –  odd)  の間  (あまり納得できるような正当化はなされていない)

M

odd

odd

even

2011/12/13 13

Page 14: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

Par1al  La`ce  MRF •  エッジを削除することで効率的計算が可能になる  – 動的計画法,  メッセージパッシング  –  tree-­‐width(木幅:グラフがどれだけ木に近いかを表す指標)が  2  

•  木幅が  1  であれば木、低いほど効率的な計算が可能  – O(K4MN)  

•  K  :  ノードの状態数,  M:レイヤー数,  N  :  文長  •  (論文には書いていないが)モデルの柔軟さをできるだけ損なわずに木幅を低くして計算しやすくするためのエッジ削除法なのではないか  

2011/12/13 14

Page 15: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

Contras1ve  Es1ma1on

•  (Smith  and  Eisner,    2005)  •  対数線形モデルをUnlabeled  Dataから学習する一般的な枠組み  – Contras1ve  Divergence学習,  擬似負例からの学習

N(x)  :  Neighborhood  func1on(本論文では、隣接する二単語を入れ替えたもの)

2011/12/13 15

Page 16: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

red   leaves   don’t   hide   blue   jays  

?   ?   ?   ?   ?   ?  

p

p

leaves   red   don’t   hide   blue   jays  

?   ?   ?   ?   ?   ?  

red   don’t   leaves   hide   blue   jays  

?   ?   ?   ?   ?   ?  

red   leaves   hide   don’t   blue   jays  

?   ?   ?   ?   ?   ?  

red   leaves   don’t   blue   hide   jays  

?   ?   ?   ?   ?   ?  

red   leaves   don’t   hide   jays   blue  

?   ?   ?   ?   ?   ?  

red   leaves   don’t   hide   blue   jays  ?   ?   ?   ?   ?   ?  

Smith  and  Eisner,  ACL2005発表スライドより引用 2011/12/13 16

Page 17: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

その他学習における工夫

•  目的関数はnon-­‐convexなので勾配法で局所解を求めることになる  

•  For  tractability:一層づつ順番に訓練する  – 層 i  に「関係する」パラメータを θi,  その他を θ¬i  – まず  θ¬0  をすべてゼロに固定し、  θ0  を最適化  – 収束したら固定して、次の層にとりかかる  – 一層あたり100iter以下で収束するらしい  

2011/12/13 17

Page 18: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

Domain  Adapta1on  for  a  POS  Tagger

MEDLINE  561  sentence

Penn  Treebank Penn  Treebank  +MEDLINE  

71306  sentence

labeled  training  data  for  POS  Tagger  

unlabeled  training  data  for  train  LMs  

labeled  test  data  

Newspaper  Domain(WSJ)    =>  Biomedical  Domain(MEDLINE)  へのドメイン適応

POS  Taggerの学習モデルはCRF 2011/12/13 18

Page 19: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

Domain  Adapta1on  for  a  POS  Tagger

8  layer,  80  state

20  layer,  binary

trigram  on  Web1T

bioドメインの  ラベルつきデータ併用

可能な状態数    I-­‐HMM  :  1015  ,  PL-­‐MRF  :  106  

PL-­‐MRFはOOV-­‐errorを大幅に下げることに成功している 2011/12/13 19

Page 20: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

Domain  Adapta1on  for  a  POS  Tagger

多義語においては、グラフィカルモデルに基づく言語モデルの効果が大きい    おそらくViterbiデコードを行うときにコンテキストを考慮に入れることができるため  

スパースな語においてもグラフィカルモデルの効果は(そうでない語と比較して)大きい。

多義語の判定は  人手で行った。    unlabeledデータ  中に5回以下しか  出現しない語を  sparse語、  50回以上出現  する語を  non-­‐sparse語  として調査。  

2011/12/13 20

Page 21: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

Informa1on  Extrac1on

•  set-­‐expansion  task  – 種語が幾つか与えられた状況で、コーパス中に出現する同じ意味カテゴリの語を獲得するタスク  

– distribu1onal  hypothesisに基づいた手法  • 同じ意味カテゴリに属する語はそのコンテキストにあらわれる語の分布も似ているだろう、という仮定  

– 正例の一部だけが与えられているという意味で  “weakly-­‐supervised”  である  

2011/12/13 21

Page 22: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

Informa1on  Extrac1on

•  手法  1.  コーパス、シードの集合が与えられている 2.  それぞれの意味カテゴリCに対して  

•  すべての候補フレーズP  が、カテゴリCに属する尤もらしさで降順に並べる  

– 各カテゴリに対して、シードとして語を幾つか与えてその平均値ベクトルをCのprototype  vectorとする  

– それぞれのフレーズPに対して、prototype  vectorとの距離をはかり、近い順にカテゴリCに属すると判定  

•  距離  :  KL,  JS疑距離,  cosine,  ユークリッド,  L1の単純平均  – チューニングしても効果はなかったらしい  

2011/12/13 22

Page 23: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

Informa1on  Extrac1on •  実験データ  

– Webから集めた10万文  –  Lexアルゴリズム(Downey  et  al.,  2007)を用いて複数語からなる固有名詞は一語として認識できるように結合  

– Wikipediaの  “listOf”  ページから正解データを得た(16カテゴリ、432事例)  

•  実験設定  –  seed事例を5個づつ、という実験をseedをランダムに変えながら5回  

– 評価はAUC  metric.  •  Recall-­‐Precision  曲線の下側の面積(大きいほど良い)  

2011/12/13 23

Page 24: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

Informa1on  Extrac1on

あるカテゴリに90%以上のインスタンスが属さない場合は多義 (人手で推定)、コーパス中に30回以下の場合はスパース、と定義  

ランダムベースラインよりは  良くなったものの、提案手法(LATTICE-­‐TYPE-­‐R)の効果はみえない

2011/12/13 24

Page 25: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

IEで性能が振るわない理由 •  分類する「対象」の違いが疑わしい  

–  POSタギング:  “token”(インスタンス)の分類  –  IE  :  “type”(語そのもの)  の分類  

•  Representa1onのモデル  –  PL-­‐MRFはHMMに比べてtransi1onのパラメータに依存が大きいのではないか  

– 訓練に用いているContras1ve  Es1ma1onもtransi1onパラメータに対する依存を強くする効果がありそうだ  

•  語が与えられた状態でのモデルの事後分布  – エントロピー :  PL-­‐MRF  :  9.95  bits,  HMM  :  2.74bits  –  PL-­‐MRFは語が決まってもモデルの曖昧性が高い  

•  結論  :  よく分からないので更なる実験が必要

2011/12/13 25

Page 26: Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

Conclusion •  まとめ  

–  多義性やスパースな状況に対応できるような素性表現  –  本論文で提案したグラフィカルモデルに基づくrepresenta1onはPOS  TaggerのDomain  Adapta1onで  state-­‐of-­‐the-­‐art.  

–  IEにおける多義性の扱い等は今後の課題  •  以下、個人的感想  

–  (PL-­‐)MRFで層ごとに”異なる側面”が学習されるメカニズムが理解できなかった  

–  そもそも  IE  は問題設定としてどうなのだ  •  というかこれは  IE  なのだろうか,  多義性を考慮するtype分類とは  

–  Token-­‐based  tasks(POS  Tagger)と  Type-­‐based  tasks(IE)で異なった素性表現が有効であるというのは割と納得できる  

–  Contras1ve  Es1ma1onについては、本論文ではさらっとしか触れていないが、応用範囲はかなり広いようだ  

2011/12/13 26