Icml2011 reading-sage

論文紹介

Sparse Additive Generative Model for Text

icml 2011読み会

2011/7/16

論文の背景

• 近年Dirichlet-multinomial分布を使った文章の生成モデルが流行してる(e.g. LDA)

• これらの分布を使った推論は比較的簡単であるという利点がある

• しかしながら、このような生成モデルには3つの問題点がある – Inference cost

– Overparametrization

– Lack of sparsity

Inference cost

• 評判情報やイデオロギーなど複数の側面を考慮した生成モデルを考えることがある(Mei + 2007 WWW, Ahmed & Xing 2010 EMNLP, Paul & Girju 2010 AAAI)

• 多くの場合複数の側面の追加はトークンごとの潜在変数の追加が必要となる – どの側面が有効かの”switch”に使われる

• このため推論のコストが大きくなる

Ahmed & Xing 2010(EMNLP)

Overparametrization

• “the”や”of”のような高頻度語に対してもトピックごとにトピック単語出現確率を学習してしまう – 対策としてはストップワードの除去

– 高頻度語を考慮したモデルを考える(Chemudugunta+ 2006, NIPS)

Lack of sparsity

• 例えばDirichlet-multinomialに基づくNaive bayesモデルを考

えたとき、クラス中に単語が一回でも出てくるとその単語の生成確率を考慮する必要がある

Sparse Additive GEnerative model (SAGE)

• 上記の問題解決のためSAGEというモデルを導入する

• このモデルではコーパスでの単語の対数頻度から文章ラベルや潜在変数に応じた差分をモデル化する

• このモデルのメリットとして – 差分に関してsparseになるようなpriorを導入することにより、多くの単語の差分を0とできる

– 複数の側面があるときに各側面に関する差分を足し合わせるだけで単語の生成確率が求まる

• このモデルはDirichlet-mutlinomialなモデルを単純に置き換えることができる、論文では以下の3つのモデルに関してSAGEの優位性を示している – Naive bayes分類

– トピックモデル(LDA)

– イデオロギーや地理情報を加味した文章生成モデル

SAGEのアイディア • 従来のトピックモデル

z

topic a

topic b

word distribution

switch

+

word distribution

add

background

difference

• SAGE

SAGEのアイディア • 従来のトピックモデル

z

topic a

topic b

word distribution

switch

+

word distribution

add

background

difference

• SAGE

sparse

単語の出現確率モデル

• background distribution : 𝒎 ∈ 𝑅𝑉

• component vectors : *𝜼𝑘 ∈ 𝑅𝑉+

– ここで添字𝑘は文章のラベルに対応しているとする

• 文章𝑑における単語の出現確率を以下のようにモデル化する

𝑃 𝑤 𝑦𝑑 ,𝒎, 𝜼 ∝ exp(𝒎 + 𝜼𝑦𝑑)

• ラベルが既知のときはNaive Bayesモデルに対応し

• 未知の時は混合unigramモデルに対応する

Prior of 𝜂

• 𝜂の事前分布としては、なるべく疎になるようにLaplace 分布を考える

• Laplace分布は正規分布と指数分布の結合モデルとして表現できる(Lange & Sinsheimer 1993, J. Comp. Graph. Stat)

• すなわち、以下のようにすればLaplace分布に従って生成できる

𝜏~𝐸𝑥𝑝 𝛾 𝜂~𝑁 0, 𝜏

from wikipedia:Laplace_distribution

SAGEによるNBモデル

• ラベル既知の文章における生成モデルは以下のように表される

𝜂𝑘,𝑖 ∼ 𝐿𝑎𝑝𝑙𝑎𝑐𝑒(0, 𝛾)と等価

変分ベイズによる推定

• パラメータ𝝉に関しては事後分布𝑃(𝝉|𝒘, 𝒚, 𝜼)をなるべく近似するような変分分布𝑄(𝝉)を求める

• これは以下の変分下限を最大化することによって得られる

– ここで<・>は変分分布で期待値をとることを意味する

• また𝜼に関してはMAP推定により最適化する

inference of 𝜼

• 変分下限の𝜼𝑘に関する項のみ抜き出すと

• 𝒄𝑑: 文章dの単語頻度ベクトル

• 𝐶𝑑 = 𝑐𝑑𝑤𝑤 : 𝒄𝑑の要素の合計

• 𝒄𝑘 = 𝒄𝑑𝑑:𝑦𝑑=𝑘: ラベル𝑘が付いた文章ベクトルの和

• 𝐶𝑘 = 𝑐𝑘𝑖𝑖 : 𝒄𝑘の要素の合計

𝑙 𝜼𝒌 = 𝒄𝑑𝑇𝜼𝑘 − 𝐶𝑑 log exp (𝜂𝑘𝑖 +𝑚𝑖)

𝑖

𝑑:𝑦𝑑=𝑘

−𝜼𝑘𝑇diag < 𝝉𝑘

−1 > 𝜼𝑘/2

𝑃(𝑤|𝒎, 𝜼)の部分

𝑃(𝜼|𝝉)の部分

inference of 𝜼

• 𝑙(𝜼𝑘)の勾配を求めると

• 最適化にはNewton法を使うためHessianを計算すると

𝜕𝑙

𝜕𝜼𝑘= 𝒄𝑘 − 𝐶𝑘𝜷𝑘 − diag < 𝝉𝑘

−1 > 𝜼𝑘

𝑑2𝑙

𝑑𝜂𝑘𝑖2 = 𝐶𝑘𝛽𝑘𝑖 𝛽𝑘𝑖 − 1 −< 𝜏𝑘𝑖 >,

𝑑2𝑙

𝑑𝜂𝑘𝑖𝑑𝜂𝑘𝑗= 𝐶𝑘𝛽𝑘𝑖𝛽𝑘𝑗

𝐇(𝜼𝑘) = 𝐶𝑘𝜷𝑘𝜷𝑘𝑻 − diag 𝐶𝑘𝜷𝑘 +< 𝝉𝑘

−1 >

inference of 𝜼

• Hessianの逆行列はSherman-Morrison公式を使って効率的に計算でき、ニュートン方向は以下のようになる

𝐇−1 𝜼𝑘 = 𝑨𝑘 −𝑨𝑘𝐶𝑘𝜷𝑘𝜷𝑘

𝑇𝑨𝑘

1 + 𝐶𝑘𝜷𝑘𝑇𝑨𝑘𝜷𝑘

−Δ𝜼𝑘 = 𝐇−1 𝜼𝑘 𝑔 𝜼𝑘

= 𝑨𝑘𝑔 𝜼𝑘 −𝐶𝑘𝑨𝑘𝜷𝑘

1 + 𝐶𝑘𝜷𝑘𝑇𝑨𝑘𝜷𝑘

𝜷𝑘𝑇𝑨𝑘𝑔(𝜼𝑘)

𝑨𝑘 = diag − 𝐶𝑘𝜷𝑘 +< 𝝉𝑘−1 >

−1

𝑔(𝜼𝑘) =𝜕𝑙

𝜕𝜼𝑘

inference of 𝝉

• まず変分分布が次のように書けることを仮定する

• また𝑄𝜏𝑘𝑖はガンマ分布に従うとする、すなわち

• 期待値の性質として

𝑄 𝝉𝑘 = 𝑄𝜏𝑘𝑖(𝜏𝑘𝑖)

𝑖

𝑄 𝜏 = 𝐺 𝜏 𝑎, 𝑏 = 𝜏𝑎−1exp (−𝜏𝑏)

Γ 𝑎 𝑏𝑎

< 𝜏 > = 𝑎𝑏,< 𝜏−1 > = 𝑎 − 1 𝑏−1, < log 𝜏 > = 𝜓 𝑎 + log 𝑏

inference of 𝝉

• 𝜏(正確には𝜏𝑘𝑖だが簡単のため添字は省略)に関する項を抜き出すと

• 𝑎に関するニュートン方向と𝑏の解析解は

inference of 𝝉

• 前述の更新式では指数分布のパラメータである𝛾を決定するという問題が残る

• このため𝜏の事前分布として無情報事前分布であるinproper Jeffery’s prior 𝜏 ∝ 1/𝜏を採用する

• この場合でもSparse性がある(Guan & Dy 2009, AISTATS)

• このときの𝑎に関するニュートン方向と𝑏の解析解は

• このとき、𝜂の推論に必要な< 𝜏−1 >は< 𝜏−1 > = 𝜂𝑘𝑖−2となる

Application: 文章分類

• 20 Newsgroups データセットを使って、評価を行った – http://people.csail.mit.edu/jrennie/20Newsgroups/

• ベースラインアルゴリズムとして、Dirichlet事前分布をいれたNB分類器を用いる (Diriclet分布のparameterはNewton法を使って最適化する(Minka 2003) ) – 当然識別モデルなどを使ったほうが分類性能は高くなるが、ここでは

Dirichlet-Multinomialな分布との比較が主眼であるため考慮しない

• また、ストップワードの除去は行わず、語彙数は50000となる

http://people.csail.mit.edu/jrennie/20Newsgroups/



Application: 文章分類

• SAGEは常にDirichletよりも良い結果となっている – 特にデータが尐ないときは10%以上の向上が見られる

• またfull-data利用時、パラメータの約90%が0となった – これはDirichletのときは50000 * 20 = 1Mのパラメータが必要なのに対して、SAGEでは0.1Mで済むことを意味している

Latent Variable Models

• LDAと同様に以下のような文章生成モデルを考える

• For each document 𝑑 – 𝜃𝑑 ∼ 𝐷𝑖𝑟(𝛼)

– For each 𝑤𝑛(𝑑)

• sample topic 𝑧𝑛(𝑑)∼ 𝑀𝑢𝑙𝑡𝑖(𝜃𝑑)

• sample word 𝑤𝑛(𝑑)∼ 𝑃(𝑤𝑛

𝑑|𝒎, 𝜼

𝑧𝑛𝑑 ) (𝑃 𝑤 𝒎, 𝜼 ∝ exp(𝒎 + 𝜼) )

cf. LDA(Blei+ 2003)

Inference

• 以下の変分下限を最適化する

• ここで𝑄に関しては

• 𝑄 𝜏, 𝑧, 𝜃 = 𝑄 𝜏 𝑄 𝑧 𝑄(𝜃)と分解できることを仮定する

• ここで𝑄 𝑧 , 𝑄(𝜃)の変分推定の式はLDAと同じになる、また𝑄(𝜏)の推定は前述の導出と同じになる

Estimation of 𝜂

• ここで𝜂の推定の時に𝜂𝑘𝑖 = 0となったら< 𝜏𝑘𝑖 >も動かなくなるため、Mステップでは複数回反復を行わず、一回だけ更新を行う

Application 2: Sparse topic models

• ベンチマークデータとしてNIPSデータセットを利用する

• 文章の20%をテストデータとする

• ストップワードの除去は行わない

• perplexityを比較するとトピック数が多いときSAGEの方が小さくなる

• またトピック数を10から50にしていったときパラメータの非ゼロ重みの数は5%から1%へと減っている

Application 2: Sparse topic models

• 単語頻度ごとにトピック単語出現確率の平均からのずれをみると、LDAでは頻度の低い単語においてもどこかのトピックに集中して出現してることが分かるが、SAGEではそのような現象はなく単語の頻度に比例することがわかる

Multifaceted generative models

• 文章データは多くの場合単独で存在するわけではなく、レビューであれば評判情報や政治系のブログであれば支持政党などの情報が付随している

• このような複数の側面(Multi faceted)をもつデータに対してSAGEは有効に働く

Multifaceted generative models

• トピックに関する対数頻度ベクトルを𝜼𝑧(𝑇)

, 文章についている

ラベルに関するベクトルを𝜼𝑦(𝐴)

, トピックとラベルの交互作用

のベクトルを𝜼𝑦,𝑧(𝐼)とする

• このとき単語生成確率は

• 推論も前述と似た感じでできる

Application 3: Topic and ideology

• 右派のブログと左派のブログがそれぞれ3つ存在する

• ラベル未知の右派、左派のブログ2つを残りの4つを訓練データとしてあてる

Application 4: Geolocation from Text

• 文章および位置情報が与えられたときのトピックモデル – 隠れ変数として”region”があり、そこから文章と位置が生成される

– 実験にはtwitterのテキストデータと位置情報を利用

[Eisenstein+ 2010, EMNLP]

Application 4: Geolocation from Text

• SAGEの性能がこれまでの手法よりもよい

Conclusion

• 離散データのためのSAGEという新しいモデルを提案した

• SAGEをNB分類器、トピックモデルに適応することにより、より

尐数の単語により表現されるシンプルなモデルが学習できることを示した

• 複数の側面を持つ生成モデルにも適応を行った

• 今後はより複雑なモデルである階層トピックモデル, 混合効果モデルなどへの適応を考えたい

Documents

Icml2011 reading-sage