23
トピックモデル勉強会 WSDM2012 @y_benjo

Topic Model Survey (wsdm2012)

  • Upload
    ybenjo

  • View
    2.730

  • Download
    0

Embed Size (px)

DESCRIPTION

topic model survey in WSDM2012http://d.hatena.ne.jp/repose/

Citation preview

Page 1: Topic Model Survey (wsdm2012)

トピックモデル勉強会WSDM2012

@y_benjo

Page 2: Topic Model Survey (wsdm2012)

論文一覧

• Auralist: Introducing Serendipity into Music Recommendation

• ETF: Extended Tensor Factorization Model for Personalizing Prediction of Review Helpfulness

• Mining Contrastive Opinions on Political Texts using Cross-Perspective Topic Model

• Pairwise Cross-Domain Factor Model for Heterogeneous Transfer Ranking

• Scalable Inference in Latent Variable Models

Page 3: Topic Model Survey (wsdm2012)

論文一覧

• Auralist: Introducing Serendipity into Music Recommendation

• ETF: Extended Tensor Factorization Model for Personalizing Prediction of Review Helpfulness

• Mining Contrastive Opinions on Political Texts using Cross-Perspective Topic Model

• Pairwise Cross-Domain Factor Model for Heterogeneous Transfer Ranking

• Scalable Inference in Latent Variable Models

レビューの話

推薦の話

意見の話

ランキングの話

スケーラブルの話

Page 4: Topic Model Survey (wsdm2012)

Auralist: Introducing Serendipity into Music Recommendation

Yuan Cao Zhang, Diarmuid Séaghdha, Daniele Quercia and Tamas Jambor

(Multimedia and Geo Mining)

Page 5: Topic Model Survey (wsdm2012)

Auralist

•背景• 音楽を推薦したい

•解くべき課題: 精度だけじゃいかん• diversity: 幅広く推薦したい

• novelty: 知らなかったものを推薦したい

• serendipity: 意外なものを推薦したい

Page 6: Topic Model Survey (wsdm2012)

Auralist

•方針:• accuracy/diversity/novelty/serendipityを考慮した推薦

を実現

•オリジナリティ: • Artist-userにLDAを使ってp(user|z)から類似度を測る

• Artist-LDA + Listener Diversity(serendipity)• トピックの情報量でDiversityを測る

• Artist-LDA + Declustering• もう既に退屈しているであろうアーティストを除外する

Page 7: Topic Model Survey (wsdm2012)

Auralist

•評価• データ: Last.fm dataset

• 実験1: 既存指標

• 実験2: ユーザ調査• 「知らなかった曲を教えてくれて最高だぜ!HAHAHA!」

•感想• タイトルがかっこいい

• 手法は超絶アレなグラフィカルモデルが書いてあるわけではない

Page 8: Topic Model Survey (wsdm2012)

ETF: Extended Tensor Factorization Model for Personalizing Prediction

of Review HelpfulnessSamaneh Moghaddam, Mohsen Jamali and Martin Ester

(Spotlight on Mining)

Page 9: Topic Model Survey (wsdm2012)

ETF

•背景• レビューが増えすぎている

•解くべき課題• クオリティが高く有用なレビューを抽出したい

• 読む人によってレビューの有用度は異なる

Page 10: Topic Model Survey (wsdm2012)

ETF

•方針• reviewer,review,rater(読む人),productを潜在変数と

して考える• 文章/ソーシャルの要素を考えなくて済む

•オリジナリティ• MF: rater × review で行列分解

• TF: rater × reviewer × productをテンソル分解

• ETF: TF + レビュアーの全商品に対する得点

• BETF: ETF + バイアス

Page 11: Topic Model Survey (wsdm2012)

ETF

•評価• データ: Epinions

• 指標: RMSE• テキストを使ったものより改善

• レビュー数5未満のユーザに対してRMSEが倍近く改善

•感想• 読んでわかったけどトピックモデルじゃない• グラフィカルモデルに釣られた

• テンソル分解とか楽しそうで紹介した

Page 12: Topic Model Survey (wsdm2012)

Mining Contrastive Opinions on Political Texts using the Cross-perspective Topic Model

Yi Fang, Luo Si, Naveen Somasundaram and Zhengtao Yu(Spotlight on Mining)

Page 13: Topic Model Survey (wsdm2012)

Mining Contrastive Opinions

•背景• 異なる観点ごとにまとめ,その違いを定量化したい

•想定例• 入力: 新聞社ごとの文章や,政党ごとのマニフェスト

• 出力: それぞれの政策や法案,事件について新聞社や政党ごとの意見

Page 14: Topic Model Survey (wsdm2012)

Mining Contrastive Opinions•方針・オリジナリティ• Cross-Perspective Topic(CPT) modelの提案

• Jensen-Shannon divergenceで違いを定量化

トピック共通

オピニオン固有 オピニオン固有

fig1の簡単なイメージ図同じトピックから異なるオピニオンワードが生成される

Page 15: Topic Model Survey (wsdm2012)

Mining Contrastive Opinions

•評価• Perplexity,P@N,nDCG,MMR(関連度)

• 質的分析• トピックごとにそれっぽいか

• 意見の異なりはそれっぽいか

•感想• 完全なunsupervisedかと思って途中まで読んでいた• <document, opinion word, word> が入力形式

• ダライラマに関して新華社とNYTで意見がかなり違うというのに笑った

Page 16: Topic Model Survey (wsdm2012)

Pairwise Cross-Domain Factor Model for Heterogeneous Transfer

RankingBo Long, Yi Chang, Anlei Dong and Jianzhang He

(Spotlight on Mining)

Page 17: Topic Model Survey (wsdm2012)

Pairwise Cross-Domain

•背景• ランキング学習で二つのジャンルのデータを使いたい

•解くべき課題• transfer learning + learning to rankをどう解くか?

• targetとsourceで共通して持つ/持たない特徴量がある場合にどう解くか

Page 18: Topic Model Survey (wsdm2012)

•方針・オリジナリティ• 共通する次元は「同じパラメータ」を持つ分布から

• 異なる次元は異なるパラメータを持つ分布から

Pairwise Cross-Domain

fig1のイメージ

S固有次元 ST共通次元 ST共通次元 T固有次元

スコアS スコアT

選好順序

Page 19: Topic Model Survey (wsdm2012)

Pairwise Cross-Domain

•評価• データ• ソース => 普通の英語圏の検索

• ターゲット => スペイン語の普通の検索,英語圏のニュース検索,非英語圏のQAサイトの検索

• 指標: DCG

•感想• グラフィカルモデルが曼荼羅かと思ったが意味は分かった

Page 20: Topic Model Survey (wsdm2012)

Scalable Inference in Latent Variable Models

Amr Ahmed, Mohamed Aly, Joseph Gonzalez, Shravan Narayanamurthy and Alex Smola

(Spotlight on Mining)

Page 21: Topic Model Survey (wsdm2012)

Scalable Latent Variable

•背景• 潜在変数が入ったモデルマジ大事

•解くべき課題• 大規模,ストリーミングデータへの適用が困難• 理由: 潜在変数の推論方法に変数の依存関係や全体の状態が必要

Page 22: Topic Model Survey (wsdm2012)

Scalable Latent Variable

•方針• Webスケールのストリーミングデータに対してスケーラブ

ルかつ並列に解く

• Collapsed Gibbs Sampling

•オリジナリティ• グローバルなデータを各machineにコピーする

• コピーできないぐらい大きい時はmemcachedに入れる

• スケジューリングも頑張る

Page 23: Topic Model Survey (wsdm2012)

Scalable Latent Variable

•評価• 対数尤度,計算時間

•感想• トピックモデルの話というより並列処理の話

• 前提知識足りなくてピンとこなかった

• 早くてすごいと思った(小学生並みの感想)