24
坪坂正志 mail : m.tsubosaka(at)gmail(dot)com

NIPS 2012 読む会

Embed Size (px)

DESCRIPTION

Linear submodular bandits and their application to diversified retrieval

Citation preview

Page 1: NIPS 2012 読む会

坪坂正志

mail : m.tsubosaka(at)gmail(dot)com

Page 2: NIPS 2012 読む会

紹介論文

Linear submodular bandits and their

application to diversified retrieval

Yisong Yue, Carlos Guestrin (Carnegie

Mellon University)

Page 3: NIPS 2012 読む会

問題

ニュース記事のレコメンドなどでユーザに対して複数の記事を提示したい

提示結果はパーソナライズしたい

Page 4: NIPS 2012 読む会

Challenge

Diversification

なるべく同じ記事が並ばないようにしたい

Feature-based exploration

ユーザに記事を提示して、その結果クリックされる/されないというフィードバックを受け取り、そのユーザがスポーツに興味はあるけど政治には興味がないなどの嗜好を効率的に学習したい

Page 5: NIPS 2012 読む会

Diversification

ニュース記事が𝑑個のトピック確率によって表されるとする 例えば記事Aはスポーツ0.5, 芸能 0.5

記事Bは政治0.8, 経済0.2など

Probabilistic coverage

トピック𝑖に関するcoverageを

𝐹𝑖 𝐴 = 1 − (1 − 𝑃 𝑖 𝑎 )𝑎∈𝐴 と定義する

たとえば提示した記事リストの中に𝑃 𝑖 𝑎 = 1となるものが入っていれば、他の記事をどれだけ追加したかに関わらず𝐹𝑖 𝑎 = 1

Page 6: NIPS 2012 読む会

評価関数

記事の集合𝐴に対して、ユーザに関しての評価関数を

𝐹 𝐴 𝑤 = 𝑤𝑇 𝐹1 𝐴 ,… , 𝐹𝑑 𝐴 (𝑤 ≥ 0)

とする

ここで𝑤はユーザがどのトピックを好むかを表すベクトルである

Page 7: NIPS 2012 読む会

Local Linearity

記事集合𝐴に対して、記事𝑎を追加した場合の利得は𝑤𝑇Δ(𝑎|𝐴)で表される

Δ 𝑎 𝐴 =

< 𝐹1 𝐴 ∪ 𝑎 − 𝐹1 𝐴 ,… , 𝐹𝑑 𝐴 ∪ 𝑎 − 𝐹𝑑 𝐴 >

ユーザの興味に合致したトピックでもすでに記事集合に含まれてるものの利得は小さくなる

Page 8: NIPS 2012 読む会

Optimization

argmax𝐴:𝐴≤ 𝐿 𝐹(𝐴|𝑤)を求める

ここで𝐹にsubmodular性があることを使うと

𝑤𝑇Δ(𝑎|𝐴)が最大となるような記事𝑎を貪欲

に追加することで最適解の 1 −1

𝑒≃ 0.63倍

の解が達成できることが保証されている

Page 9: NIPS 2012 読む会

Submodularとは

𝐹 𝐴 ∪ 𝑎 ≥ 𝐹 𝐴 かつ𝐴 ⊂ 𝐵のとき

𝐹 𝐴 ∪ 𝑎 − 𝐹 𝐴 ≥ 𝐹 𝐵 ∪ 𝑎 − 𝐹(𝐵)

が成立するとき𝐹はSubmodular関数であると言う

Page 10: NIPS 2012 読む会

Linear Submodular Bandits Problem

時刻𝑡 = 1,… , 𝑇まで以下の処理を行う

アルゴリズムは記事の集合𝐴𝑡 = (𝑎𝑡1, … , 𝑎𝑡

𝐿)を選択する

ユーザは記事集合に関して報酬(クリックするor 無視する)𝑟𝑡(𝐴𝑡)を与える

Page 11: NIPS 2012 読む会

報酬モデル

ユーザは記事を上から下に見ていく

ユーザは𝑙番目の記事に関して、

確率 w∗ TΔ(𝑎𝑙|𝐴1:𝑙−1)に従ってクリックする

報酬は和の形𝑟𝑡 𝐴 = 𝑟𝑡𝑙(𝐴)𝐿

𝑙=1 で表されるとする

このとき期待値は

𝐸 𝑟𝑡𝑙 𝐴 = 𝑤∗ 𝑇Δ(𝑎𝑙|𝐴1:𝑙−1)

Page 12: NIPS 2012 読む会

Regret

最適な集合の選択をした場合との実際の報酬との差分

𝑅𝑒𝑔 𝑇 = 1 −1

𝑒 𝐸 𝑟𝑡 𝐴𝑡

∗𝑡 − 𝑟𝑡(𝐴𝑡)𝑡

= 1 −1

𝑒𝑂𝑃𝑇 − 𝑟𝑡(𝐴𝑡)𝑡

ここで最適な𝑤∗が求まっても、集合の選択

を貪欲に行うと最適解の(1 −1

𝑒)倍までしか

達成できないので最適解にかける

Page 13: NIPS 2012 読む会

Algorithm

Page 14: NIPS 2012 読む会

Algorithm

データ対(Δ𝜏𝑙 , 𝑟𝜏

𝑙)を使って線形回帰により重みベクトル𝑤𝑡を計算する

Page 15: NIPS 2012 読む会

Algorithm

𝑙番目の記事に関する期待利得と信頼区間を計算する

信頼区間の上限の部分まで考えて記事を選択する

Page 16: NIPS 2012 読む会

Confidence interval

記事の利得の期待値だけではなく、信頼区間の大きさも利用して記事を選択する

データが少ないものについては信頼区間が大きくなり、値が大きくなる (explore : 探索)

データが多いものについては期待値をそのまま利用する

記事1

記事2

記事1の方が期待値は低いが信頼区間の上限は大きいので記事1を選択

Page 17: NIPS 2012 読む会

Theory

logの項を無視するとRegretは𝑂(𝑑 𝑇𝐿)で抑えられる

Page 18: NIPS 2012 読む会

他のBandit algorithmとの関係

特徴量を使わない場合 UCBなど

固定された記事(数個程度)において最もクリックされやすいものを探索する

cf. Finite-time analysis of the multiarmed bandit problem, Machine Learning 2002

特徴量を使うが1つだけ選択する場合 LinUCB

ユーザや記事の特徴量を用いて記事を選択する(新規記事に対しても特徴量を使ってCTRを予測できる)

今回の論文では特徴量はトピックにあたる

cf. A contextual-bandit approach to personalized news article recommendation, WWW 2010

Page 19: NIPS 2012 読む会

Experiment (Simulation)

正解の𝑤∗が分かっているという状況でシミュレーションを行う

Synthetic data

𝑑 = 25, 𝑤∗はランダムに作成

Blog dataset

𝑑 = 100, 𝑤∗は事前のユーザスタディにより決定

Page 20: NIPS 2012 読む会

Competing method

Multiplicative Weighting

explorationを行わない手法

RankLinUCB

𝐿個の独立なLinUCBを利用する

ε-Greedy

確率εでランダムな記事を選択、そうでない場合最もCTRの高い記事を選ぶ

Page 21: NIPS 2012 読む会

Result (Simulation)

Page 22: NIPS 2012 読む会

ユーザによる評価

2つのアルゴリズムの出力をInterleavingしてどちらのアルゴリズムが好ましいか、ユーザの評価から確認した

static baselineはパーソナライズを行わないものになる

Page 23: NIPS 2012 読む会

Interleaving algorithm

Page 24: NIPS 2012 読む会

まとめ

ユーザのフィードバックを受け取りながらDiversified retrievalを行うための一般的なフレームワークを提案した

提案したアルゴリズムであるLSBGreedyがユーザアンケートの結果ニュース記事のレコメンドにおいては最も良い結果となった