NIPS 2012 読む会

坪坂正志

mail : m.tsubosaka(at)gmail(dot)com

紹介論文

Linear submodular bandits and their

application to diversified retrieval

Yisong Yue, Carlos Guestrin (Carnegie

Mellon University)

問題

ニュース記事のレコメンドなどでユーザに対して複数の記事を提示したい

提示結果はパーソナライズしたい

Challenge

Diversification

なるべく同じ記事が並ばないようにしたい

Feature-based exploration

ユーザに記事を提示して、その結果クリックされる/されないというフィードバックを受け取り、そのユーザがスポーツに興味はあるけど政治には興味がないなどの嗜好を効率的に学習したい

Diversification

ニュース記事が𝑑個のトピック確率によって表されるとする例えば記事Aはスポーツ0.5, 芸能 0.5

記事Bは政治0.8, 経済0.2など

Probabilistic coverage

トピック𝑖に関するcoverageを

𝐹𝑖 𝐴 = 1 − (1 − 𝑃 𝑖 𝑎 )𝑎∈𝐴 と定義する

たとえば提示した記事リストの中に𝑃 𝑖 𝑎 = 1となるものが入っていれば、他の記事をどれだけ追加したかに関わらず𝐹𝑖 𝑎 = 1

評価関数

記事の集合𝐴に対して、ユーザに関しての評価関数を

𝐹 𝐴 𝑤 = 𝑤𝑇 𝐹1 𝐴 ,… , 𝐹𝑑 𝐴 (𝑤 ≥ 0)

とする

ここで𝑤はユーザがどのトピックを好むかを表すベクトルである

Local Linearity

記事集合𝐴に対して、記事𝑎を追加した場合の利得は𝑤𝑇Δ(𝑎|𝐴)で表される

Δ 𝑎 𝐴 =

< 𝐹1 𝐴 ∪ 𝑎 − 𝐹1 𝐴 ,… , 𝐹𝑑 𝐴 ∪ 𝑎 − 𝐹𝑑 𝐴 >

ユーザの興味に合致したトピックでもすでに記事集合に含まれてるものの利得は小さくなる

Optimization

argmax𝐴:𝐴≤ 𝐿 𝐹(𝐴|𝑤)を求める

ここで𝐹にsubmodular性があることを使うと

𝑤𝑇Δ(𝑎|𝐴)が最大となるような記事𝑎を貪欲

に追加することで最適解の 1 −1

𝑒≃ 0.63倍

の解が達成できることが保証されている

Submodularとは

𝐹 𝐴 ∪ 𝑎 ≥ 𝐹 𝐴 かつ𝐴 ⊂ 𝐵のとき

𝐹 𝐴 ∪ 𝑎 − 𝐹 𝐴 ≥ 𝐹 𝐵 ∪ 𝑎 − 𝐹(𝐵)

が成立するとき𝐹はSubmodular関数であると言う

Linear Submodular Bandits Problem

時刻𝑡 = 1,… , 𝑇まで以下の処理を行う

アルゴリズムは記事の集合𝐴𝑡 = (𝑎𝑡1, … , 𝑎𝑡

𝐿)を選択する

ユーザは記事集合に関して報酬(クリックするor 無視する)𝑟𝑡(𝐴𝑡)を与える

報酬モデル

ユーザは記事を上から下に見ていく

ユーザは𝑙番目の記事に関して、

確率 w∗ TΔ(𝑎𝑙|𝐴1:𝑙−1)に従ってクリックする

報酬は和の形𝑟𝑡 𝐴 = 𝑟𝑡𝑙(𝐴)𝐿

𝑙=1 で表されるとする

このとき期待値は

𝐸 𝑟𝑡𝑙 𝐴 = 𝑤∗ 𝑇Δ(𝑎𝑙|𝐴1:𝑙−1)

Regret

最適な集合の選択をした場合との実際の報酬との差分

𝑅𝑒𝑔 𝑇 = 1 −1

𝑒 𝐸 𝑟𝑡 𝐴𝑡

∗𝑡 − 𝑟𝑡(𝐴𝑡)𝑡

= 1 −1

𝑒𝑂𝑃𝑇 − 𝑟𝑡(𝐴𝑡)𝑡

ここで最適な𝑤∗が求まっても、集合の選択

を貪欲に行うと最適解の(1 −1

𝑒)倍までしか

達成できないので最適解にかける

Algorithm

Algorithm

データ対(Δ𝜏𝑙 , 𝑟𝜏

𝑙)を使って線形回帰により重みベクトル𝑤𝑡を計算する

Algorithm

𝑙番目の記事に関する期待利得と信頼区間を計算する

信頼区間の上限の部分まで考えて記事を選択する

Confidence interval

記事の利得の期待値だけではなく、信頼区間の大きさも利用して記事を選択する

データが少ないものについては信頼区間が大きくなり、値が大きくなる (explore : 探索)

データが多いものについては期待値をそのまま利用する

記事1

記事2

記事1の方が期待値は低いが信頼区間の上限は大きいので記事1を選択

Theory

logの項を無視するとRegretは𝑂(𝑑 𝑇𝐿)で抑えられる

他のBandit algorithmとの関係

特徴量を使わない場合 UCBなど

固定された記事(数個程度)において最もクリックされやすいものを探索する

cf. Finite-time analysis of the multiarmed bandit problem, Machine Learning 2002

特徴量を使うが１つだけ選択する場合 LinUCB

ユーザや記事の特徴量を用いて記事を選択する(新規記事に対しても特徴量を使ってCTRを予測できる)

今回の論文では特徴量はトピックにあたる

cf. A contextual-bandit approach to personalized news article recommendation, WWW 2010

Experiment (Simulation)

正解の𝑤∗が分かっているという状況でシミュレーションを行う

Synthetic data

𝑑 = 25, 𝑤∗はランダムに作成

Blog dataset

𝑑 = 100, 𝑤∗は事前のユーザスタディにより決定

Competing method

Multiplicative Weighting

explorationを行わない手法

RankLinUCB

𝐿個の独立なLinUCBを利用する

ε-Greedy

確率εでランダムな記事を選択、そうでない場合最もCTRの高い記事を選ぶ

Result (Simulation)

ユーザによる評価

2つのアルゴリズムの出力をInterleavingしてどちらのアルゴリズムが好ましいか、ユーザの評価から確認した

static baselineはパーソナライズを行わないものになる

Interleaving algorithm

まとめ

ユーザのフィードバックを受け取りながらDiversified retrievalを行うための一般的なフレームワークを提案した

提案したアルゴリズムであるLSBGreedyがユーザアンケートの結果ニュース記事のレコメンドにおいては最も良い結果となった

Documents

NIPS 2012 読む会