Large-Scale Bandit Problems and KWIK Learning

Large-Scale Bandit Problems

and KWIK Learning [ICML 2013]

Jacob Abernethy(Univ of Pennsylvania),

Kareem Amin(Univ of Pennsylvania),

Moez Draief(Imperial College, London),

Michael Kearns(Univ of Pennsylvania)

斎藤淳哉

間違い等ありましたらご連絡ください

junya【あっと】fugaga.info

論文紹介

スライドの流れ

• MAB問題の既存研究を紹介

• 本論文のテーマのMAB問題を定義

• KWIK学習を紹介

• MAB問題をKWIK学習に帰着

1/21

古典的なMAB問題

MAB問題：Multi-Armed Bandit Problem,

多腕バンディット問題

古典的なMAB問題の趣旨スロットマシンが複数台あります。

スロットマシンは台によって、報酬が出やすかったり、出にくかったりします。

どうプレイすれば、たくさん儲けられるでしょうか？

Arm

（英語で、スロットマシン＝One-Armed Bandit） 2/21

シンプルで重要な問題なので、

既存研究がたくさんあります。

問題設定を微妙に変えて、

様々な理論的解析が行われています。

3/21

代表的な既存研究1（私が知っているというだけ）

Finite-time Analysis of the Multiarmed Bandit Problem

[Auer+ ML2002]

• UCB1（アルゴリズム） – 実験的にもうまく動くのでゲームAIの決定木探索によく用いられる

スロットマシン

スロットマシンを１回プレイすると、確率的に報酬が得られる．

naaaA ,,, 21

Aai ]1,0[iaR

【問題設定】

毎ステップ、当該スロットマシンの報酬の平均 +2 ln 総プレイ回数

当該スロットマシンのプレイ回数が

最大となるスロットマシンをプレイするアルゴリズム

【アルゴリズム】 UCB1

【定理】 UCB1を動かすとき、報酬の期待値が最大でないスロットマシンの

プレイ回数の期待値は高々𝑂 ln 総プレイ回数で、これが最適。

（i.i.d）

4/21

代表的な既存研究2-1（私が知っているというだけ）

PAC Bounds for Multi-armed Bandit and Markov Decision

Processes[Eyal+ COLT2002]

• 휀, 𝛿 -PAC algorithm for Multi-armed Bandit Problem

スロットマシン

スロットマシンを１回プレイすると、確率的にバイナリ報酬が得られる．

naaaA ,,, 21

Aai 1,0iaR

最も報酬の期待値の大きいスロットマシン：最適なスロットマシン

をみたすスロットマシン：最適なスロットマシン

*a

*aREaRE a

【定義】 -PAC algorithm for Multi-armed Bandit Problem

少なくとも，確率で最適なスロットマシンをひとつ

返すアルゴリズム．

,

1

（i.i.d）

【問題設定】

5/21

代表的な既存研究2-2（私が知っているというだけ）

【アルゴリズム】 Naive

1.すべてのスロットマシンを回プレイする．

2. をスロットマシンの報酬の平均とする．

3. を出力する．

,

Aa

nl

2log

42

Aaap̂

aAa

pa ˆmaxarg

【定理】 Naive

Naive は -PAC algorithm for Multi-armed Bandit

Problemである．また，このときのサンプル量はで

ある．

,

nnO log

2

,

,

たくさんプレイすれば

平均は収束する An

※論文では、サンプル量がもっと少ないアルゴリズムも提案しています。 6/21

代表的な既存研究3（私が知っているというだけ）

Multi-Armed Bandits in Metric Spaces

[Kleinberg+ STOC2008]

• 行動集合が、距離空間で、

報酬関数の族が、その上でリプシッツ連続な関数の族であるときの、MAB問題について解析

詳細略

7/21

ここから本論文のテーマ

8/21

本論文のテーマのMAB問題

【問題設定】

MAB問題とは 𝒳,𝒜,ℱ𝜃 である

状態空間 𝒳

行動空間 𝒜

報酬関数の族 ℱΘ = 𝑓𝜃: 𝒳 × 𝒜 ⟶ ℝ+|θ ∈ Θ

ステップ𝑡

環境

状態 𝑥𝑡 ∈ 𝒳

学習者

行動 𝑎𝑡 ∈ 𝒜

報酬 𝑓𝜃 𝑥𝑡, 𝑎𝑡 + 𝜂𝑡

報酬関数 𝑓𝜃 ∈ ℱ𝜃

確率変数 𝜂𝑡 s.t. 𝔼 𝜂𝑡 = 0

強化学習との違い：強化学習の扱う問題は、こういう状態でこういう行動をとったら、こういう状態へ行きやすい、

ということを考慮した問題だが、MAB問題は、これを考慮しない、より一般的な問題。

報酬関数をパラメトリックに状態を導入

9/21

MAB問題の種類

状態空間𝒳も行動空間𝒜も、とても大きい or 無限

• Large-scale MAB問題 ←本論文のテーマ

状態空間𝒳だけが、とても大きい or 無限

• Large-state MAB問題

（Contextual Banditsとも言う）

行動空間𝒜だけが、とても大きい or 無限大

• Large-action MAB問題

–代表的な既存研究3

10/21

本論文でやりたいこと

Large-scale MAB問題

Fixed-state optimization algorithm

Large-action MAB問題に対するアルゴリズム：

KWIK学習のアルゴリズム＋

帰着して効率的に

解けることを示す

11/21

効率的って具体的に何？

【定義】 Large-scale MAB問題 𝒳,𝒜,ℱ𝜃 に対する

アルゴリズムがリグレットなし

任意の報酬関数𝑓𝜃 ∈ ℱΘ、

任意の状態𝑥1, 𝑥2, … , 𝑥𝑇 ∈ 𝒳に対して、

アルゴリズムの取る行動𝑎1, 𝑎2, … , 𝑎𝑇 ∈ 𝒜が

ステップ𝑇 → ∞で𝑅 𝑇 /𝑇 → 0を満たす。

ただし、𝑅 𝑇 = 𝔼 max

𝑎∗𝑡∈𝒜

𝑓𝜃 𝑥𝑡, 𝑎∗𝑡 − 𝑓𝜃 𝑥𝑡, 𝑎𝑡𝑇

𝑡=1

損失の累積が、線形増加よりも小さい⇔リグレットなし

12/21

Large-action MAB問題に対するアルゴリズム

【定義】 Fixed-state optimization algorithm

固定状態𝑥 ∈ 𝒳, 휀 > 0に対して、

行動𝑎1, 𝑎2, … ∈ 𝒜を返す（有限回）。

報酬の予測𝑦1, 𝑦2, … ∈ ℝを受け取る。

（ただし答えは 𝑦𝑡 − 𝑓𝜃 𝑥, 𝑎𝑡 ≤ 휀を満たしていること。）

このとき、最後の行動𝑎 ∈ 𝒜は、

max𝑎∈𝒜

𝑓𝜃 𝑥, 𝑎 − 𝑓𝜃 𝑥, 𝑎 ≤ 휀を

満たすアルゴリズム。

FixedStateOpt

ブラックボックス状態𝑥 ∈ 𝒳 行動𝑎 ∈ 𝒜

s.t. max𝑎∈𝒜

𝑓𝜃 𝑥, 𝑎 − 𝑓𝜃 𝑥, 𝑎 ≤ 휀

13/21

Fixed-state optimization algorithmを使って

リグレットなしっぽいアルゴリズムを構築

ブラックボックスの内部処理は無視すると、

𝑅 𝑇

𝑇=

1

𝑇𝔼 max

𝑎∗𝑡∈𝒜

𝑓𝜃 𝑥𝑡, 𝑎∗𝑡 − 𝑓𝜃 𝑥𝑡, 𝑎𝑡

𝑇

𝑡=1

≤1

𝑇𝔼 휀

𝑇

𝑡=1

= 휀

したがって、휀を適切に選べば、

𝑅 𝑇

𝑇を任意に小さくすることができるっぽい。

FixedStateOpt

ブラックボックス状態𝑥 ∈ 𝒳 行動𝑎 ∈ 𝒜

s.t. max𝑎∈𝒜

𝑓𝜃 𝑥, 𝑎 − 𝑓𝜃 𝑥, 𝑎 ≤ 휀

「○○っぽい」を外すために、KWIK学習を使う！ 14/21

KWIK学習（Knows What It Knows） [Li+ 2008]

【問題設定】

KWIK学習の問題とは 𝒵,𝒴, ℱ である

入力空間 𝒵

出力空間 𝒴 ⊂ ℝ

関数の族 ℱ = 𝑓:𝒵 → 𝒴

ステップ𝑡

環境

入力 𝑧𝑡 ∈ 𝒵

学習者

𝑓 𝑧𝑡 の予測 𝑦𝑡 ∈ 𝒴 ∪ ⊥

学習者は、

• 𝑓 𝑧𝑡 の予測ができるならその値𝑦𝑡 ∈ 𝒴を返す。

• ただし 𝑦𝑡 − 𝑓 𝑧𝑡 > 𝜖なら失敗で、学習は終了。

• わからないなら𝑦𝑡 =⊥を返す。

• 𝑓 𝑧𝑡 + 𝜂𝑡を教えてもらえる。

𝑓 𝑧𝑡 の答え 𝑓 𝑧𝑡 + 𝜂𝑡

確率変数 𝜂𝑡 s.t. 𝔼 𝜂𝑡 = 0

15/21

Large-scale MAB問題をKWIK+FixedStateOptに帰着

≪Algorithm1≫ 概要

FixedStateOpt

ブラックボックス状態𝑥𝑡 ∈ 𝒳 行動𝑎𝑡 ∈ 𝒜

s.t. max𝑎∈𝒜

𝑓𝜃 𝑥, 𝑎 − 𝑓𝜃 𝑥, 𝑎𝑡 ≤ 휀

入力𝑧𝑖𝑡 = 𝑥𝑖

𝑡, 𝑎𝑖𝑡 報酬の予測𝑦𝑖

𝑡

KWIK学習

ブラックボックス

環境

報酬がわからないときは

教えてもらう

ステップ𝑡 内部ステップ𝑖

内部で学習して

良い行動𝑎𝑡を

返せるようにする

16/21


≪Algorithm1≫ 詳細

17/21


≪Algorithm1≫ 【定理】リグレットなしっぽい

【定理】

関数の族ℱΘ、

ℱΘに対するKWIK学習アルゴリズム、

Fixed-state optimization algorithm、

適切に選んだ휀と𝛿、

十分に大きい𝑇に対して、

≪Algorithm1≫の平均リグレット𝑅 𝑇 /𝑇は、

任意に小さくできる。

18/21


≪Algorithm1≫ 【系】リグレットなし

【系】

関数の族ℱΘ、

ℱΘに対するKWIK学習アルゴリズム、

Fixed-state optimization algorithmに対して、

リグレットなしのアルゴリズムが存在する。

【証明】前スライドの휀と𝛿をうまく操作する上位のアルゴリズムを

つくることで証明する。詳細略。

19/21

まとめ

• MAB問題の既存研究を紹介

• 本論文では、状態・行動空間が大きいMAB問題を扱った

• KWIK学習アルゴリズムと、行動空間だけが大きいMAB問題のアルゴリズムを使って、効率的に解けることを示した

20/21

Technology

Large-Scale Bandit Problems and KWIK Learning