21
Large-Scale Bandit Problems and KWIK Learning [ICML 2013] Jacob Abernethy(Univ of Pennsylvania), Kareem Amin(Univ of Pennsylvania), Moez Draief(Imperial College, London), Michael Kearns(Univ of Pennsylvania) 斎藤 淳哉 間違い等ありましたらご連絡ください junya【あっと】fugaga.info 論文紹介

Large-Scale Bandit Problems and KWIK Learning

Embed Size (px)

DESCRIPTION

論文紹介です。多腕バンディット問題の既存研究も紹介しています。

Citation preview

Page 1: Large-Scale Bandit Problems and KWIK Learning

Large-Scale Bandit Problems

and KWIK Learning [ICML 2013]

Jacob Abernethy(Univ of Pennsylvania),

Kareem Amin(Univ of Pennsylvania),

Moez Draief(Imperial College, London),

Michael Kearns(Univ of Pennsylvania)

斎藤 淳哉

間違い等ありましたらご連絡ください

junya【あっと】fugaga.info

論文紹介

Page 2: Large-Scale Bandit Problems and KWIK Learning

スライドの流れ

• MAB問題の既存研究を紹介

• 本論文のテーマのMAB問題を定義

• KWIK学習を紹介

• MAB問題をKWIK学習に帰着

1/21

Page 3: Large-Scale Bandit Problems and KWIK Learning

古典的なMAB問題

MAB問題:Multi-Armed Bandit Problem,

多腕バンディット問題

古典的なMAB問題の趣旨 スロットマシンが複数台あります。

スロットマシンは台によって、報酬が出やすかったり、出にくかったりします。

どうプレイすれば、たくさん儲けられるでしょうか?

Arm

(英語で、スロットマシン=One-Armed Bandit) 2/21

Page 4: Large-Scale Bandit Problems and KWIK Learning

シンプルで重要な問題なので、

既存研究がたくさんあります。

問題設定を微妙に変えて、

様々な理論的解析が行われています。

3/21

Page 5: Large-Scale Bandit Problems and KWIK Learning

代表的な既存研究1(私が知っているというだけ)

Finite-time Analysis of the Multiarmed Bandit Problem

[Auer+ ML2002]

• UCB1(アルゴリズム) – 実験的にもうまく動くのでゲームAIの決定木探索によく用いられる

スロットマシン

スロットマシン を1回プレイすると、確率的に報酬 が得られる.

naaaA ,,, 21

Aai ]1,0[iaR

【問題設定】

毎ステップ、 当該スロットマシンの報酬の平均 +2 ln 総プレイ回数

当該スロットマシンのプレイ回数 が

最大となるスロットマシンをプレイするアルゴリズム

【アルゴリズム】 UCB1

【定理】 UCB1を動かすとき、報酬の期待値が最大でないスロットマシンの

プレイ回数の期待値は高々𝑂 ln 総プレイ回数 で、これが最適。

(i.i.d)

4/21

Page 6: Large-Scale Bandit Problems and KWIK Learning

代表的な既存研究2-1(私が知っているというだけ)

PAC Bounds for Multi-armed Bandit and Markov Decision

Processes[Eyal+ COLT2002]

• 휀, 𝛿 -PAC algorithm for Multi-armed Bandit Problem

スロットマシン

スロットマシン を1回プレイすると、確率的にバイナリ報酬 が得られる.

naaaA ,,, 21

Aai 1,0iaR

最も報酬の期待値の大きいスロットマシン :最適なスロットマシン

をみたすスロットマシン : 最適なスロットマシン

*a

*aREaRE a

【定義】 -PAC algorithm for Multi-armed Bandit Problem

少なくとも,確率 で 最適なスロットマシンをひとつ

返すアルゴリズム.

,

1

(i.i.d)

【問題設定】

5/21

Page 7: Large-Scale Bandit Problems and KWIK Learning

代表的な既存研究2-2(私が知っているというだけ)

【アルゴリズム】 Naive

1.すべてのスロットマシン を 回プレイする.

2. をスロットマシン の報酬の平均とする.

3. を出力する.

,

Aa

nl

2log

42

Aaap̂

aAa

pa ˆmaxarg

【定理】 Naive

Naive は -PAC algorithm for Multi-armed Bandit

Problemである.また,このときのサンプル量は で

ある.

,

nnO log

2

,

,

たくさんプレイすれば

平均は収束する An

※論文では、サンプル量がもっと少ないアルゴリズムも提案しています。 6/21

Page 8: Large-Scale Bandit Problems and KWIK Learning

代表的な既存研究3(私が知っているというだけ)

Multi-Armed Bandits in Metric Spaces

[Kleinberg+ STOC2008]

• 行動集合が、距離空間で、

報酬関数の族が、その上でリプシッツ連続な関数の族であるときの、MAB問題について解析

詳細略

7/21

Page 9: Large-Scale Bandit Problems and KWIK Learning

ここから本論文のテーマ

8/21

Page 10: Large-Scale Bandit Problems and KWIK Learning

本論文のテーマのMAB問題

【問題設定】

MAB問題とは 𝒳,𝒜,ℱ𝜃 である

状態空間 𝒳

行動空間 𝒜

報酬関数の族 ℱΘ = 𝑓𝜃: 𝒳 × 𝒜 ⟶ ℝ+|θ ∈ Θ

ステップ𝑡

環境

状態 𝑥𝑡 ∈ 𝒳

学習者

行動 𝑎𝑡 ∈ 𝒜

報酬 𝑓𝜃 𝑥𝑡, 𝑎𝑡 + 𝜂𝑡

報酬関数 𝑓𝜃 ∈ ℱ𝜃

確率変数 𝜂𝑡 s.t. 𝔼 𝜂𝑡 = 0

強化学習との違い:強化学習の扱う問題は、こういう状態でこういう行動をとったら、こういう状態へ行きやすい、

ということを考慮した問題だが、MAB問題は、これを考慮しない、より一般的な問題。

報酬関数をパラメトリックに 状態を導入

9/21

Page 11: Large-Scale Bandit Problems and KWIK Learning

MAB問題の種類

状態空間𝒳も行動空間𝒜も、とても大きい or 無限

• Large-scale MAB問題 ←本論文のテーマ

状態空間𝒳だけが、とても大きい or 無限

• Large-state MAB問題

(Contextual Banditsとも言う)

行動空間𝒜だけが、とても大きい or 無限大

• Large-action MAB問題

–代表的な既存研究3

10/21

Page 12: Large-Scale Bandit Problems and KWIK Learning

本論文でやりたいこと

Large-scale MAB問題

Fixed-state optimization algorithm

Large-action MAB問題に対するアルゴリズム:

KWIK学習のアルゴリズム +

帰着して効率的に

解けることを示す

11/21

Page 13: Large-Scale Bandit Problems and KWIK Learning

効率的って具体的に何?

【定義】 Large-scale MAB問題 𝒳,𝒜,ℱ𝜃 に対する

アルゴリズムがリグレットなし

任意の報酬関数𝑓𝜃 ∈ ℱΘ、

任意の状態𝑥1, 𝑥2, … , 𝑥𝑇 ∈ 𝒳に対して、

アルゴリズムの取る行動𝑎1, 𝑎2, … , 𝑎𝑇 ∈ 𝒜が

ステップ𝑇 → ∞で𝑅 𝑇 /𝑇 → 0を満たす。

ただし、𝑅 𝑇 = 𝔼 max

𝑎∗𝑡∈𝒜

𝑓𝜃 𝑥𝑡, 𝑎∗𝑡 − 𝑓𝜃 𝑥𝑡, 𝑎𝑡𝑇

𝑡=1

損失の累積が、線形増加よりも小さい⇔リグレットなし

12/21

Page 14: Large-Scale Bandit Problems and KWIK Learning

Large-action MAB問題に対するアルゴリズム

【定義】 Fixed-state optimization algorithm

固定状態𝑥 ∈ 𝒳, 휀 > 0に対して、

行動𝑎1, 𝑎2, … ∈ 𝒜を返す(有限回)。

報酬の予測𝑦1, 𝑦2, … ∈ ℝを受け取る。

(ただし答えは 𝑦𝑡 − 𝑓𝜃 𝑥, 𝑎𝑡 ≤ 휀を満たしていること。)

このとき、最後の行動𝑎 ∈ 𝒜は、

max𝑎∈𝒜

𝑓𝜃 𝑥, 𝑎 − 𝑓𝜃 𝑥, 𝑎 ≤ 휀を

満たすアルゴリズム。

FixedStateOpt

ブラックボックス 状態𝑥 ∈ 𝒳 行動𝑎 ∈ 𝒜

s.t. max𝑎∈𝒜

𝑓𝜃 𝑥, 𝑎 − 𝑓𝜃 𝑥, 𝑎 ≤ 휀

13/21

Page 15: Large-Scale Bandit Problems and KWIK Learning

Fixed-state optimization algorithmを使って

リグレットなしっぽいアルゴリズムを構築

ブラックボックスの内部処理は無視すると、

𝑅 𝑇

𝑇=

1

𝑇𝔼 max

𝑎∗𝑡∈𝒜

𝑓𝜃 𝑥𝑡, 𝑎∗𝑡 − 𝑓𝜃 𝑥𝑡, 𝑎𝑡

𝑇

𝑡=1

≤1

𝑇𝔼 휀

𝑇

𝑡=1

= 휀

したがって、휀を適切に選べば、

𝑅 𝑇

𝑇を任意に小さくすることができるっぽい。

FixedStateOpt

ブラックボックス 状態𝑥 ∈ 𝒳 行動𝑎 ∈ 𝒜

s.t. max𝑎∈𝒜

𝑓𝜃 𝑥, 𝑎 − 𝑓𝜃 𝑥, 𝑎 ≤ 휀

「○○っぽい」を外すために、KWIK学習を使う! 14/21

Page 16: Large-Scale Bandit Problems and KWIK Learning

KWIK学習(Knows What It Knows) [Li+ 2008]

【問題設定】

KWIK学習の問題とは 𝒵,𝒴, ℱ である

入力空間 𝒵

出力空間 𝒴 ⊂ ℝ

関数の族 ℱ = 𝑓:𝒵 → 𝒴

ステップ𝑡

環境

入力 𝑧𝑡 ∈ 𝒵

学習者

𝑓 𝑧𝑡 の予測 𝑦𝑡 ∈ 𝒴 ∪ ⊥

学習者は、

• 𝑓 𝑧𝑡 の予測ができるならその値𝑦𝑡 ∈ 𝒴を返す。

• ただし 𝑦𝑡 − 𝑓 𝑧𝑡 > 𝜖なら失敗で、学習は終了。

• わからないなら𝑦𝑡 =⊥を返す。

• 𝑓 𝑧𝑡 + 𝜂𝑡を教えてもらえる。

𝑓 𝑧𝑡 の答え 𝑓 𝑧𝑡 + 𝜂𝑡

確率変数 𝜂𝑡 s.t. 𝔼 𝜂𝑡 = 0

15/21

Page 17: Large-Scale Bandit Problems and KWIK Learning

Large-scale MAB問題をKWIK+FixedStateOptに帰着

≪Algorithm1≫ 概要

FixedStateOpt

ブラックボックス 状態𝑥𝑡 ∈ 𝒳 行動𝑎𝑡 ∈ 𝒜

s.t. max𝑎∈𝒜

𝑓𝜃 𝑥, 𝑎 − 𝑓𝜃 𝑥, 𝑎𝑡 ≤ 휀

入力𝑧𝑖𝑡 = 𝑥𝑖

𝑡, 𝑎𝑖𝑡 報酬の予測𝑦𝑖

𝑡

KWIK学習

ブラックボックス

環境

報酬がわからないときは

教えてもらう

ステップ𝑡 内部ステップ𝑖

内部で学習して

良い行動𝑎𝑡を

返せるようにする

16/21

Page 18: Large-Scale Bandit Problems and KWIK Learning

Large-scale MAB問題をKWIK+FixedStateOptに帰着

≪Algorithm1≫ 詳細

17/21

Page 19: Large-Scale Bandit Problems and KWIK Learning

Large-scale MAB問題をKWIK+FixedStateOptに帰着

≪Algorithm1≫ 【定理】リグレットなしっぽい

【定理】

関数の族ℱΘ、

ℱΘに対するKWIK学習アルゴリズム、

Fixed-state optimization algorithm、

適切に選んだ휀と𝛿、

十分に大きい𝑇に対して、

≪Algorithm1≫の平均リグレット𝑅 𝑇 /𝑇は、

任意に小さくできる。

18/21

Page 20: Large-Scale Bandit Problems and KWIK Learning

Large-scale MAB問題をKWIK+FixedStateOptに帰着

≪Algorithm1≫ 【系】リグレットなし

【系】

関数の族ℱΘ、

ℱΘに対するKWIK学習アルゴリズム、

Fixed-state optimization algorithmに対して、

リグレットなしのアルゴリズムが存在する。

【証明】 前スライドの휀と𝛿をうまく操作する上位のアルゴリズムを

つくることで証明する。詳細略。

19/21

Page 21: Large-Scale Bandit Problems and KWIK Learning

まとめ

• MAB問題の既存研究を紹介

• 本論文では、状態・行動空間が大きいMAB問題を扱った

• KWIK学習アルゴリズムと、行動空間だけが大きいMAB問題のアルゴリズムを使って、効率的に解けることを示した

20/21