Upload
junya-saito
View
437
Download
1
Tags:
Embed Size (px)
DESCRIPTION
論文紹介です。多腕バンディット問題の既存研究も紹介しています。
Citation preview
Large-Scale Bandit Problems
and KWIK Learning [ICML 2013]
Jacob Abernethy(Univ of Pennsylvania),
Kareem Amin(Univ of Pennsylvania),
Moez Draief(Imperial College, London),
Michael Kearns(Univ of Pennsylvania)
斎藤 淳哉
間違い等ありましたらご連絡ください
junya【あっと】fugaga.info
論文紹介
スライドの流れ
• MAB問題の既存研究を紹介
• 本論文のテーマのMAB問題を定義
• KWIK学習を紹介
• MAB問題をKWIK学習に帰着
1/21
古典的なMAB問題
MAB問題:Multi-Armed Bandit Problem,
多腕バンディット問題
古典的なMAB問題の趣旨 スロットマシンが複数台あります。
スロットマシンは台によって、報酬が出やすかったり、出にくかったりします。
どうプレイすれば、たくさん儲けられるでしょうか?
Arm
(英語で、スロットマシン=One-Armed Bandit) 2/21
シンプルで重要な問題なので、
既存研究がたくさんあります。
問題設定を微妙に変えて、
様々な理論的解析が行われています。
3/21
代表的な既存研究1(私が知っているというだけ)
Finite-time Analysis of the Multiarmed Bandit Problem
[Auer+ ML2002]
• UCB1(アルゴリズム) – 実験的にもうまく動くのでゲームAIの決定木探索によく用いられる
スロットマシン
スロットマシン を1回プレイすると、確率的に報酬 が得られる.
naaaA ,,, 21
Aai ]1,0[iaR
【問題設定】
毎ステップ、 当該スロットマシンの報酬の平均 +2 ln 総プレイ回数
当該スロットマシンのプレイ回数 が
最大となるスロットマシンをプレイするアルゴリズム
【アルゴリズム】 UCB1
【定理】 UCB1を動かすとき、報酬の期待値が最大でないスロットマシンの
プレイ回数の期待値は高々𝑂 ln 総プレイ回数 で、これが最適。
(i.i.d)
4/21
代表的な既存研究2-1(私が知っているというだけ)
PAC Bounds for Multi-armed Bandit and Markov Decision
Processes[Eyal+ COLT2002]
• 휀, 𝛿 -PAC algorithm for Multi-armed Bandit Problem
スロットマシン
スロットマシン を1回プレイすると、確率的にバイナリ報酬 が得られる.
naaaA ,,, 21
Aai 1,0iaR
最も報酬の期待値の大きいスロットマシン :最適なスロットマシン
をみたすスロットマシン : 最適なスロットマシン
*a
*aREaRE a
【定義】 -PAC algorithm for Multi-armed Bandit Problem
少なくとも,確率 で 最適なスロットマシンをひとつ
返すアルゴリズム.
,
1
(i.i.d)
【問題設定】
5/21
代表的な既存研究2-2(私が知っているというだけ)
【アルゴリズム】 Naive
1.すべてのスロットマシン を 回プレイする.
2. をスロットマシン の報酬の平均とする.
3. を出力する.
,
Aa
nl
2log
42
Aaap̂
aAa
pa ˆmaxarg
【定理】 Naive
Naive は -PAC algorithm for Multi-armed Bandit
Problemである.また,このときのサンプル量は で
ある.
,
nnO log
2
,
,
たくさんプレイすれば
平均は収束する An
※論文では、サンプル量がもっと少ないアルゴリズムも提案しています。 6/21
代表的な既存研究3(私が知っているというだけ)
Multi-Armed Bandits in Metric Spaces
[Kleinberg+ STOC2008]
• 行動集合が、距離空間で、
報酬関数の族が、その上でリプシッツ連続な関数の族であるときの、MAB問題について解析
詳細略
7/21
ここから本論文のテーマ
8/21
本論文のテーマのMAB問題
【問題設定】
MAB問題とは 𝒳,𝒜,ℱ𝜃 である
状態空間 𝒳
行動空間 𝒜
報酬関数の族 ℱΘ = 𝑓𝜃: 𝒳 × 𝒜 ⟶ ℝ+|θ ∈ Θ
ステップ𝑡
環境
状態 𝑥𝑡 ∈ 𝒳
学習者
行動 𝑎𝑡 ∈ 𝒜
報酬 𝑓𝜃 𝑥𝑡, 𝑎𝑡 + 𝜂𝑡
報酬関数 𝑓𝜃 ∈ ℱ𝜃
確率変数 𝜂𝑡 s.t. 𝔼 𝜂𝑡 = 0
強化学習との違い:強化学習の扱う問題は、こういう状態でこういう行動をとったら、こういう状態へ行きやすい、
ということを考慮した問題だが、MAB問題は、これを考慮しない、より一般的な問題。
報酬関数をパラメトリックに 状態を導入
9/21
MAB問題の種類
状態空間𝒳も行動空間𝒜も、とても大きい or 無限
• Large-scale MAB問題 ←本論文のテーマ
状態空間𝒳だけが、とても大きい or 無限
• Large-state MAB問題
(Contextual Banditsとも言う)
行動空間𝒜だけが、とても大きい or 無限大
• Large-action MAB問題
–代表的な既存研究3
10/21
本論文でやりたいこと
Large-scale MAB問題
Fixed-state optimization algorithm
Large-action MAB問題に対するアルゴリズム:
KWIK学習のアルゴリズム +
帰着して効率的に
解けることを示す
11/21
効率的って具体的に何?
【定義】 Large-scale MAB問題 𝒳,𝒜,ℱ𝜃 に対する
アルゴリズムがリグレットなし
任意の報酬関数𝑓𝜃 ∈ ℱΘ、
任意の状態𝑥1, 𝑥2, … , 𝑥𝑇 ∈ 𝒳に対して、
アルゴリズムの取る行動𝑎1, 𝑎2, … , 𝑎𝑇 ∈ 𝒜が
ステップ𝑇 → ∞で𝑅 𝑇 /𝑇 → 0を満たす。
ただし、𝑅 𝑇 = 𝔼 max
𝑎∗𝑡∈𝒜
𝑓𝜃 𝑥𝑡, 𝑎∗𝑡 − 𝑓𝜃 𝑥𝑡, 𝑎𝑡𝑇
𝑡=1
損失の累積が、線形増加よりも小さい⇔リグレットなし
12/21
Large-action MAB問題に対するアルゴリズム
【定義】 Fixed-state optimization algorithm
固定状態𝑥 ∈ 𝒳, 휀 > 0に対して、
行動𝑎1, 𝑎2, … ∈ 𝒜を返す(有限回)。
報酬の予測𝑦1, 𝑦2, … ∈ ℝを受け取る。
(ただし答えは 𝑦𝑡 − 𝑓𝜃 𝑥, 𝑎𝑡 ≤ 휀を満たしていること。)
このとき、最後の行動𝑎 ∈ 𝒜は、
max𝑎∈𝒜
𝑓𝜃 𝑥, 𝑎 − 𝑓𝜃 𝑥, 𝑎 ≤ 휀を
満たすアルゴリズム。
FixedStateOpt
ブラックボックス 状態𝑥 ∈ 𝒳 行動𝑎 ∈ 𝒜
s.t. max𝑎∈𝒜
𝑓𝜃 𝑥, 𝑎 − 𝑓𝜃 𝑥, 𝑎 ≤ 휀
13/21
Fixed-state optimization algorithmを使って
リグレットなしっぽいアルゴリズムを構築
ブラックボックスの内部処理は無視すると、
𝑅 𝑇
𝑇=
1
𝑇𝔼 max
𝑎∗𝑡∈𝒜
𝑓𝜃 𝑥𝑡, 𝑎∗𝑡 − 𝑓𝜃 𝑥𝑡, 𝑎𝑡
𝑇
𝑡=1
≤1
𝑇𝔼 휀
𝑇
𝑡=1
= 휀
したがって、휀を適切に選べば、
𝑅 𝑇
𝑇を任意に小さくすることができるっぽい。
FixedStateOpt
ブラックボックス 状態𝑥 ∈ 𝒳 行動𝑎 ∈ 𝒜
s.t. max𝑎∈𝒜
𝑓𝜃 𝑥, 𝑎 − 𝑓𝜃 𝑥, 𝑎 ≤ 휀
「○○っぽい」を外すために、KWIK学習を使う! 14/21
KWIK学習(Knows What It Knows) [Li+ 2008]
【問題設定】
KWIK学習の問題とは 𝒵,𝒴, ℱ である
入力空間 𝒵
出力空間 𝒴 ⊂ ℝ
関数の族 ℱ = 𝑓:𝒵 → 𝒴
ステップ𝑡
環境
入力 𝑧𝑡 ∈ 𝒵
学習者
𝑓 𝑧𝑡 の予測 𝑦𝑡 ∈ 𝒴 ∪ ⊥
学習者は、
• 𝑓 𝑧𝑡 の予測ができるならその値𝑦𝑡 ∈ 𝒴を返す。
• ただし 𝑦𝑡 − 𝑓 𝑧𝑡 > 𝜖なら失敗で、学習は終了。
• わからないなら𝑦𝑡 =⊥を返す。
• 𝑓 𝑧𝑡 + 𝜂𝑡を教えてもらえる。
𝑓 𝑧𝑡 の答え 𝑓 𝑧𝑡 + 𝜂𝑡
確率変数 𝜂𝑡 s.t. 𝔼 𝜂𝑡 = 0
15/21
Large-scale MAB問題をKWIK+FixedStateOptに帰着
≪Algorithm1≫ 概要
FixedStateOpt
ブラックボックス 状態𝑥𝑡 ∈ 𝒳 行動𝑎𝑡 ∈ 𝒜
s.t. max𝑎∈𝒜
𝑓𝜃 𝑥, 𝑎 − 𝑓𝜃 𝑥, 𝑎𝑡 ≤ 휀
入力𝑧𝑖𝑡 = 𝑥𝑖
𝑡, 𝑎𝑖𝑡 報酬の予測𝑦𝑖
𝑡
KWIK学習
ブラックボックス
環境
報酬がわからないときは
教えてもらう
ステップ𝑡 内部ステップ𝑖
内部で学習して
良い行動𝑎𝑡を
返せるようにする
16/21
Large-scale MAB問題をKWIK+FixedStateOptに帰着
≪Algorithm1≫ 詳細
17/21
Large-scale MAB問題をKWIK+FixedStateOptに帰着
≪Algorithm1≫ 【定理】リグレットなしっぽい
【定理】
関数の族ℱΘ、
ℱΘに対するKWIK学習アルゴリズム、
Fixed-state optimization algorithm、
適切に選んだ휀と𝛿、
十分に大きい𝑇に対して、
≪Algorithm1≫の平均リグレット𝑅 𝑇 /𝑇は、
任意に小さくできる。
18/21
Large-scale MAB問題をKWIK+FixedStateOptに帰着
≪Algorithm1≫ 【系】リグレットなし
【系】
関数の族ℱΘ、
ℱΘに対するKWIK学習アルゴリズム、
Fixed-state optimization algorithmに対して、
リグレットなしのアルゴリズムが存在する。
【証明】 前スライドの휀と𝛿をうまく操作する上位のアルゴリズムを
つくることで証明する。詳細略。
19/21
まとめ
• MAB問題の既存研究を紹介
• 本論文では、状態・行動空間が大きいMAB問題を扱った
• KWIK学習アルゴリズムと、行動空間だけが大きいMAB問題のアルゴリズムを使って、効率的に解けることを示した
20/21