Upload
isseisato
View
4.547
Download
1
Embed Size (px)
Citation preview
Bayesian Nonparametrics入門 -点過程と統計的機械学習の接点-
東京大学 情報基盤センター 中川研究室 助教
佐藤一誠
-点過程と機械学習の接点-
• 点過程の考え方
• 統計的機械学習における点過程
2
点過程の例:カウント過程
3
目的:時間や空間などに点在している点に関して点カウントの統計的性質を考えたい ※点の全個数は仮定しない 例えば、ある期間における来客数を考える場合、全来客数は 予めわからない
A N(A)=2
B
X
N(B)=4
N(A)をA(⊂X)内での点の個数とする
個々の点ではなく
Nに関して何らかの統計モデル
を考える
ポイント
Poisson過程
4
N(A)~Poisson(α0H (A))
λ=α0H: X → R+
α0:非負スカラー値
H:基底(確率)測度
Intensive functionとも呼ばれる
任意のA(⊂X)に関して、N(A)が
λ(A)
A N(A)=2
B
X
N(B)=4
λ=α0H
AdxxA )()(
点過程の考え方
5
A1 A2
A3
N(A1)=4
N(A2)=3
N(A3)=2
• 点の全個数は仮定しないので点個別ではなく 集合に関して統計モデルを考える
• 点●と棒/に関して統計モデルを考える
カウント過程
1
)(1)(i
i AxAN
長さ1の棒
この表現に慣れることが最重要!
6
1
)(1)(i
i AxAN
ix
1
A
Poisson過程:
α0H: X → R+
α0:非負スカラー値
H:基底(確率)測度
任意のA(⊂X)に関して、N(A)が
N(A)~Poison(α0H (A))
棒の従うルール (合計は整数値)
点の従うルール
)(~ xHxi
7
G(A)~Gamma (α0H (A),1).
1
)()(i
ii AxwAG
棒の長さを1以外の場合を考えたい
ix
iw
A
ガンマ過程:
α0H: X → R+
α0:非負スカラー値
H:基底(確率)測度
任意のA(⊂X)に関して、G(A)が
棒の従うルール (非負の実数)
点の従うルール
)(~ xHxi
8
棒の長さを1以外の場合を考えたい
B(A)~Beta (α0H (A), α0(1-H (A)).
1
)()(i
ii AxwAB
ix
]1,0[iw
A
ベータ過程:
任意のA(⊂X)に関して、G(A)が
α0H: X → R+
α0:非負スカラー値
H:基底(確率)測度
棒の従うルール ([0,1]の間の値)
点の従うルール
)(~ xHxi
点過程のまとめ
9
加算無限個の点●とその重みである棒/に関して統計モデルを仮定したもの ⇒集合(空間)に関する重み付きカウント の統計モデル • 点が従うルール→基底測度α0H
• 棒が従うルール→ XX過程のXX
によって様々なモデルがある
1
)()(i
ii AxwAG
点 棒
10
Dirichlet 過程
Xの任意の分割A1,...Amに対して
[Ferguson,1973]
))(,),(( 1 mAGAG
))(,),((~ 1 mAHAHDir
𝐺 G 𝐴 = 𝑤𝑖𝛿∞
𝑖=1
𝑥𝑖 ∈ 𝐴
𝑤𝑖∞ 𝑖=1 =1
A1 A2 A3 A4
棒の従うルール (全棒の合計が1)
Dirichlet Process (DP)の直感的な理解 「確率分布→無限次元で離散化」
α→大 α→小
𝐻:基底確率分布
𝐺~𝐷𝑃(𝛼, 𝐻)
𝐺 𝐺
※𝛼 → ∞で𝐺𝑑→𝐻
何を? どのくらい?
αくらい
11
Hを
-点過程と機械学習の接点-
• 点過程の考え方
• 統計的機械学習における点過程
12
確率的潜在変数モデル
1 2 3
𝜃3 𝜃1
𝜃2
𝑥𝑖
𝑧𝑖
𝜃
𝜑𝑘
𝛽 𝛼
𝐾
𝑛 13
潜在変数空間
Z
𝑝(𝑥|𝜑1) 𝑝(𝑥|𝜑2) 𝑝(𝑥|𝜑3)
𝑋 データの空間
※本スライドでは、 • 混合比を𝜃で表現 • パラメータを𝜑で表現 ベクトルの場合や平均と分散のように 複数の統計量を表すこともある
確率的潜在変数モデル
1 2 3
𝜃3 𝜃1
𝜃2
𝑥1
𝑧1 = 3 𝑧2 = 1
𝑥2 ~𝑝(𝑥|𝜑3) ~𝑝(𝑥|𝜑1)
𝑥𝑖~𝑝(𝑥|𝜑𝑧𝑖)
𝑧𝑖~𝑀𝑢𝑙𝑡𝑖(𝑧|𝜃)
𝜃~𝐷𝑖𝑟(𝜃|𝛼)
𝜑𝑘~𝐻(𝜑|𝛽)
14
𝑥2 𝑥4 ~𝑝(𝑥|𝜑2) 𝑥3 潜在変数空間
Z 𝑧3 = 1 𝑧4 = 2
𝑥𝑖
𝑧𝑖
𝜃
𝜑𝑘
𝛽 𝛼
𝐾
𝑛
パラメータ空間で考えると
𝜃3 𝜃1
𝜑1 𝜑3
𝜃2
𝜑2 Φ
混合分布はパラメータ空間における 点と棒の統計モデル
15
パラメータ空間
G
𝑥1 𝑥2 ~𝑝(𝑥|𝜑3) ~𝑝(𝑥|𝜑1)
𝑥2 𝑥4 ~𝑝(𝑥|𝜑2) 𝑥3
𝜑3 𝜑1 𝜑1 𝜑2
𝜃3 𝜃1
𝑥1 𝑥2 ~𝑝(𝑥|𝜑3) ~𝑝(𝑥|𝜑1)
G ∙ = 𝜃𝑘𝛿𝜑𝑘
𝐾(=3)
𝑘=1
∙
e.g., G 𝜑2 = 𝜃𝑘𝛿𝜑𝑘𝐾(=3)𝑘=1 𝜑2 =𝜃2
𝜑1 𝜑3
𝜃2
𝜑2
𝜑3~𝐺 𝜑1~𝐺 𝜑1~𝐺
𝑥3
混合比𝜃𝑘はパラメータ𝜑𝑘の出現確率 →Φ上の離散分布Gは以下のように書ける
𝜑2~𝐺 𝑥4 ~𝑝(𝑥|𝜑2)
16
Φ パラメータ空間
G
パラメータ空間で考えると
𝜃3 𝜃1
𝑥1 𝑥2 ~𝑝(𝑥|𝜑3) ~𝑝(𝑥|𝜑1)
G ∙ = 𝜃𝑘𝛿𝜑𝑘
𝐾→∞
𝑘=1
∙
𝜑1 𝜑3
𝜃2
𝜑2
𝜑3~𝐺 𝜑1~𝐺 𝜑1~𝐺
𝑥3
混合比𝜃𝑘はパラメータ𝜑𝑘の出現確率 → Φ上の離散分布(混合分布)Gは以下のように書ける
𝜑2~𝐺 𝑥4 ~𝑝(𝑥|𝜑2)
17
点過程 としてみれば 無限点を扱える
Φ パラメータ空間
G
パラメータ空間で考えると
18
G ∙ = 𝜃𝑘𝛿𝜑𝑘
𝐾
𝑘=1
∙ 有 限 モ デ ル
点の数を予め固定 ⇒有限次元の確率分布でモデル化
G ∙ = 𝜃𝑘𝛿𝜑𝑘
∞
𝑘=1
∙ 無 限 モ デ ル
点の数は予めわからない ⇒点過程としてモデル化
応用例は多数
• クラスタリング
– クラス数がData dependent
• Entity disambiguation
– Entity数は予めわからない
• Word sense disambiguation
– word sense数は単語ごとに異なる
• 画像の領域分割
• 動画のトラッキング
e.t.c. 19
無限混合モデルとベイズ学習
G ∙ = 𝜃𝑘𝛿𝜑𝑘
∞
𝑘=1
∙
Φ上の無限次元離散分布
𝐺
Φ
𝐺~𝐷𝑃(𝛼𝐻)
𝜑𝑘~𝐺
𝑥𝑖~𝑝(𝑥|𝜑𝑘)
𝐺|𝑥1:𝑛
学習
20 Φ
確率的潜在変数モデル
1 2 3
𝜃3 𝜃1
𝜃2
𝑧1 = 3 𝑧2 = 1
𝑥𝑖
𝑧𝑖
𝜃
𝜑𝑘
𝛽 𝛼
𝐾
𝑛 𝑥𝑖~𝑝(𝑥|𝜑𝑧𝑖)
𝑧𝑖~𝑀𝑢𝑙𝑡𝑖(𝑧|𝜃)
𝜃~𝐷𝑖𝑟(𝜃|𝛼)
𝜑𝑘~𝐻(𝜑|𝛽)
無限次元 にするには?
→∞
21
Z 𝑧3 = 1 𝑧4 = 2
点の従うルール 棒の従うルール
点過程のまとめ
22
加算無限個の点●とその重みである棒/に関して統計モデルを仮定したもの ⇒重み付きカウントの統計モデル • 点が従うルール→基底測度α0H
• 棒が従うルール→ XX過程のXX
によって様々なモデルがある
どのように点と棒を生成するか? ⇒Stick-breaking Process
1
2
3
4
),1(~1 Betab11 b
)1( 12 bb
),1(~2 Betab
長さ1の棒
Stick-breaking process (SBP)
・・・
・・・
2,1
)1(1
1
k
bbk
l
lkk
[Sethuraman 94]
23
SBPによるDPの構成定理
)(~,,, 4321 SBP
H,,, 4321 ~
・・・
13 2 4
),(~ HDPG
1k
k kG
・・・
[Sethuraman 94]
24
𝑧𝑖~𝑝 𝑧 𝑥𝑖 , 𝜃, 𝜑
𝜃~SBP(𝜃|𝑧1:𝑛,𝛼)
𝜑𝑘~𝑝(𝜑|𝑥1:𝑛, 𝑧1:𝑛,𝛽)
𝑥𝑖
𝑧𝑖
𝜃
𝜑𝑘
𝛽 𝛼
∞
𝑛
25
),1(~ kkk mmBetab
2,1
)1(1
1
k
bbk
l
lkk
SBPはDPからのサンプリングを数学的に提示したに過ぎない
SBPの事後分布からのサンプリング
SBPの事後分布からのサンプリング
• 計算機では無限回のbreakingは扱えないので、有限回のbreakingで近似
→Truncated Stick-breaking Process
打切り誤差は指数的に減少 [Ishwaran+01]
• Slice sampler [Walker06]
この問題を華麗に解決
26
1Tb
Break Sticks
Remaining Stick >uなので
u u
Remaining Stick<uで止める
1 2 3 1 2 3 4 5 6 7
実質的には有限個からの サンプルになる
Slice sampler for SBP
27
確率的な閾値uを用いて打ち切りを確率的に行う
閾値を設ける
からサンプルする
}:{ kuk どうやって?
Slice sampler for SBP
2,1
)1(1
1
k
bbk
l
lkk
Remaining Stick
1 2 3
ki kzp )|(
)()|,( ki uukzp
k
u
k
u
i
i
duu
duukzp
kzp
0
0
)(
)|,(
)|(
28
確率的な閾値uを用いて打ち切りを確率的に行う
Slice sampler for SBP
2,1
),|(~
)1(
:1
1
1
k
zbpb
bb
nkk
k
l
lkk
Remaining Stick
1 2 3
ki kzp )|(
)()|,( ki uukzp
],0[),|( ki Ukzup 一様分布
otherwise0
1
),|(
k
i
u
ukzp
u以下の棒は確率0 になるので無視できる 29
確率的な閾値uを用いて打ち切りを確率的に行う
Break Sticks
Remaining Stick >uなので
u u
Remaining Stick<uで止める
],0[),1|(~ 1 Uzupu i
1 2 3
otherwise0
1
),|(
k
i
u
ukzp
1 2 3 4 5 6 7
実質的には有限個からの サンプルになる
4次元の一様離散分布
Slice sampler for SBP
30
確率的な閾値uを用いて打ち切りを確率的に行う
ここまでのまとめ
31
• 点過程
加算無限個の点●とその重みである棒/に関して統計モデルを仮定したもの • 点が従うルール→基底測度α0H
• 棒が従うルール→ XX過程のXX
によって様々なモデルがある
• 有限混合モデルはパラメータ空間での有限個の点過程 ↓加算無限個の点過程を考える • Dirichlet過程→無限混合モデル
• Dirichlet 過程からのサンプリング
• Stick-breaking process
Factor Model
32
• Infinite Feature Model - Beta Process
• Topic Model - Hierarchical Dirichlet Process
Infinite Latent Feature Model
33
データ
パラメータ空間
[Griffiths+05] )(~ HBPB
)(~ BBePzi
• Linear Gaussian model [Griffiths+NIPS05]
34
= × データ
次元
ZWX
• Sigmoid model [Miller+NIPS09]
)(~,
T
jiji WZZl
リンクデータ
Topic model
𝑝(𝑖𝑡𝑒𝑚|𝑢𝑠𝑒𝑟) 𝑝(𝑡𝑜𝑝𝑖𝑐|𝑢𝑠𝑒𝑟) 𝑝(𝑖𝑡𝑒𝑚|𝑡𝑜𝑝𝑖𝑐)
T
t
ittu
1
,,
1
,,
t
ittu
user
(doc)
item (word) item (word)
user
(doc)
topic
topic
実は、DP単体では構成できない なぜ?
35
DP構成の復習
)(~,,, 4321 SBP
H,,, 4321 ~
・・・
13 2 4
),(~ HDPG
1k
k kG
・・・
36
ほしいもの
4,13,12,11,1 ,,,
・・・
13 2 4・・・
4,23,22,21,2 ,,,
・・・
13 2 4・・・
𝜃𝑢,𝑡は𝑢𝑠𝑒𝑟毎に異なるが、𝜑𝑡は共通
37
DPから複数のGを生成すると
13 2 4 1'3' 2' 4'
𝜃𝑢,𝑡は𝑢𝑠𝑒𝑟毎に異なり、𝜑𝑡も異なる
),(~1 HDPG ),(~2 HDPG
H~ H~
Hは連続分布なので、共通する𝜑の生成確率0
4,13,12,11,1 ,,,
・・・ ・・・
4,23,22,21,2 ,,,
・・・ ・・・
38
DPから複数のGを生成すると
13 2 4 1'3' 2' 4'
𝜃𝑢,𝑡は𝑢𝑠𝑒𝑟毎に異なり、𝜑𝑡も異なる
),(~1 HDPG ),(~2 HDPG
H~ H~
Hは連続分布なので、共通する𝜑の生成確率0
4,13,12,11,1 ,,,
・・・ ・・・
4,23,22,21,2 ,,,
・・・ ・・・
Hは連続分布なので、共通する𝜑の生成確率0
無限次元の離散分布にすれば良いのでは?
39
階層Dirichlet過程
4,13,12,11,1 ,,,
・・・
13 2 4・・・
4,23,22,21,2 ,,,
・・・
13 2 4・・・
𝜃𝑢,𝑡は𝑢𝑠𝑒𝑟毎に異なるが、𝜑𝑡は共通
),(~0 HDPG
0G~ 0G~
),(~ 01 GDPG ),(~ 02 GDPG
𝐺0は離散分布なので、共通する𝜑が生成可能
[Teh+,2006]
40
Latent Dirichlet Allocation (LDA)
𝑥𝑗,𝑖
𝑧𝑖
𝜃𝑗
𝜑𝑘
𝛽 𝛼
𝑛𝑗
𝐾
𝑝(𝑡𝑜𝑝𝑖𝑐|𝑢𝑠𝑒𝑟)
user
(doc)
topic
𝑝(𝑖𝑡𝑒𝑚|𝑡𝑜𝑝𝑖𝑐) item (word)
topic 𝑁
𝑥𝑗,𝑖~𝑀𝑢𝑙𝑡𝑖(𝑥|𝜑𝑧𝑖)
𝑧𝑗,𝑖~𝑀𝑢𝑙𝑡𝑖(𝑧|𝜃)
𝜃𝑗~𝐷𝑖𝑟(𝜃|𝛼)
𝜑𝑘~𝐷𝑖𝑟(𝜑|𝛽)
For each topic k:
For each user(doc.) j:
For each item(word) i:
[Blei+,2003]
41
HDP-LDA (SBP版)
𝑥𝑗,𝑖
𝑧𝑖
𝜃𝑗
𝜑𝑘
𝛽
𝛼
𝑛𝑗
∞
𝑁
𝜃𝑗~𝐷𝑃(𝜃|𝛼, 𝜃0)
𝜃0
𝛾 𝜃0~𝑆𝐵𝑃(𝜃|𝛾)
𝑥𝑗,𝑖~𝑀𝑢𝑙𝑡𝑖(𝑥|𝜑𝑧𝑖)
𝑧𝑗,𝑖~𝑀𝑢𝑙𝑡𝑖(𝑧|𝜃)
𝜑𝑘~𝐷𝑖𝑟(𝜑|𝛽)
For each topic k:
For each user(doc.) j:
For each item(word) i:
[Teh+,2006]
42
学習アルゴリズム
• LDA
–変分ベイズ法 [Blei+ JMLR03]
–周辺化ギブスサンプラー [Griffiths+ 04]
–周辺化変文ベイズ法 [Teh+ NIPS07, Sato+ICML2012]
• HDP-LDA
–変分ベイズ法[Wang+,AISTATS11]
–周辺化ギブスサンプラー[Teh+ 06]
–周辺化変分ベイズ法 [Teh+ NIPS08, Sato+ KDD2012]
43
Simplify
理論解析
まとめ
44
• 点過程
加算無限個の点●とその重みである棒/に関して統計モデルを仮定したもの • 点が従うルール→基底測度α0H
• 棒が従うルール→ XX過程のXX
によって様々なモデルがある
• 有限混合モデルはパラメータ空間での有限個の点過程 ↓加算無限個の点過程を考える • Dirichlet過程→無限混合モデル
• Dirichlet 過程からのサンプリング
• Stick-breaking process
• Factor model