Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

Bayesian Nonparametrics入門 -点過程と統計的機械学習の接点-

東京大学情報基盤センター中川研究室助教

佐藤一誠

-点過程と機械学習の接点-

• 点過程の考え方

• 統計的機械学習における点過程

2

点過程の例：カウント過程

3

目的：時間や空間などに点在している点に関して点カウントの統計的性質を考えたい ※点の全個数は仮定しない例えば、ある期間における来客数を考える場合、全来客数は予めわからない

A N(A)=2

B

X

N(B)=4

N(A)をA(⊂X)内での点の個数とする

個々の点ではなく

Nに関して何らかの統計モデル

を考える

ポイント

Poisson過程

4

N(A)～Poisson(α0H (A))

λ=α0H: X → R+

α0:非負スカラー値

H:基底(確率)測度

Intensive functionとも呼ばれる

任意のA(⊂X)に関して、N(A)が

λ(A)

A N(A)=2

B

X

N(B)=4

λ=α0H

AdxxA )()(

点過程の考え方

5

A1 A2

A3

N(A1)=4

N(A2)=3

N(A3)=2

• 点の全個数は仮定しないので点個別ではなく集合に関して統計モデルを考える

• 点●と棒／に関して統計モデルを考える

カウント過程

1

)(1)(i

i AxAN

長さ１の棒

この表現に慣れることが最重要!

6

1

)(1)(i

i AxAN

ix

1

A

Poisson過程：

α0H: X → R+



任意のA(⊂X)に関して、N(A)が

N(A)～Poison(α0H (A))

棒の従うルール (合計は整数値)

点の従うルール

)(~ xHxi

7

G(A)～Gamma (α0H (A),1).

1

)()(i

ii AxwAG

棒の長さを１以外の場合を考えたい

ix

iw

A

ガンマ過程：

α0H: X → R+



任意のA(⊂X)に関して、G(A)が

棒の従うルール (非負の実数)


)(~ xHxi

8

棒の長さを１以外の場合を考えたい

B(A)～Beta (α0H (A), α0(1-H (A)).

1

)()(i

ii AxwAB

ix

]1,0[iw

A

ベータ過程：

任意のA(⊂X)に関して、G(A)が

α0H: X → R+



棒の従うルール（[0,1]の間の値）


)(~ xHxi

点過程のまとめ

9

加算無限個の点●とその重みである棒／に関して統計モデルを仮定したもの ⇒集合（空間）に関する重み付きカウントの統計モデル • 点が従うルール→基底測度α0H

• 棒が従うルール→ XX過程のXX

によって様々なモデルがある

1

)()(i

ii AxwAG

点棒

10

Dirichlet 過程

Xの任意の分割A1,...Amに対して

[Ferguson,1973]

))(,),(( 1 mAGAG

))(,),((~ 1 mAHAHDir

𝐺 G 𝐴 = 𝑤𝑖𝛿∞

𝑖=1

𝑥𝑖 ∈ 𝐴

𝑤𝑖∞ 𝑖=1 =1

A1 A2 A3 A4

棒の従うルール（全棒の合計が１）

Dirichlet Process (DP)の直感的な理解「確率分布→無限次元で離散化」

α→大 α→小

𝐻:基底確率分布

𝐺~𝐷𝑃(𝛼, 𝐻)

𝐺 𝐺

※𝛼 → ∞で𝐺𝑑→𝐻

何を？どのくらい？

αくらい

11

Hを

-点過程と機械学習の接点-

• 点過程の考え方

• 統計的機械学習における点過程

12

確率的潜在変数モデル

1 2 3

𝜃3 𝜃1

𝜃2

𝑥𝑖

𝑧𝑖

𝜃

𝜑𝑘

𝛽 𝛼

𝐾

𝑛 13

潜在変数空間

Z

𝑝(𝑥|𝜑1) 𝑝(𝑥|𝜑2) 𝑝(𝑥|𝜑3)

𝑋 データの空間

※本スライドでは、 • 混合比を𝜃で表現 • パラメータを𝜑で表現ベクトルの場合や平均と分散のように複数の統計量を表すこともある


1 2 3

𝜃3 𝜃1

𝜃2

𝑥1

𝑧1 = 3 𝑧2 = 1

𝑥2 ~𝑝(𝑥|𝜑3) ~𝑝(𝑥|𝜑1)

𝑥𝑖~𝑝(𝑥|𝜑𝑧𝑖)

𝑧𝑖~𝑀𝑢𝑙𝑡𝑖(𝑧|𝜃)

𝜃~𝐷𝑖𝑟(𝜃|𝛼)

𝜑𝑘~𝐻(𝜑|𝛽)

14

𝑥2 𝑥4 ~𝑝(𝑥|𝜑2) 𝑥3 潜在変数空間

Z 𝑧3 = 1 𝑧4 = 2

𝑥𝑖

𝑧𝑖

𝜃

𝜑𝑘

𝛽 𝛼

𝐾

𝑛

パラメータ空間で考えると

𝜃3 𝜃1

𝜑1 𝜑3

𝜃2

𝜑2 Φ

混合分布はパラメータ空間における点と棒の統計モデル

15

パラメータ空間

G

𝑥1 𝑥2 ~𝑝(𝑥|𝜑3) ~𝑝(𝑥|𝜑1)

𝑥2 𝑥4 ~𝑝(𝑥|𝜑2) 𝑥3

𝜑3 𝜑1 𝜑1 𝜑2

𝜃3 𝜃1

𝑥1 𝑥2 ~𝑝(𝑥|𝜑3) ~𝑝(𝑥|𝜑1)

G ∙ = 𝜃𝑘𝛿𝜑𝑘

𝐾(=3)

𝑘=1

∙

e.g., G 𝜑2 = 𝜃𝑘𝛿𝜑𝑘𝐾(=3)𝑘=1 𝜑2 =𝜃2

𝜑1 𝜑3

𝜃2

𝜑2

𝜑3~𝐺 𝜑1~𝐺 𝜑1~𝐺

𝑥3

混合比𝜃𝑘はパラメータ𝜑𝑘の出現確率 →Φ上の離散分布Gは以下のように書ける

𝜑2~𝐺 𝑥4 ~𝑝(𝑥|𝜑2)

16

Φ パラメータ空間

G


𝜃3 𝜃1

𝑥1 𝑥2 ~𝑝(𝑥|𝜑3) ~𝑝(𝑥|𝜑1)


𝐾→∞

𝑘=1

∙

𝜑1 𝜑3

𝜃2

𝜑2

𝜑3~𝐺 𝜑1~𝐺 𝜑1~𝐺

𝑥3

混合比𝜃𝑘はパラメータ𝜑𝑘の出現確率 → Φ上の離散分布(混合分布)Gは以下のように書ける

𝜑2~𝐺 𝑥4 ~𝑝(𝑥|𝜑2)

17

点過程としてみれば無限点を扱える

Φ パラメータ空間

G


18


𝐾

𝑘=1

∙ 有限モデル

点の数を予め固定 ⇒有限次元の確率分布でモデル化


∞

𝑘=1

∙ 無限モデル

点の数は予めわからない ⇒点過程としてモデル化

応用例は多数

• クラスタリング

– クラス数がData dependent

• Entity disambiguation

– Entity数は予めわからない

• Word sense disambiguation

– word sense数は単語ごとに異なる

• 画像の領域分割

• 動画のトラッキング

e.t.c. 19

無限混合モデルとベイズ学習


∞

𝑘=1

∙

Φ上の無限次元離散分布

𝐺

Φ

𝐺~𝐷𝑃(𝛼𝐻)

𝜑𝑘~𝐺

𝑥𝑖~𝑝(𝑥|𝜑𝑘)

𝐺|𝑥1:𝑛

学習

20 Φ


1 2 3

𝜃3 𝜃1

𝜃2

𝑧1 = 3 𝑧2 = 1

𝑥𝑖

𝑧𝑖

𝜃

𝜑𝑘

𝛽 𝛼

𝐾

𝑛 𝑥𝑖~𝑝(𝑥|𝜑𝑧𝑖)

𝑧𝑖~𝑀𝑢𝑙𝑡𝑖(𝑧|𝜃)

𝜃~𝐷𝑖𝑟(𝜃|𝛼)

𝜑𝑘~𝐻(𝜑|𝛽)

無限次元にするには？

→∞

21

Z 𝑧3 = 1 𝑧4 = 2

点の従うルール棒の従うルール

点過程のまとめ

22

加算無限個の点●とその重みである棒／に関して統計モデルを仮定したもの ⇒重み付きカウントの統計モデル • 点が従うルール→基底測度α0H



どのように点と棒を生成するか？ ⇒Stick-breaking Process

1

2

3

4

),1(~1 Betab11 b

)1( 12 bb

),1(~2 Betab

長さ１の棒

Stick-breaking process (SBP)

・・・

・・・

2,1

)1(1

1

k

bbk

l

lkk

[Sethuraman 94]

23

SBPによるDPの構成定理

)(~,,, 4321 SBP

H,,, 4321 ～

・・・

13 2 4

),(~ HDPG

1k

k kG

・・・

[Sethuraman 94]

24

𝑧𝑖~𝑝 𝑧 𝑥𝑖 , 𝜃, 𝜑

𝜃~SBP(𝜃|𝑧1:𝑛,𝛼)

𝜑𝑘~𝑝(𝜑|𝑥1:𝑛, 𝑧1:𝑛,𝛽)

𝑥𝑖

𝑧𝑖

𝜃

𝜑𝑘

𝛽 𝛼

∞

𝑛

25

),1(~ kkk mmBetab

2,1

)1(1

1

k

bbk

l

lkk

SBPはDPからのサンプリングを数学的に提示したに過ぎない

SBPの事後分布からのサンプリング

SBPの事後分布からのサンプリング

• 計算機では無限回のbreakingは扱えないので、有限回のbreakingで近似

→Truncated Stick-breaking Process

打切り誤差は指数的に減少 [Ishwaran+01]

• Slice sampler [Walker06]

この問題を華麗に解決

26

1Tb

Break Sticks

Remaining Stick >uなので

u u

Remaining Stick<uで止める

1 2 3 1 2 3 4 5 6 7

実質的には有限個からのサンプルになる

Slice sampler for SBP

27

確率的な閾値uを用いて打ち切りを確率的に行う

閾値を設ける

からサンプルする

}:{ kuk どうやって？


2,1

)1(1

1

k

bbk

l

lkk

Remaining Stick

1 2 3

ki kzp )|(

)()|,( ki uukzp

k

u

k

u

i

i

duu

duukzp

kzp

0

0

)(

)|,(

)|(

28



2,1

),|(~

)1(

:1

1

1

k

zbpb

bb

nkk

k

l

lkk

Remaining Stick

1 2 3

ki kzp )|(

)()|,( ki uukzp

],0[),|( ki Ukzup 一様分布

otherwise0

1

),|(

k

i

u

ukzp

u以下の棒は確率0 になるので無視できる 29


Break Sticks

Remaining Stick >uなので

u u

Remaining Stick<uで止める

],0[),1|(~ 1 Uzupu i

1 2 3

otherwise0

1

),|(

k

i

u

ukzp

1 2 3 4 5 6 7

実質的には有限個からのサンプルになる

４次元の一様離散分布


30


ここまでのまとめ

31

• 点過程

加算無限個の点●とその重みである棒／に関して統計モデルを仮定したもの • 点が従うルール→基底測度α0H



• 有限混合モデルはパラメータ空間での有限個の点過程 ↓加算無限個の点過程を考える • Dirichlet過程→無限混合モデル

• Dirichlet 過程からのサンプリング

• Stick-breaking process

Factor Model

32

• Infinite Feature Model - Beta Process

• Topic Model - Hierarchical Dirichlet Process

Infinite Latent Feature Model

33

データ

パラメータ空間

[Griffiths+05] )(~ HBPB

)(~ BBePzi

• Linear Gaussian model [Griffiths+NIPS05]

34

= × データ

次元

ZWX

• Sigmoid model [Miller+NIPS09]

)(~,

T

jiji WZZl

リンクデータ

Topic model

𝑝(𝑖𝑡𝑒𝑚|𝑢𝑠𝑒𝑟) 𝑝(𝑡𝑜𝑝𝑖𝑐|𝑢𝑠𝑒𝑟) 𝑝(𝑖𝑡𝑒𝑚|𝑡𝑜𝑝𝑖𝑐)

T

t

ittu

1

,,

1

,,

t

ittu

user

(doc)

item (word) item (word)

user

(doc)

topic

topic

実は、DP単体では構成できないなぜ？

35

DP構成の復習

)(~,,, 4321 SBP

H,,, 4321 ～

・・・

13 2 4

),(~ HDPG

1k

k kG

・・・

36

ほしいもの

4,13,12,11,1 ,,,

・・・

13 2 4・・・

4,23,22,21,2 ,,,

・・・

13 2 4・・・

𝜃𝑢,𝑡は𝑢𝑠𝑒𝑟毎に異なるが、𝜑𝑡は共通

37

DPから複数のGを生成すると

13 2 4 1'3' 2' 4'

𝜃𝑢,𝑡は𝑢𝑠𝑒𝑟毎に異なり、𝜑𝑡も異なる

),(~1 HDPG ),(~2 HDPG

H～ H～

Hは連続分布なので、共通する𝜑の生成確率0

4,13,12,11,1 ,,,

・・・・・・

4,23,22,21,2 ,,,

・・・・・・

38

DPから複数のGを生成すると

13 2 4 1'3' 2' 4'

𝜃𝑢,𝑡は𝑢𝑠𝑒𝑟毎に異なり、𝜑𝑡も異なる

),(~1 HDPG ),(~2 HDPG

H～ H～


4,13,12,11,1 ,,,

・・・・・・

4,23,22,21,2 ,,,

・・・・・・


無限次元の離散分布にすれば良いのでは？

39

階層Dirichlet過程

4,13,12,11,1 ,,,

・・・

13 2 4・・・

4,23,22,21,2 ,,,

・・・

13 2 4・・・

𝜃𝑢,𝑡は𝑢𝑠𝑒𝑟毎に異なるが、𝜑𝑡は共通

),(~0 HDPG

0G～ 0G～

),(~ 01 GDPG ),(~ 02 GDPG

𝐺0は離散分布なので、共通する𝜑が生成可能

[Teh+,2006]

40

Latent Dirichlet Allocation (LDA)

𝑥𝑗,𝑖

𝑧𝑖

𝜃𝑗

𝜑𝑘

𝛽 𝛼

𝑛𝑗

𝐾

𝑝(𝑡𝑜𝑝𝑖𝑐|𝑢𝑠𝑒𝑟)

user

(doc)

topic

𝑝(𝑖𝑡𝑒𝑚|𝑡𝑜𝑝𝑖𝑐) item (word)

topic 𝑁

𝑥𝑗,𝑖~𝑀𝑢𝑙𝑡𝑖(𝑥|𝜑𝑧𝑖)

𝑧𝑗,𝑖~𝑀𝑢𝑙𝑡𝑖(𝑧|𝜃)

𝜃𝑗~𝐷𝑖𝑟(𝜃|𝛼)

𝜑𝑘~𝐷𝑖𝑟(𝜑|𝛽)

For each topic k:

For each user(doc.) j:

For each item(word) i:

[Blei+,2003]

41

HDP-LDA (SBP版)

𝑥𝑗,𝑖

𝑧𝑖

𝜃𝑗

𝜑𝑘

𝛽

𝛼

𝑛𝑗

∞

𝑁

𝜃𝑗~𝐷𝑃(𝜃|𝛼, 𝜃0)

𝜃0

𝛾 𝜃0~𝑆𝐵𝑃(𝜃|𝛾)

𝑥𝑗,𝑖~𝑀𝑢𝑙𝑡𝑖(𝑥|𝜑𝑧𝑖)

𝑧𝑗,𝑖~𝑀𝑢𝑙𝑡𝑖(𝑧|𝜃)

𝜑𝑘~𝐷𝑖𝑟(𝜑|𝛽)

For each topic k:

For each user(doc.) j:

For each item(word) i:

[Teh+,2006]

42

学習アルゴリズム

• LDA

–変分ベイズ法 [Blei+ JMLR03]

–周辺化ギブスサンプラー [Griffiths+ 04]

–周辺化変文ベイズ法 [Teh+ NIPS07, Sato+ICML2012]

• HDP-LDA

–変分ベイズ法[Wang+,AISTATS11]

–周辺化ギブスサンプラー[Teh+ 06]

–周辺化変分ベイズ法 [Teh+ NIPS08, Sato+ KDD2012]

43

Simplify

理論解析

まとめ

44

• 点過程

加算無限個の点●とその重みである棒／に関して統計モデルを仮定したもの • 点が従うルール→基底測度α0H



• 有限混合モデルはパラメータ空間での有限個の点過程 ↓加算無限個の点過程を考える • Dirichlet過程→無限混合モデル

• Dirichlet 過程からのサンプリング

• Stick-breaking process

• Factor model

Documents

Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-