28
@_kuni88 1

PRML 2.3.1-2.3.2

Embed Size (px)

Citation preview

Page 1: PRML 2.3.1-2.3.2

@_kuni88

1

Page 2: PRML 2.3.1-2.3.2

2.3.1 条件付きガウス分布

条件付きガウス分布とは?

条件付きガウス分布の定式化

2.3.2 周辺ガウス分布

周辺ガウス分布とは?

周辺ガウス分布の定式化

まとめ

目次

2

Page 3: PRML 2.3.1-2.3.2

多変量ガウス分布の特徴

2つの変数集合𝐱𝑎, 𝐱𝑏の同時分布がガウス分布に従う

①一方の集合𝐱𝑏を与えた時の

条件付き分布 𝑝(𝐱𝑎|𝐱𝑏)はガウス分布になる

②どちらの変数集合の周辺分布もガウス分布になる

①, ②を確認することが今日の目標

今日の目標

3

Page 4: PRML 2.3.1-2.3.2

確率の乗法定理より

𝑝 𝐱𝑎|𝐱𝑏 =𝑝(𝐱𝑎 , 𝐱𝑏)

𝑝(𝐱𝑏)

・ 𝑝 𝐱𝑎|𝐱𝑏 は𝐱𝑎の関数ととらえる

・同時分布 𝑝 𝐱𝑎 , 𝐱𝑏 に注目すればよい

(𝐱𝑏 は観測値として与えられるから)

条件つき確率の定義

4

Page 5: PRML 2.3.1-2.3.2

1. 条件付き分布𝑝 𝐱𝑎 𝐱𝑏 がガウス分布だと示す

同時ガウス分布の指数部のみに注目!

2. 𝝁𝑎|𝑏 , 𝚺𝑎|𝑏をそれぞれ求める

3. 精度行列 𝚲を使わない形で求める

5

①の証明に対する方針

Page 6: PRML 2.3.1-2.3.2

前提 𝐱をガウス分布𝒩 𝐱 𝝁, 𝚺 に従う𝐷次元ベクトルとする 𝐱𝑎 ∶ 𝐱の最初の𝑀個の要素からなるベクトル 𝐱𝑏 ∶ 𝐱の残りの𝐷 −𝑀個の要素からなるベクトル

(𝐱𝑎, 𝐱𝑏は互いに素な𝐱の部分集合)

結論

𝑝 𝐱𝑎 𝐱𝑏 = 𝒩(𝐱𝑎|𝝁𝑎|𝑏 , 𝚺𝑎|𝑏)になる

証明のための準備 (1)

6

Page 7: PRML 2.3.1-2.3.2

ガウス分布の各要素の分割

𝐱 =𝐱𝑎𝐱𝑏

, 𝝁 =𝝁𝑎𝝁𝑏

, Σ=𝚺𝑎𝑎 𝚺𝑎𝑏𝚺𝑏𝑎 𝚺𝑏𝑏

性質

共分散行列 𝚺は対称行列だから

𝚺𝑎𝑎 , 𝚺𝑏𝑏はともに対称行列で、𝚺𝑏𝑎 = 𝚺𝑎𝑏Tとなる

精度行列 (precision matrix)

𝚲 ≡𝚺−1, 𝚲 =𝚲𝑎𝑎 𝚲𝑎𝑏𝚲𝑏𝑎 𝚲𝑏𝑏

→ 𝚲も対称行列である

証明のための準備 (2)

7

Page 8: PRML 2.3.1-2.3.2

𝑝 𝐱 の指数部を𝚫𝟐とすると

Δ2 = −1

2 𝐱 − 𝝁 T𝚺−1 𝐱 − 𝝁

= −1

2 𝐱𝑎 − 𝝁𝑎

T𝚲𝑎𝑎 𝐱𝑎 − 𝝁𝑎 −1

2 (𝐱𝑎 − 𝝁𝑎)

T𝚲𝑎𝑏 (𝐱𝑏 − 𝝁𝑏)

−1

2 (𝐱𝑏 − 𝛍b)

T𝚲𝑏𝑎 (𝐱𝑎 − 𝝁𝑎) −1

2 (𝐱𝑏 − 𝝁𝑏)

T𝚲𝑏𝑏 (𝐱𝑏 − 𝝁𝑏)

…(2.70)

step 1: 同時分布の指数部分

𝐱𝑎に注目する

8

Page 9: PRML 2.3.1-2.3.2

Δ2の特徴 (2.70)は𝐱𝑎の2次形式になっている

→条件付き分布𝑝 𝐱𝑎 𝐱𝑏 もガウス分布

ガウス分布 𝓝(𝐱𝑎|𝝁𝑎|𝑏 , 𝚺𝑎|𝑏)の形になる

→次は𝝁𝑎|𝑏 , 𝚺𝑎|𝑏を求める (step 2)

step 1: 𝑝 𝐱𝑎 𝐱𝑏 はガウス分布なのか

9

Page 10: PRML 2.3.1-2.3.2

ここでのポイント

平方完成 <completing the square>

Δ2 = −1

2 𝐱 − 𝝁 T𝚺−1 𝐱 − 𝝁

= −1

2 𝐱T𝚺−1𝐱 + 𝐱T𝚺−1𝝁 + 𝐜𝐨𝐧𝐬𝐭.

…(2.71)

step 2: 平均と共分散を求める

10

Page 11: PRML 2.3.1-2.3.2

求めたい条件付き分布𝑝 𝐱𝑎 𝐱𝑏 の指数部は

−1

2 𝐱𝑎 − 𝝁𝑎|𝑏

T𝚺𝑎|𝑏

−1 𝐱𝑎 − 𝝁𝑎|𝑏

= −1

2 𝐱𝑎

T𝚺𝑎|𝑏−1𝐱𝑎 + 𝐱𝑎

T𝚺𝑎|𝑏−1𝝁𝑎|𝑏 + 𝐜𝐨𝐧𝐬𝐭.

…(2.71)’

step 2: 平均と共分散を求める

11

𝐱𝑎の2次 𝐱𝑎の1次 𝐱𝑎に独立な項

Page 12: PRML 2.3.1-2.3.2

𝐱𝑎の係数 式(2.71)’ 式(2.70)’

2次の係数

−1

2𝚺𝑎|𝑏

−1 −1

2𝚲𝑎𝑎

線形の係数 𝚺𝑎|𝑏−1𝝁𝑎|𝑏 𝚲𝑎𝑎𝝁𝑎 − 𝚲𝑎𝑏 𝐱𝑏 − 𝝁𝑏

12

step 2: 𝐱𝑎の係数について

2.70 = −1

2𝐱𝑎T𝚲𝑎𝑎𝐱𝑎 + 𝐱𝑎

T 𝚲𝑎𝑎𝝁𝑎 − 𝚲𝑎𝑏 𝐱𝑏 − 𝝁𝑏

+ 𝑐𝑜𝑛𝑠𝑡. …(2.70)’

Page 13: PRML 2.3.1-2.3.2

𝐱𝑎の2次の項は−1

2𝐱𝑎T𝚲𝑎𝑎𝐱𝑎であるから

𝑝 𝐱𝑎 𝐱𝑏 の分散は𝚺𝑎|𝑏 = 𝚲𝑎𝑎−1

𝐱𝑎の1次の項は𝐱𝑎T{𝚲𝑎𝑎𝝁𝑎 − 𝚲𝑎𝑏(𝐱𝑏 − 𝝁𝑏)}であるか

𝝁𝑎|𝑏 = 𝚺𝑎|𝑏 {𝚲𝑎𝑎 𝝁𝑎 − 𝚲𝑎𝑏(𝐱𝑏 − 𝝁𝑏)}

= 𝝁𝑎 − 𝚲𝑎𝑎−1𝚲𝑎𝑏(𝐱𝑏 − 𝝁𝑏)

step 2: 平均と共分散を求める

13

Page 14: PRML 2.3.1-2.3.2

精度行列のブロック行列の左上の行列

𝚲 =𝚲𝑎𝑎 𝚲𝑎𝑏𝚲𝑏𝑎 𝚲𝑏𝑏

𝚲𝑎𝑎≠ 𝚺𝑎𝑎−𝟏

…具体的なことが全くわかっていない!

step 3: 𝚲𝑎𝑎って何?

14

Page 15: PRML 2.3.1-2.3.2

「 𝚲𝑎𝑎 , 𝚲𝑎𝑏を𝚺○○ だけで表したい」

𝐴 𝐵𝐶 𝐷

−1

= 𝑀 −𝑀𝐵𝐷−1

−𝐷−1𝐶𝑀 𝐷−1 + 𝐷−1𝐶𝑀𝐵𝐷−1

…(2.76) ただし、𝑀 = (𝐴 − 𝐵𝐷−1𝐶)−1とする

𝑀−1を𝐷に関するシューア補行列と呼ぶ →演習問題(2.24)

step 3: 𝚲𝑎𝑎って何?

15

Page 16: PRML 2.3.1-2.3.2

(2.76)を適用すれば、𝚲𝑎𝑎がわかるはず

適用すると…

𝚲𝑎𝑎 = (𝚺𝑎𝑎 − 𝚺𝑎𝑏𝚺𝑏𝑏−𝟏𝚺𝑏𝑎)

−1

𝚲𝑎𝑏 = −(𝚺𝑎𝑎 − 𝚺𝑎𝑏𝚺𝑏𝑏−𝟏𝚺𝑏𝑎)

−1𝚺𝑎𝑏𝚺𝑏𝑏−𝟏

𝚲𝑎𝑎 , 𝚲𝑎𝑏を𝚺○○ だけの形に置き換えられた

step 3: 𝚲𝑎𝑎って何?

16

Page 17: PRML 2.3.1-2.3.2

同時分布 𝑝(𝐱𝑎 , 𝐱𝑏)がガウス分布なら 𝑝 𝐱𝑎 𝐱𝑏 = 𝓝 𝐱𝑎 𝝁𝑎|𝑏 , 𝚺𝑎|𝑏 であり

𝝁𝑎|𝑏 = 𝝁𝑎 + 𝚺𝑎𝑏𝚺𝑏𝑏−𝟏 𝐱𝑏 − 𝝁𝑏

𝚺𝑎|𝑏 = 𝚺𝑎𝑎 − 𝚺𝑎𝑏𝚺𝑏𝑏−𝟏𝚺𝑏𝑎 = 𝚲𝑎𝑎

−1

考察

平均ベクトルは𝐱𝑏の線形関数

共分散は𝐱𝑏とは独立である

→線形ガウスモデルの一例になっている

(参照:PRML 8.1.4)

条件付きガウス分布のまとめ

17

Page 18: PRML 2.3.1-2.3.2

先ほどの前提を利用すると周辺ガウス分布は

𝑝 𝐱𝑎 = 𝑝 𝐱𝑎 , 𝐱𝑏 𝑑𝐱𝑏

𝑝 𝐱𝑎 がガウス分布𝓝 𝐱𝑎 𝝁𝑎 , 𝚺𝑎𝑎 になることを示す

周辺ガウス分布とは?

18

Page 19: PRML 2.3.1-2.3.2

条件付きガウス分布と同じ方針で解く

1. 同時分布の指数部の𝐱𝑏のみに注目する

2. 𝐱𝑎についてまとめる

3. 周辺分布の平均、共分散を求める

②に対する方針

19

Page 20: PRML 2.3.1-2.3.2

Δ2 = −1

2 𝐱 − 𝛍 T𝚺−1 𝐱 − 𝛍

= −1

2 𝐱𝑎 − 𝝁𝑎

T𝚲𝑎𝑎 𝐱𝑎 − 𝝁𝑎 −1

2 (𝐱𝑎 − 𝝁𝑎)

T𝚲𝑎𝑏 (𝐱𝑏 − 𝝁𝑏)

−1

2 (𝐱𝑏 − 𝛍b)

T𝚲𝑏𝑎 (𝐱𝑎 − 𝝁𝑎) −1

2 (𝐱𝑏 − 𝝁𝑏)

T𝚲𝑏𝑏 (𝐱𝑏 − 𝝁𝑏)

…(2.70)

(2.70)の𝐱𝑏の項に注目する(前回と逆) → 𝐱𝑏を積分消去することが目的だから

step 1: 同時分布の指数部に注目

20

Page 21: PRML 2.3.1-2.3.2

式(2.70)から𝐱𝑏を含む項のみ取り出し、平方完成する

−1

2𝐱𝑏𝑇𝚲𝑏𝑏𝐱𝑏 + 𝐱𝑏

𝑇𝐦

= −1

2 𝐱𝑏 − 𝚲𝑏𝑏

−1𝐦T𝚲𝑏𝑏 𝐱𝑏 − 𝚲𝑏𝑏

−1𝐦 +1

2𝒎𝑇 𝚲𝑏𝑏

−1𝐦

… (2.84)

ただし、 𝐦は 𝐦 = 𝚲𝑏𝑏𝝁𝑏 − 𝚲𝑏𝑎 𝐱𝑎 − 𝝁𝑎

step1: 𝐱𝑏に関係する項の分離

21

𝐱𝑏に依存する項

Page 22: PRML 2.3.1-2.3.2

𝐱𝑏に依存する項のみ指数にとり、𝐱𝑏で積分すると

exp −1

2(𝐱𝑏 − 𝚲𝑏𝑏

−1𝐦)𝑇𝚲𝑏𝑏 𝐱𝑏 − 𝚲𝑏𝑏−1𝐦 𝑑𝐱𝑏

= 𝚲𝑏𝑏 のみに依存する値

ガウス分布の正規化項がないものと同じ形

→正規化項の逆数になる

step1: 𝐱𝑏に依存する項について

22

Page 23: PRML 2.3.1-2.3.2

(2.70)を変形すると 1

2[𝚲𝑏𝑏𝝁𝑏 − 𝚲𝑏𝑎 𝐱𝑎 − 𝝁𝑎 ]

𝑇𝚲𝑏𝑏−1[𝚲𝑏𝑏𝝁𝑏 − 𝚲𝑏𝑎 𝐱𝑎 − 𝝁𝑎 ]

−1

2𝐱𝑎𝑇𝚲𝑎𝑎𝐱𝑎 + 𝐱𝑎

𝑇 𝚲𝑎𝑎𝝁𝑎 + 𝚲𝑎𝑏𝝁𝑏 + 𝑐𝑜𝑛𝑠𝑡.

= −1

2𝐱𝑎𝑇(𝚲𝑎𝑎−𝚲𝑎𝑏𝚲𝑏𝑏

−𝟏𝚲𝑏𝑎)𝐱𝑎 + 𝐱𝑎𝑇(𝚲𝑎𝑎−𝚲𝑎𝑏𝚲𝑏𝑏

−𝟏𝚲𝑏𝑎)𝝁𝑎

+ 𝑐𝑜𝑛𝑠𝑡. …(2.87)

ここでの𝑐𝑜𝑛𝑠𝑡.とは𝐱𝑎に依存しない定数を表す

step 2: 𝐱𝑎についてまとめる

23

Page 24: PRML 2.3.1-2.3.2

𝐱𝑎の係数 上式 式(2.87)

2次の係数

−1

2𝚺𝑎−1 −

1

2(𝚲𝑎𝑎−𝚲𝑎𝑏𝚲𝑏𝑏

−𝟏𝚲𝑏𝑎)

線形の係数 𝚺𝑎−1𝝁𝑎’ (𝚲𝑎𝑎−𝚲𝑎𝑏𝚲𝑏𝑏

−𝟏𝚲𝑏𝑎)𝝁𝑎

24

step 3: 平均、共分散を求める

求める周辺分布𝑝(𝐱𝑎)の指数部は

−1

2 𝐱𝑎

T𝚺𝑎−1𝐱𝑎 + 𝐱𝑎

T𝚺𝑎−1𝝁𝑎’ + 𝑐𝑜𝑛𝑠𝑡. となるから

Page 25: PRML 2.3.1-2.3.2

(2.87)より周辺分布𝑝(𝐱𝑎)

共分散:𝚺𝑎 = (𝚲𝑎𝑎−𝚲𝑎𝑏𝚲𝑏𝑏−𝟏𝚲𝑏𝑎)

−1

平均:𝝁𝑎’= 𝚺𝑎(𝚲𝑎𝑎−𝚲𝑎𝑏𝚲𝑏𝑏−𝟏𝚲𝑏𝑎)𝝁𝑎 = 𝝁𝑎

定義に戻ると、

𝚲𝑎𝑎 𝚲𝑎𝑏𝚲𝑏𝑎 𝚲𝑏𝑏

−1

=𝚺𝑎𝑎 𝚺𝑎𝑏𝚺𝑏𝑎 𝚺𝑏𝑏

であるから

𝚺𝑎 = (𝚲𝑎𝑎−𝚲𝑎𝑏𝚲𝑏𝑏−𝟏𝚲𝑏𝑎)

−1 = 𝚺𝑎𝑎

step 3: 平均、共分散を求める

25

Page 26: PRML 2.3.1-2.3.2

周辺分布𝑝(𝐱𝑎)の平均と共分散は

𝐸 𝐱𝑎 = 𝝁𝑎 cov 𝐱𝑎 = 𝚺𝑎𝑎

周辺分布の平均・共分散は

分割された共分散行列について簡潔に表現される

直観的にも一致する!

周辺分布のまとめ

26

Page 27: PRML 2.3.1-2.3.2

27

e.g. 多次元ガウス分布のグラフ

多変量ガウス分布の特徴 2つの変数集合𝐱𝑎 , 𝐱𝑏の同時分布(緑)が ガウス分布に従うとき ①一方の集合𝐱𝑏の分布𝑝(𝐱𝑏)を与えた時の条件付き分布 𝑝(𝐱𝑎|𝐱𝑏)はガウス分布になる

②どちらの変数集合の周辺分布もガウス分布になる

Page 28: PRML 2.3.1-2.3.2

同時ガウス分布 𝒩 𝐱 𝝁, 𝚺 があるとする

𝐱 =𝐱𝑎𝐱𝑏

, 𝝁 =𝝁𝑎𝝁𝑏

,

𝚺 =𝚺𝑎𝑎 𝚺𝑎𝑏𝚺𝑏𝑎 𝚺𝑏𝑏

, 𝚲 =𝚲𝑎𝑎 𝚲𝑎𝑏𝚲𝑏𝑎 𝚲𝑏𝑏

条件付き分布:

𝑝 𝐱𝑎 𝐱𝑏 = 𝒩 𝐱𝑎 𝝁𝑎|𝑏, 𝚲𝑎𝑎−1

𝝁𝑎|𝑏 = 𝝁𝑎 + 𝚺𝑎𝑏𝚺𝑏𝑏−𝟏 𝐱𝑏 − 𝝁𝑏

周辺分布: 𝑝(𝐱𝑎) = 𝒩 𝐱𝑎 𝝁𝑎, 𝚺𝑎𝑎

今回の結論

28