18
論論論論論論 7 論論論論論論論論論 EM 論論論論論論 論論

論理生命学第 7 回: 潜在変数モデルと EM アルゴリズム

  • Upload
    nibal

  • View
    139

  • Download
    0

Embed Size (px)

DESCRIPTION

論理生命学第 7 回: 潜在変数モデルと EM アルゴリズム. 渡辺一帆. 内容. 潜在変数モデルとは 例)混合正規分布      隠れマルコフモデル EM ( Expectation Maximization )法 潜在変数モデルの最尤推定のためのアルゴリズム. 講義資料: http://hawaii.naist.jp/~wkazuho/index-j.html. 混合正規分布(1). Gaussian Mixture Model ( GMM ). コンポーネント:. M 次元正規分布. 混合比 :. は確率ベクトル. パラメータ :. - PowerPoint PPT Presentation

Citation preview

Page 1: 論理生命学第 7 回: 潜在変数モデルと EM アルゴリズム

論理生命学第 7 回:潜在変数モデルと EM アルゴリズ

渡辺一帆

Page 2: 論理生命学第 7 回: 潜在変数モデルと EM アルゴリズム

内容

潜在変数モデルとは  例)混合正規分布     隠れマルコフモデル

EM ( Expectation Maximization )法

 潜在変数モデルの最尤推定のためのアルゴリズム

講義資料: http://hawaii.naist.jp/~wkazuho/index-j.html

Page 3: 論理生命学第 7 回: 潜在変数モデルと EM アルゴリズム

混合正規分布(1)

K

kkk xgaxp

1

)|()|( w

Gaussian Mixture Model ( GMM )

Mk

K

kkkkk Raaa ,1,0|,

1

w 応用)クラスタリング , 密度推定

2

||||exp

2

1)|(

2k

Mk

xxg

M 次元正規分布

コンポーネント:

パラメータ :

1,01

K

kkk aa混合比 :

)1(x

)2(x

)1(x)2(x

.

. .

. .

.

.

.

..

..

.. . ..

. ...

.

.. .

..

.),...,,( 21 Kaaaa は確率ベクトル

MRx

Page 4: 論理生命学第 7 回: 潜在変数モデルと EM アルゴリズム

混合正規分布(2)

K

kkk

y

xgayxpxp1

)|()|,()|( ww

K

k

yk

k

xgyxp1

)(

)|(),|( μ

)0,0,1(y

K

k

ykk

k

xgayxp1

)(

)|()|,( w

)}1,...,0,0(...,),0...,,0,1{(),...,( )()1( Kyyy

)0,1,0(y

)1,0,0(y

K

k

yk

k

ayp1

)(

)|( a

どれか一つの要素のみが 1.

潜在変数(隠れ変数、不観測変数)

周辺化

Page 5: 論理生命学第 7 回: 潜在変数モデルと EM アルゴリズム

隠れマルコフモデル(1)

1

3

2

ija :状態遷移確率

状態 i から状態 j へ遷移する確率

imb :出力確率

状態 i において m を出力する確率

},...,,{ 21 nxxxx

ijaA

imbB

)}1,...,0,0(...,),0...,,0,1{(

),...,( )()1(

M

ttt xxx

データ系列

11

K

jija

11a 22a

12a

31a

11

M

mimb

KK

MK

応用)文字列、時系列のモデリング

Hidden Markov Model (HMM)

13a

Page 6: 論理生命学第 7 回: 潜在変数モデルと EM アルゴリズム

隠れマルコフモデル(2)

)0...,,0,1(1 y

1

3

2

簡単のため             (状態1からスタート)

)}1,...,0,0(...,),0...,,0,1{(

),...,( )()1(

K

ttt yyy

K

j

K

i

yyijtt

it

jtaAyyp

1 11

)(1

)(

),|(

K

i

M

m

xyimtt

mt

itbByxp

1 1

)()(

),|(

2

)|,(...)|(y yn

pp wyxwx

n

ttt

n

ttt ByxpAyypp

121 ),|(),|()|,( wyx

周辺化HMM の尤度

),( BAw

Page 7: 論理生命学第 7 回: 潜在変数モデルと EM アルゴリズム

演習

混合二項分布(           は既知)

xNxxNx ppx

Napp

x

Naxp

)1()1()1()|( 2211w

}10,10,10;,,{ 2121 ppappaw について

(1)潜在変数を                  として を表せ

)}1,0(),0,1{(),( )2()1( yyy )|,( wyxp

},...,2,1,0{ Nx N

(2)ベイズの定理

により        を表せ),|( wxyp

y

yxp

yxpxyp

)|,(

)|,(),|(

w

ww

Page 8: 論理生命学第 7 回: 潜在変数モデルと EM アルゴリズム

最尤推定

学習データ : },...,{ 1 nxxx },...,{ 1 nyyy潜在変数 :

最尤推定量 :

潜在変数モデルでは

EM ( Expectation Maximization )法 :

    潜在変数モデルの最尤推定のための(効率的な)アルゴリズム

)|( wxp尤度関数 :    

)|(logmaxargˆ wxww

pML

y

wyxwx )|,(log)|(log pp

 混合分布の場合:各   は独立と仮定ix

n

i yii

n

ii

i

yxpxpp11

)|,()|()|( wwwx

Page 9: 論理生命学第 7 回: 潜在変数モデルと EM アルゴリズム

EM アルゴリズム

1.     に適当な初期値を与える

w

EM アルゴリズム

w

(密度関数ではない)

)|,(log)~,|()~;( wyxwxywwy

ppQ とする

Q 関数

w~

2. E ステップ:        を計算

)~;( wwQ

3. M ステップ:        を最大にする   を   とする

)~;( wwQ

w4.   の対数尤度を計算し、収束しているか判定する

  収束していなければ、      として 2. に戻る

ww ˆ~

Page 10: 論理生命学第 7 回: 潜在変数モデルと EM アルゴリズム

準備:カルバック情報量

)(xq

)()( xqxp 0)||( qpK

xが離散のとき

xが連続のとき

)(xp2つの確率分布   と    の間の擬距離

x xq

xpxpqpK

)(

)(log)()||(

dxxq

xpxp

)(

)(log)(

           等号は         のときのみ 

dxxp

xq

xq

xpxpqpK 1

)(

)(

)(

)(log)()||(

1log tt

(等号成立は t=1 )より)(

)(

xp

xqt として

1ty

ty log

t

y

1t

☆ 注意 データ x 上の確率分布間以外にも潜在変数 y 上やパラメータ w 上の確率分布間の距離を測る場合もあります

Page 11: 論理生命学第 7 回: 潜在変数モデルと EM アルゴリズム

EM アルゴリズム(2)

yy

wyxwyxw )~|,(log)|,(log)( ppL

(∵ベイズの定理)

EM 法で尤度が増加する理由

y

y

wyx

wyx

)~|,(

)|,(

logp

p

)~,|(/)~|,(

),|(/)|,(log

wxywyx

wxywyx

pp

pp

),|(

)~,|(log

)~|,(

)|,(log

wxy

wxy

wyx

wyx

p

p

p

p

両辺を       で期待値をとると)~,|( wxyp

(言いたいこと          )

0)ˆ( wL

Page 12: 論理生命学第 7 回: 潜在変数モデルと EM アルゴリズム

EM アルゴリズム(3)

)(wL

(∵カルバック情報量は非負)

EM 法で尤度が増加する理由(続き)

)),|(||)~,|(()~;~()~;( wxywxywwww ppKQQ

yy wxy

wxywxy

wyx

wyxwxy

),|(

)~,|(log)~,|(

)~|,(

)|,(log)~,|(

p

pp

p

pp

)~;~()~;( wwww QQ

潜在変数の分布に関するカルバック情報量

)~;(maxargˆ wwwww

Q ととれば、 0)ˆ( wL(尤度が必ず増加)

Page 13: 論理生命学第 7 回: 潜在変数モデルと EM アルゴリズム

混合正規分布の場合

潜在変数の事後分布

n

i

K

k

y

kiMk

ki

xga

p1 1

)(

)|(2

)|,(

wyx完全尤度 :

n

iii xyp

p

pp

1

),|()|(

)|,(),|( w

wx

wyxwxy

iyii

iiii yxp

yxpxyp

)|,(

)|,(),|(

w

ww

K

llil

K

k

ykik

xga

xgaki

1

1

)|(

)|()(

K

llil

kiki

ki

xga

xgaxyp

1

)(

)|(

)|(),|1(

w ( * )

}2

||||exp{)|(

2ki

ki

xxg

各データは独立

Page 14: 論理生命学第 7 回: 潜在変数モデルと EM アルゴリズム

混合正規分布の場合

Q 関数 )|,(log)~,|()~;( wyxwxywwy

ppQ

n

i

K

kkik

ki xgayp

1 1

)( )|(log)~,|( y

wxy

n

i

K

kkiki

ki xgaxyp

1 1

)( )|(log)~,|1( w

n

ii

kik xypn

1

)( )~,|1( w i

n

ii

ki

kk xxypn

1

)( )~,|1(1

w とすると

コンポーネント k からのデータ数コンポーネント k からのデータの平均

K

k

kkkkk anQ

1

2

2

||||log)~;(

ww +(w に依存しない項 )

kk ˆ

n

na kk ˆ

(†) EM 法:

( * ) と (†) を繰り返す

n

ii

kik xypn

1

)( )~,|1( w

Page 15: 論理生命学第 7 回: 潜在変数モデルと EM アルゴリズム

応用例)混合正規分布 ( アルゴリズム )

初期化 E ステップ

M ステップ

繰り返す

終了

77.0)~,|1( )2( wii xyp

49.0ˆ1 a

51.0ˆ2 a

49.0~1 a

51.0~2 a

*  

* *

□ : data (     )

*

*

*

*40.0ˆ1 a

60.0ˆ2 a

50nk~

* *

76.0)~,|1( )1( wii xyp

Page 16: 論理生命学第 7 回: 潜在変数モデルと EM アルゴリズム

潜在変数モデルの実例   混合正規分布   隠れマルコフモデル

潜在変数モデルの最尤推定法のためのEM アルゴリズム

まとめ

Page 17: 論理生命学第 7 回: 潜在変数モデルと EM アルゴリズム

演習(つづき)

混合二項分布(           は既知)

xNxxNx ppx

Napp

x

Naxp

)1()1()1()|( 2211w

}10,10,10;,,{ 2121 ppappaw について

(3) n 個のデータ         が与えられたときの

    Q 関数       を計算せよ(    を用いて表せ)

},...,{ 1 nxxx

)~;( wwQ

},...,2,1,0{ Nx N

(4) EM 法による尤度最大化のためのアルゴリズムを導け

,kn k

(1)潜在変数を                  として を表せ

)}1,0(),0,1{(),( )2()1( yyy )|,( wyxp

(2)ベイズの定理 により        を表せ

),|( wxyp

y

yxp

yxpxyp

)|,(

)|,(),|(

w

ww

Page 18: 論理生命学第 7 回: 潜在変数モデルと EM アルゴリズム

ヒント

Q の最大化

K

k

kkkkk an

1

2

2

||||log

+(w に依存しない項 )

K

k k

kk

a

nn

n

n

1

/log はカルバック情報量なので非負

0log1

log/

log1 11

K

k

K

kkk

kkK

k k

kk annn

n

n

n

a

nn

n

n

K

k

kk

K

kkk n

nnan

11

loglog (等号成立は       のとき) n

na kk

2

||||

2

||||||||

2

|||| 222

2kk

kkk

kk

(等号成立は       のとき)

kk

)|,(log)~,|()~;( wyxwxywwy

ppQ