44
1 Chp9 参参参参 参参参参参 参参参参参参参参 参参参 EM 参参

Chp9 :参数推断

  • Upload
    soren

  • View
    80

  • Download
    6

Embed Size (px)

DESCRIPTION

Chp9 :参数推断. 本节课内容:计算似然的极大值 牛顿法 EM 算法. 极大似然估计. 似然函数:令 为 IID ,其 pdf 为 ,似然函数定义为 log 似然函数: 极大似然估计( MLE ):使得 最大的 ,即. 极大似然估计. 计算 MLE ,需要求似然函数的极值 解析法(如本章已讲过的例子) 数值计算:通过迭代 牛顿法:简单 EM 算法 迭代需要初始值,矩方法得到的结果是一个较好的初始值的选择. 牛顿法. 亦称牛顿 - 拉夫逊( Newton-Raphson )方法 - PowerPoint PPT Presentation

Citation preview

Page 1: Chp9 :参数推断

1

Chp9 :参数推断 本节课内容:计算似然的极大值

牛顿法 EM 算法

Page 2: Chp9 :参数推断

2

极大似然估计 似然函数:令 为 IID ,其 pdf 为 ,

似然函数定义为

log 似然函数:

极大似然估计( MLE ):使得 最大的 ,即

( );f x q1,..., nX X

( ) ( )1

;n

n ii

f Xq q=

=ÕL

( ) ( )logn nl q q= L

( ) ( )ˆ arg max arg maxn n nlq q

q q q= =L

q( )n qL

Page 3: Chp9 :参数推断

3

极大似然估计 计算 MLE ,需要求似然函数的极值

解析法(如本章已讲过的例子) 数值计算:通过迭代

牛顿法:简单 EM 算法

迭代需要初始值,矩方法得到的结果是一个较好的初始值的选择

Page 4: Chp9 :参数推断

4

牛顿法 亦称牛顿 - 拉夫逊( Newton-Raphson )方法

牛顿在 17 世纪提出的一种近似求解方程的方法 使用函数 的泰勒级数的前面几项来寻找方程 的

在 MLE 计算中,求 的根 对应处似然函数 取极值

( ) 0nl q¢ =

( )f x ( ) 0f x =

( )nl q

Page 5: Chp9 :参数推断

5

牛顿法 将 log 似然函数的导数 在 处进行 Taylor 展开:

从而得到

因此迭代机制为:

( ) ( ) ( ) ( ) ( )ˆ ˆ ˆ0 t t t tl l l Opq q q q q q q¢ ¢ ¢¢= = + - + -

( )l q¢ tq

( )( )

ˆt

t

t

l

l

qq q

q

¢» +

¢¢

( )( )

1ˆt

t t

t

l

l

qq q

q+

¢» +

¢¢

Page 6: Chp9 :参数推断

6

牛顿法 当参数 包含多个参数为向量时,迭代机

制为:

其中 为 log 似然函数 一阶偏导数(向量), 为二阶偏导数矩阵,

( )1 1ˆt t tnlq q q+ - ¢» +H

( )( )

1ˆt

nt t

tn

l

l

qq q

q+

¢» +

¢¢

( )1,..., Kq q q=

( )tnl q¢

H( )nl q

( )2n

jkj k

l q

q q

¶=

¶ ¶H

Page 7: Chp9 :参数推断

7

EM 算法(Expectation Maximization)

EM : Expectation Maximization 特别适合:“缺失数据”( missing data )问题中

对参数用 MLE 求解 由于观测过程的限制或问题引起的数据缺失(如聚类

问题) 直接对观测数据,似然函数极值解析不可求;但若假

设缺失数据(隐含变量)的值已知,则似然函数形式很简单

Page 8: Chp9 :参数推断

8

EM 算法(Expectation Maximization)

EM : Expectation Maximization E— 步:求期望( Expectation )

在给定观测数据的条件下,计算完整似然的期望(随机变量为隐含变量) 涉及计算缺失数据的条件期望,需要利用参数的当前估计值

M — 步:求极大值( Maximization ) 求使得完整似然的期望最大的参数

又是一个极大值求解问题。通常可以解析求解,这时 EM 是一个很方便的工具;否则,需借助一个可靠的最大化方法求解

Page 9: Chp9 :参数推断

9

混合模型( Mixed Model ) 混合模型: 其中 ,满足 即混合模型由 K 个成分组成,每个成分 的

权重为 如一个班级每个学生的身高为 ,

假设男生身高和女生分别服从高斯分布 、 则 其中 p 为男生的比例

混合模型的参数估计是 EM 算法最典型的应用

( ) ( )1

| |K

k k kk

f x f xq a q=

=å( )1 1,..., , ,...,K Kq a a q q=

ka1

1K

kk

a=

=å( )|k kf x q

X( )2

1 1,N m s ( )22 2,N m s

( ) ( ) ( )2 21 1 2 2~ , 1 ,X pN p Nm s m s+ -

Page 10: Chp9 :参数推断

10

混合高斯模型(Mixture of Gaussians Model , GMM)

若混合模型中每个成分为高斯分布, 则称为混合高斯模型

假设每个数据点根据如下规则产生: 随机选择一个成分,选择第 k 个成分的概率为 从第 k 个成分产生数据:

( )Y kP =( )~ ,k kX N m S

( ), 1k kk

Y kPa a= = =å

( ) ( ) ( ) ( ) | ~ , ; ,k k k k kf x f x Y k N xm f m= = S = S

( ) ( ) ( )1 1

; , ; ,K K

k k k k kk k

f x f x xm a a f m= =

S = = Så å

Page 11: Chp9 :参数推断

11

混合高斯模型 问题:给定 IID 数据 ,求参数

MLE 不能解析求得,因此我们通过数值计算(如EM 算法)求解。

将非完整数据 转换为完整数据 ,其中 为 所属的类别。

, ,k k ka m S

( ) ( )1 1, ,..., ,n nX Y X YiY iX

1,..., nX X

1,..., nX X

Page 12: Chp9 :参数推断

12

观测数据和缺失数据 观测数据:观测到随机变量 X 的 IID 样本:

缺失数据:未观测到的隐含变量 Y 的值:

在 GMM 中,若 来自第 k 个分成,则

完整数据:包含观测到的随机变量 X 和未观测到的随机变量 Y 的数据,

( )1,..., nX X X=

iX iY k=

( )1,..., nY Y Y=

( ),Z X Y=

Page 13: Chp9 :参数推断

13

似然函数 给定观测数据 ,非完整数据的似然

函数为:

涉及求和的 log 运算,计算困难

( )1,..., nX X X=

( )( ) ( )1

log | log |n

ii

X f Xq q=

= ÕL

( )1 1

log |n K

k k i ki k

f Xa q= =

æ ö÷ç= ÷ç ÷ç ÷è øå å

Page 14: Chp9 :参数推断

14

完整似然函数 若隐含变量的值 也已知,得到完整数

据的似然函数为:

明显简化

( )1,..., nY Y Y=

( )( ) ( ) ( )( )1 1

log | , log , | log , |nn

i i i ii i

X Y f X Y f X Yq q q= =

= =åÕL

( ) ( )( )1

log | , |n

i i ii

f X Y f Yq q=

( )( )1

log |i i i

n

Y Y i Yi

f Xa q=

( )( ) ( )1 1

log | log |n K

k k i ki k

X f Xq a q= =

æ ö÷ç= ÷ç ÷ç ÷è øå åL

( )( ) ( )

, |

| , |

f x y

f x y f y

q

q q=

iY iY

Page 15: Chp9 :参数推断

15

EM—Expectation

由于 Y 是未知的,计算完整似然函数对 Y 求期望 去掉完整似然函数中的变量 Y

定义

根据贝叶斯公式: Y 的分布为

, log | , | ,t tQ X Y X LE

log | , | , t

yX y f y X dy

L

1

|| , || ,

| |

i i i

t ty y i yi i it

i i Kti

k k i kk

f Xf X y f yf y X

f X f X

1

| , | ,n

t ti i

i

f y X f y X

Page 16: Chp9 :参数推断

16

EM—Maximization

对 E 步计算得到的完整似然函数的期望 求极大值( Maximization ),得到参数新的估计值,即

每次参数更新会增大似然(非完整似然)值 反复迭代后,会收敛到似然的局部极大值

, tQ

1 arg max ,t tQ

Page 17: Chp9 :参数推断

17

EM 的收敛性( 1 ) , log | , | ,t tQ X Y X LE

log | , | , t

yX y f y X dy

L

log | , | | , t

yf y X f X f y X dy

log | , | , t

yf y X f y X dy

log | , | , log |t

yf y X f y X dy f X

log | | , t

yf X f y X dy

( ) ( ) ( ) ( )| , , | | , |X Y f X Y f Y X f Xq q q q= =L

Page 18: Chp9 :参数推断

18

EM 的收敛性( 2 )

所以相邻两次似然之差为

, log | , | , log |t t t t t

yQ f y X f y X dy f X

t

| log |nl X f X

1 1| | , ,t t t t t tn nl X l X Q Q

, log | , | , log |t t

yQ f y X f y X dy f X

当 时

1| ,log | ,

| ,

t

t

ty

f y Xf y X dy

f y X

Page 19: Chp9 :参数推断

19

EM 的收敛性( 3 ) 所以

其中

为 KL 散度。

所以: 如果 Q 增大,则观测数据的似然增大

在 M 步, Q肯定增大 当 Q 取极大值时,观测数据的似然也在相同点取极大值 EM 算法会收敛到似然的局部极大值

1 1 1| | , , ,t t t t t t t tn nl X l X Q Q D

1

1

| ,, log | , 0

| ,

t

t t t

ty

f y XD f y X dy

f y X

1

1 1| ,

| | , , log | ,| ,

t

t t t t t t tn n ty

f y Xl X l X Q Q f y X dy

f y X

( ) ( )( )( )

, logf x

D f g f x dxg x

æ ö÷ç ÷= ç ÷ç ÷÷çè øò

Page 20: Chp9 :参数推断

20

混合模型中的 EM 算法 完整似然函数:

Y 的条件分布:

1

|, || ,

| |

i i i

ty y i yi it

i i Kti

k k i kk

f Xf y Xf y X

f X f X

1

| , | ,n

t ti i

i

f y X f y X

( )( ) ( )( )1

log | , log |i i i

n

Y Y i Yi

X Y f Xq a q=

=åL

Page 21: Chp9 :参数推断

21

( )( )1

log |i i i

n

Y Y i Yi

f Xa q=å

,1

log |i

K

y l l l i ll

f X

log | , | , t

y Y

X Y f y X

L

1

| ,n

tj j

j

f y X

Expectation

, log | , | ,t tQ X Y X LE t: 第 t 次猜测值

y Y

1

n

i

y Y

1

| ,n

tj j

j

f y X θ

( )( ) ( )( )1

log | , log |i i i

n

Y Y i Yi

X Y f Xq a q=

=åL

Page 22: Chp9 :参数推断

22

Expectation , tQ

,1 1 1

, log | | ,i

K n nt t

l l i l y l j jl i y Y j

Q f X f y X

1

,1 1 1 1 1 1

log | | ,i

i n

K n K K K nt

l l i l y l j jl i y y y j

f X f y X

当 y i l 等 于 0

1

n

i

y Y

,1

log |i

K

y l l l i ll

f X

1

| ,n

ti i

i

f y X θ

1 1 11 1 1 1 1

| , | ,i i n

K K K K nt t

j j iy y y y j

j i

f y X f l X

1 1

log |K n

l l i ll i

f X

Page 23: Chp9 :参数推断

23

1 1 11 1 1 1 1

| , | ,i i n

K K K K nt t

i i iy y y y j

j i

f y X f l X

1 1 1 1

log | | , | ,j

K n n Kt t

l l i l i i il i j y

j i

f X f y X f l X

Expectation

,1 1 1

, log | | ,i

K n nt t

l l i l y l j jl i y Y j

Q f X f y X

1

,1 1 1 1 1 1

log | | ,i

i n

K n K K K nt

l l i l y l j jl i y y y j

f X f y X

, tQ

1 1

log |K n

l l i ll i

f X

Page 24: Chp9 :参数推断

24

Expectation

1 1 1 1

log | | , | ,j

K n n Kt t

l l i l i i il i j y

j i

f X f y X f l X

, tQ

1

1 1

, log | | ,K n

t tl l i l i

l i

Q f X f l X

1 1 1 1

, log | , log | | ,K n K n

t t tl i l i l i

l i l i

Q f l X f X f l X

1 1 1 1

, log | , log | | ,K n K n

t t tl i l i l i

l i l i

Q f l X f X f l X

Page 25: Chp9 :参数推断

25

Maximization

给定第 t 次的猜测 t,

我们计算,使得上述期望最大。

反复迭代,直到收敛。

1 1( , , , , , , )K K

1 1 1 1

, log | , log | | ,K n K n

t t tl i l i l i

l i l i

Q f l X f X f l X

Page 26: Chp9 :参数推断

26

混合高斯模型 GMM )中的 EM 算法

高斯分布:

最大化:

目标:

1 1 1 1

, log | , log | | ,K n K n

t t tl i l i l i

l i l i

Q f l X f X f l X

1/ 2 1/ 2

1 1| , exp

22 | |

T

l l l l l ld

l

f x x xΣΣ

Page 27: Chp9 :参数推断

27

混合高斯模型 GMM )中的 EM 算法

高斯分布:

最大化:

目标:

1 1 1 1

, log | , log | | ,K n K n

t t tl i l i l i

l i l i

Q f l X f X f l X

1/ 2 1/ 2

1 1| , exp

22 | |

T

l l l l l ld

l

f x x xΣΣ

只与 l 相关

只与 l 相关

只与 l 相关

只与 l 相关

Page 28: Chp9 :参数推断

28

计算 l

由于 l有限制,我们引入 Lagrange乘子 , 并解下述方程。

1 1 1

log | , 1 0, 1, ,K n K

tl i l

l i ll

f l X l K

θ

1

1| , 0, 1, ,

nt

ii l

f l X l K

1

| , 0, 1, ,n

ti l

i

f l X l K

1 1 1 1

, log | , log | | ,K n K n

t t tl i l i l i

l i l i

Q f l X f X f l X

Page 29: Chp9 :参数推断

29

计算 l

1

| , 0, 1, ,n

ti l

i

f l X l K

1 1 1

| , 0K n K

ti l

l i l

f l X

1 1 1

| , 0n K K

ti l

i l l

f l X

1

n

1

1 1 1 1

, log | , log | | ,K n K n

t t tl i l i l i

l i l i

Q f l X f X f l X

n

Page 30: Chp9 :参数推断

30

计算 l

1

| , 0, 1, ,n

ti l

i

f l X l K

1

1| ,

nt

l ii

f l Xn

1

1| ,

nt

l ii

f l Xn

1

( | )| ,

( | )

t tt l l i l

i Kt tj j i j

j

f Xf l X

f X

1 1 1 1

, log | , log | | ,K n K n

t t tl i l i l i

l i l i

Q f l X f X f l X

n

Page 31: Chp9 :参数推断

31

计算 l

只 需 最 大 化 该 项

对 GMM

1/ 2 1/ 2

1 1| , exp

22 | |

T

l l l l l ld

l

f x x x

Σ

Σ

( , )l l l

112 2

1log ( | , ) log 2 log | |

2Td

l l l l l l lf x x x

unrelated

1 1 1 1

, log | , log | | ,K n K n

t t tl i l i l i

l i l i

Q f l X f X f l X

Page 32: Chp9 :参数推断

32

计算 l

因此,我们需要最大化:

112 2

1log ( | , ) log 2 log | |

2Td

l l l l l l lf x x x

unrelated

1 1 1 1

, log | , log | | ,K n K n

t t tl i l i l i

l i l i

Q f l X f X f l X

1

1 1

1 1, log | | | ,

2 2

K nTt t

l l l l il i

Q x x f l X

Page 33: Chp9 :参数推断

33

计算 l

因此,我们需要最大化:

1

1

,| , 0

t nt

i l iil

QX f l X

( )

( )1

1

| ,

| ,

nt

i ii

l nt

ii

f l X X

f l X

qm

q

=

=

å

1

( | )| ,

( | )

t tt l l i l

i Kt tj j i j

j

f Xf l X

f X

1

1 1

1 1, log | | | ,

2 2

K nTt t

l l l l il i

Q x x f l X

Page 34: Chp9 :参数推断

34

计算 l

因此,我们需要最大化:

1

,0 | , 0

t nT t

l i l i l iil

QX X f l X

( )( )( )

( )1

1

| ,,

| ,

nTt

i i l i li

l nt

ii

f l X X X

f l X

q m m

q

=

=

- -S =

å

å

1

( | )| ,

( | )

t tt l l i l

i Kt tj j i j

j

f Xf l X

f X

θ

1

1 1

1 1, log | | | ,

2 2

K nTt t

l l l l il i

Q x x f l X

Page 35: Chp9 :参数推断

35

总结 第 t 次的估计为 则第 t+1 次的估计为

( )1 1 1,.., , ,.., , ,..,

K K K

t t t t t t tq m m a a= S S

( )1

1

1| ,

nt tl i

i

f l Xn

a q+

=

= å

( )

( )1 1

1

| ,

| ,

nt

i it il n

ti

i

f l X X

f l X

qm

q

+ =

=

å

( )( )( )

( )

1 1

1 1

1

| ,

| ,

n Tt t ti i l i l

t il n

ti

i

f l X X X

f l X

q m m

q

+ +

+ =

=

- -S =

å

å

1

( | )| ,

( | )

t tt l l i l

i Kt tj j i j

j

f Xf l X

f X

Page 36: Chp9 :参数推断

36

GMM实验结果举例 来自 Gaussian 分布 N(0,1) 的 5, 50 个点

ˆ ˆ0.5678, =0.4403m s= ˆ ˆ0.2053, =0.8570m s=

Page 37: Chp9 :参数推断

37

GMM实验结果举例 来自 Gaussian 分布 N(0,1) 的 500, 5000 个点

ˆ ˆ0.0362, =0.9561m s= ˆ ˆ0.0103, =1.0119m s=

Page 38: Chp9 :参数推断

38

来自均分分布 Uniform[-1,1] 的 500 个点

ˆ ˆ0.0462, =0.3403m s=

Page 39: Chp9 :参数推断

39

来自分布 的 50, 500 个点( ) ( ) ( )20.5 0,1 0.5 5,2f x N N= +

ˆ (0.4526 0.5474)

ˆ (0.5880 5.4627)

ˆ (1.1873 1.2566 )

a

m

s

=

=

=

ˆ (0.4923 0.5077)

ˆ (0.0859 5.2136)

ˆ (1.0684 1.8707)

a

m

s

=

=

=

Page 40: Chp9 :参数推断

40

来自分布 的 5000, 50000个点

( ) ( ) ( )20.5 0,1 0.5 5,2f x N N= +

ˆ (0.5067 0.4933)

ˆ (0.0017 5.0338)

ˆ (1.0053 1.9812)

a

m

s

=

=

=

ˆ (0.5132 0.4868)

ˆ (0.0245 5.0674)

ˆ (1.0122 1.9680)

a

m

s

=

=

=

Page 41: Chp9 :参数推断

41

来自分布 的个点( k=3, 4 )

( ) ( ) ( ) ( )2 20.4 0,1 0.3 6,2 0.3 14,3f x N N N= + +

ˆ (0.2670 0.2585 0.3314 0.1431)

ˆ (-0.1049 3.6444 6.7161 17.1680)

ˆ (1.0103 1.5997 2.2155 2.1200)

a

m

s

=

=

=

ˆ (0.2652 0.3032 0.4316)

ˆ ( -0.1186 6.4107 14.5237)

ˆ (0.9985 2.1104 2.7735)

a

m

s

=

=

=

Page 42: Chp9 :参数推断

42

来自分布 的个点( k=3, 2 )

( ) ( ) ( ) ( )2 20.4 0,1 0.3 6,2 0.3 14,3f x N N N= + +

ˆ (0.5126 0.4874)

ˆ (2.8369 13.8007)

ˆ (3.4490 3.3246)

a

m

s

=

=

=

ˆ (0.2652 0.3032 0.4316)

ˆ ( -0.1186 6.4107 14.5237)

ˆ (0.9985 2.1104 2.7735)

a

m

s

=

=

=

Page 43: Chp9 :参数推断

43

EM总结 总结

EM 会收敛到局部极值,但不保证收敛到全局最优 对初值很敏感:通常需要一个好的、快速的初始化过程

如矩方法得到的结果 在 GMM 中,用 K-means 聚类

适合的情况 缺失数据不太多时 数据维数不太高时(数据维数太高的话, E 步的计算很费时)

参考文献 Jeff A. Bilmes, A Gentle Tutorial of the Algorithm and its Application

to Parameter Estimation for Gaussian Mixture and Hidden Markov Models

Page 44: Chp9 :参数推断

44

下节课内容 下节课内容

Bootstrap实验 再下节课内容

假设检验: Chp10