PRML 1.6 情報理論

PRML読書会第1回1.6

2010-05-01SUHARA YOSHIHIKO

id:sleepy_yoshi

1

目次• 1.6 情報

– 1.6.1 相対エントロピーと情報

2

1.6

3

情報の定義• p(x) の情報 h(x)

– (1) h(x) は p(x) の単調減少関数• しい出事の方が「きの合い」が大きい

– (2) h(x,y) = h(x) + h(y)• 情報の加法性

上記を満たす関数 ⇒ 対数のみ (演習1.28)

)(log)( 2 xpxh −=

ここでいう情報はあくまで情報 (information theory) における約束事

(1.92)

4

に対数を

5

ンのをんでた

6

[Shannon 1948]より

7

＿＿＿／＼

／ノ＼ u. ＼！？／（●）（●）＼| （__人__） u. |

＼ u.｀ ⌒´ ／

ノ＼／´ ヽ

＿＿＿_

／＼！？？／ u ノ＼／ u （●）＼| （__人__）|＼ u .｀ ⌒／

ノ＼／´ ヽ

8

naoya_tさんに答えを教えてもらった

9

演習1.28• h(p2) = h(p p) = h(p) + h(p) = 2h(p)

• h(pk+1) = h(pk p) = h(pk) + h(p)= k h(p) + h(p) = (k + 1) h(p)

• h(pn/m) = n h(p1/m) = m・n/m h(p1/m)= n/m h(pm/m) = n/m h(p)

)ln(

)(

)ln(

)(

)ln(

)(

)ln(

)(

q

qh

qx

qxh

q

qh

p

phx

x

===

ここでp=qx

)ln()( pph ∝∴)ln(:)ln()(:)( qpqhph =

10

よって対数で表現される!

＿＿＿_

／＼／＼ｷﾘｯ. ／（ー）（ー）＼

／ ⌒（__人__）⌒ ＼| |r┬-| |

＼ `ー’´ ／ノ＼

／´ ヽ| ｌ＼ヽ -一””””~~｀`’ー?､ -一”””’ー-､.ヽ＿＿＿＿(⌒)(⌒)⌒) ) (⌒＿(⌒)⌒)⌒))

11

ポイント：における

12

エントロピー

13

エントロピーの定義• エントロピー: 情報の平均

– 情報 (1.92)の期待値

∑−=x

xpxpx )(log)(][H 2(1.93)

ただし，

0)( =xp 0)(ln)( =xpxpのとき

0lnlim 0 =→ pppより

14

エントロピーの• 1)

– 8個の状態を等で取る変数xの場合

• 2)– 8個の状態 {a,b,c,d,e,f,g,h}– は (1/2, 1/4, 1/8, 1/16, 1/64, 1/64, 1/64, 1/64)

bit38

1log

8

18][H 2 =×−=x

bit264

4log

64

4

16

1log

16

1

8

1log

8

1

4

1log

4

1

2

1log

2

1][H 22222 =−−−−−=x

非一様な分布のエントロピーは，一様な分布のエントロピーより小さい

15

符号化におけるエントロピーの解釈• 変数がどの状態にあるかを受信者に伝えたい

– (非一様の分布の場合) よく起きる事象に短い符号を，ま起きない事象にい符号を使うことで，符号

の平均を短くできる

bit2664

144

16

13

8

12

4

11

2

1=××+×+×+×+×=平均符号長

変数のエントロピーと同じ⇒ イなし符号化 (noiseless coding theorem)

• 2)の場合– {a,b,c,d,e,f,g,h}に対し，符号偱 (0, 10, 110, 1110,

111100, 11101, 111110, 11111) を割り当てる

16

ポイント：エントロピー最短符号

17

エントロピーの別の解釈 (1/2)• 同じ物体を箱に分けて入れる問題

– N個の物体をたくさんの箱に分けて入れる– i番目の箱にはni個の物体が存在– N個の物体を箱に入れる方法: N!通り– i番目の箱に物体を入れた順番: ni!通り ←区別しない

⇒ N個の物体の箱への入れ方の総数 ( ) は，

∏=

i in

�W

!

!(1.94)

18

エントロピーの別の解釈 (2/2)• エントロピーを多の対数を適当に定数し

たものと定義∑−==i

in�

��

W�

H !ln1

!ln1

ln1

∑ =i i �n

(1.95)

�� −≅ ln!lnスターリングの近似式とより

∑ ∑−=

=∞→

i i

iiii

�pp

�

n

�

nH lnlnlim (1.97)

箱は偶変数Xの状態xiと解釈でき，p(X=xi) = piとすると

∑−=i

ii xpxppH )(ln)(][ (1.98)

19

分布とエントロピーの関係• 鋭いピークを持つ分布 ⇒ エントロピー小• 多くの値に広がる分布 ⇒ エントロピー大

20

エントロピーの最大化

21

エントロピーの最大化 (1/2)• ラグランジュ乗数法を使って最大値を求める

– の総和は1という制約を入れる

−+−= ∑∑

i

i

i

ii xpxpxpH 1)()(ln)(~

λ (1.99)

01)()(ln)()(

=

−+−

∂∂

∑∑i

i

i

ii

k

xpxpxpxp

λ

( ) 01)(ln =++− λkxp

p(xi) が全て等しいとき (p(xi) = 1/M) 最大化最大値はln M

22

エントロピーの最大化 (2/2)• エントロピーの2階微分を計算

• 負定値のため，凹関数であることがわかり，停点が最大値であることが示された

( ) λ++− 1)(ln ixp

i

ij

ji pI

xpxp

H 1

)()(

~

−=∂∂

∂

参考 (1階微分):

(1.100)

23

補足: ラグランジュ乗数法• 制約付き非線形最適化の常套手段 (詳しくは付録E)

• g(x) = 0 の制約において f(x) を最適化⇒ 以下で定義されるラグランジュ関数の停点を求める

)()(),( xxx gfL λλ +≡

0)()( =∇+∇ xx gf λすなわち

24

演習1.29• エントロピー最大化をJensenの等式からく• 解)

– あ・と・で

25

エントロピーの連続値への拡張

26

連続値への拡張• 基本的にΣが∫に変わるだけ

27

連続値への拡張(終)

28

もとい

29

連続値への拡張 (1/2)• xを等間隔の区間Δに分ける• p(x)が連続であると仮定すれば値のよ

り，各区間に対して以下を満たすxiが存在する

∫∆+

∆∆=

)1(

)(d)(i

iixpxxp (1.101)

iΔ

p(xi)

x

p(x)

(i+1)Δ

30

連続値への拡張 (2/2)• Σp(xi)Δ=1 がりつので

∑ ∆∆−=∆i

ii xpxpH ))(ln()(

∑∑ ∆∆−∆−=i

i

i

ii xpxpxp ln)()(ln)(

∆−∆−= ∑ ln)(ln)(i

ii xpxp (1.102)

• 第2項のlnΔを無視してΔ→0の極限を考える– 第1項はp(x)ln p(x) に収束

∫∑ −=

∆−→∆

xxpxpxpxpi

ii d)(ln)()(ln)(lim0

(1.103)

微分エントロピー

31

連続値への拡張 (2/2)• Σp(xi)Δ=1 がりつので

∑ ∆∆−=∆i

ii xpxpH ))(ln()(

∑∑ ∆∆−∆−=i

i

i

ii xpxpxp ln)()(ln)(

∆−∆−= ∑ ln)(ln)(i

ii xpxp (1.102)

• 第2項のlnΔを無視してΔ→0の極限を考える– 第1項はp(x)ln p(x) に収束

∫∑ −=

∆−→∆

xxpxpxpxpi

ii d)(ln)()(ln)(lim0

(1.103)

微分エントロピー

連続変数を厳密に規定するために無限

ビット数が必要であることを反映

32

微分エントロピーの最大化 (1/2)∫−= xxxx d)(ln)(][H pp

1d)( =∫∞

∞−xxp

µ=∫∞

∞−xxxp d)(

22 d)()( σµ =−∫∞

∞−xxpx

連続変数の場合のエントロピー最大化を考える．以下の3つの制約のもとで最大化

(1.104)

規格化

分布の平均

分布の広がり

−+− ∫∫

∞

∞−

∞

∞−1)(d)(ln)( 1 dxxpxxpxp λ

−−+

−+ ∫∫

∞

∞−

∞

∞−

22

32 d)()(d)( σµλµλ xxpxxxxp

ラグランジュ関数=

(1.105)

(1.106)

(1.107)

33

微分して0とおきます

34

微分エントロピーの最大化 (2/2)• 以下の結果が得られる (演習1.34)⇒ 微分エントロピーを最大化する分布はガウス分布

−−=

2

2

2/12 2

)(exp

)2(

1)(

σµ

πσx

xp

非負制約を設けなかったけれど，結果オーライガウス分布の微分エントロピーは以下になる (演習1.35)

{ })2ln(12

1][ 2πσ+=xH

(1.109)

(1.110)

σ2が増えて分布が幅広くなるにつれて大きくなるのとき，H[x] < 0 となる22

1πσ>

e

35

条件付きエントロピー• 同時分布 p(x,y) を考える• xの値が既知とすれば，対応するyの値を特定す

るために必要な情報は- ln p(y|x)• したがって，yを特定するために必要な情報の平

均は，

∫∫−= xyxyxyxy dd)|(ln),(]|[H pp (1.111)

これをxに対するyの条件付きエントロピーと呼ぶ

36

演習1.37• H[x,y] = H[y|x] + H[x] を証明せよ⇒ ホワイトボード

37

1.6.1相対エントロピーと相

38

相対エントロピー• 未知の分布 p(x) を近似的に q(x) でモデル化

– q(x) を用いて– xの値を特定するために必要な加情報の平均は

xx

xx d

)(

)(ln)(∫

−=p

qp

( )∫ ∫−−−= xxxxxx d)(ln)(d)(ln)()||(KL ppqpqp

この値は，カルバック-ライブラーダイバージェンス (KLd)

または相対エントロピーと呼ばれる

)||()||( pqKLqpKL ≠注意:

(1.113)

39

やや唐突ですが凸関数の話をします

40

凸関数)()1()())1(( bfafbaf λλλλ −+≤−+ (1.114)

41

演習1.36• 関数が真に凸であることと，2階微分が正である

ことと等価であることを示せ

• 直感的な解– 2階微分が正 ⇒ 微分 (接線の傾き) が常に増加

42

インセンの等式• (1.114)を任意の点集合へ拡張した(1.115)は，

イェンンのと呼ばれる (演習1.38)

(1.115)∑∑==

≤

M

i

ii

M

i

ii xfxf11

)(λλ

0≥iλ 1=∑i iλここで

( ) )]([][ xfExEf ≤

( ) ∫∫ ≤ xpfpf d)()(d)( xxxxx

(1.116)

(1.117)

λiを変数x上の分布となすと

連続変数に対しては，

43

KLdの解釈• インセンの等式をKLdへ適用

– ln(x) が凸関数であることを用

∫∫ =−≥

−= 0d)(lnd)(

)(ln)()||(KL xxx

x

xx q

p

qpqp

(1.118)

等号は全てのxについてq(x) = p(x) のときりつのでKLdは2つの分布 p(x)とq(x) の隔たりを表していることがわかる

44

KLdの最小化 ⇒ ?!• 未知の分布のモデル化の問題

– データが未知の分布 p(x) からサンプルされる– 可変なパラメータθを持つ分布 q(x|θ) を用いて近似– θを決める方法⇒ p(x) と p(x|θ) のKLdをθについて最小化

• p(x) はわからないので,xnの有限和で近似 ((1.35)式)

{ }∑=

+−≈�

n

nn pq�

qp1

)(ln)|(ln1

)||(KL xx θ

KLdの最小化 ⇒ の最大化

45

再掲: 演習1.29• エントロピー最大化をJensenの等式からく• 解)

∑=M

i i

ixp

xpxH)(

1ln)(][

ln(x)は凹関数なので，Jensenの等式より

Mxp

xpxHM

i i

i ln)(

1)(ln][ =

≤ ∑

46

相

47

相僆情報• 同時分布 p(x, y) を考える• たつの変数がの場合 p(x,y)=p(x)p(y)• 変数同士の「近さ」を測るために，同時分布と周

辺分布の積のKLdを考える

))()(||),((KL],[I yxyxyx ppp≡

yxyx

yxyx dd

),(

)()(ln),(∫∫

−=

p

ppp

これを変数x,yの間の相と呼ぶ

48

相僆情報とエントロピーの関係• の加法・乗法定を用いて以下のとおりに

表すことができる (演習1.41)]|[H][H]|[H][H],[I xyyyxxyx −=−=

• ベイズの観点からp(x) をxの事前分布，p(x|y) を新たなデータyを観測した後の事後分布と考えられる

⇒ 相僆情報は，新たなyを観測した結果として，xに関する実性が減少した合いを表す

49

演習1.41• I[x,y] = H[x] – H[x|y] を証明

yxyx

yxyx dd

),(

)()(ln),(∫∫

−

p

ppp

yxyyx

yxyx dd

)()|(

)()(ln),(∫∫

−=

pp

ppp

yxyxyxyxxyx dd)|(ln),(dd)(ln),( ∫∫∫∫ +−= pppp

yxyxyxxxx dd)|(ln),(d)(ln)( ∫∫∫ +−= pppp

]|[H][H yxx −=

50

xxエントロピー/xxでおなかいっぱいのアナタに

51

補足: 各種エントロピーの関係• ベンでるとわかりすい

H[X]

H[Y]

I[X,Y]H[X|Y] H[Y|X]

H[X,Y]

52

まとめ

53

まとめ情報の基をしました• 情報

– 情報における定義• エントロピー

– 条件付きエントロピー– 相対エントロピー

• カルバック・ライブラーダイバージェンス• 相僆情報

おまけあり・・・

54

おまけ

55

相僆情報の応用• pointwise mutual information (PMI)

– a.k.a. self mutual information (SMI)– 関連語抽出などに用いられる

• expected mutual information– PMIは，語にっ張られる問題があるので，期

待値を取ってあげる

−===

),(

)()(ln),(PMI

yxp

ypxpyx yx

−===

),(

)()(ln),(),(EMI

yxp

ypxpyxpyx yx

56

実験

57

実験: 相僆情報による関連語の抽出

• データセット– 20newsgroups

• 公開データセット• http://people.csail.mit.edu/jrennie/20Newsgroups/

– ニュースグループの20カテゴリに投稿された記事1000文書ずつ• 実験

– PMI(カテゴリ，単語)，EMI(カテゴリ，単語) を高い順に並べる

alt.atheism

comp.graphics

comp.os.ms-windows.misc

comp.sys.ibm.pc.hardware

comp.sys.mac.hardware

comp.windows.x

misc.forsale

rec.autos

rec.motorcycles

rec.sport.baseball

rec.sport.hockey

sci.crypt

sci.electronics

sci.med

sci.space

soc.religion.christian

talk.politics.guns

talk.politics.mideast

talk.politics.misc

talk.religion.misc

58

結果

59

実験結果• 別紙参照

60

おしまい

Technology

PRML 1.6 情報理論