Upload
sleepyyoshi
View
5.074
Download
4
Embed Size (px)
DESCRIPTION
PRML復習レーン#01の発表資料
Citation preview
PRML読書会第1回1.6
2010-05-01SUHARA YOSHIHIKO
id:sleepy_yoshi
1
目次• 1.6 情報
– 1.6.1 相対エントロピーと情報
2
1.6
3
情報 の定義• p(x) の情報 h(x)
– (1) h(x) は p(x) の単調減少関数• しい出 事の方が「 きの 合い」が大きい
– (2) h(x,y) = h(x) + h(y)• 情報の加法性
上記を満たす関数 ⇒ 対数のみ (演習1.28)
)(log)( 2 xpxh −=
ここでいう情報 はあくまで情報 (information theory) における約束事
(1.92)
4
に対数を
5
ンの を んで た
6
[Shannon 1948]より
7
___/ \
/ノ \ u. \ !?/ (●) (●) \| (__人__) u. |
\ u.` ⌒´ /
ノ \/´ ヽ
____
/ \!??/ u ノ \/ u (●) \| (__人__)|\ u .` ⌒/
ノ \/´ ヽ
8
naoya_tさんに答えを教えてもらった
9
演習1.28• h(p2) = h(p p) = h(p) + h(p) = 2h(p)
• h(pk+1) = h(pk p) = h(pk) + h(p)= k h(p) + h(p) = (k + 1) h(p)
• h(pn/m) = n h(p1/m) = m・n/m h(p1/m)= n/m h(pm/m) = n/m h(p)
)ln(
)(
)ln(
)(
)ln(
)(
)ln(
)(
q
qh
qx
qxh
q
qh
p
phx
x
===
ここでp=qx
)ln()( pph ∝∴)ln(:)ln()(:)( qpqhph =
10
よって対数で表現される!
____
/\ /\ キリッ. / (ー) (ー)\
/ ⌒(__人__)⌒ \| |r┬-| |
\ `ー’´ /ノ \
/´ ヽ| l \ヽ -一””””~~``’ー?、 -一”””’ー-、.ヽ ____(⌒)(⌒)⌒) ) (⌒_(⌒)⌒)⌒))
11
ポイント:における
12
エントロピー
13
エントロピーの定義• エントロピー: 情報の平均
– 情報 (1.92)の期待値
∑−=x
xpxpx )(log)(][H 2(1.93)
ただし,
0)( =xp 0)(ln)( =xpxpのとき
0lnlim 0 =→ pppより
14
エントロピーの• 1)
– 8個の状態を等 で取る 変数xの場合
• 2)– 8個の状態 {a,b,c,d,e,f,g,h}– は (1/2, 1/4, 1/8, 1/16, 1/64, 1/64, 1/64, 1/64)
bit38
1log
8
18][H 2 =×−=x
bit264
4log
64
4
16
1log
16
1
8
1log
8
1
4
1log
4
1
2
1log
2
1][H 22222 =−−−−−=x
非一様な分布のエントロピーは,一様な分布のエントロピーより小さい
15
符号化におけるエントロピーの解釈• 変数がどの状態にあるかを受信者に伝えたい
– (非一様の分布の場合) よく起きる事象に短い符号を,ま 起きない事象に い符号を使うことで,符号
の平均を短くできる
bit2664
144
16
13
8
12
4
11
2
1=××+×+×+×+×=平均符号長
変数のエントロピーと同じ⇒ イ なし符号化 (noiseless coding theorem)
• 2)の場合– {a,b,c,d,e,f,g,h}に対し,符号偱 (0, 10, 110, 1110,
111100, 11101, 111110, 11111) を割り当てる
16
ポイント:エントロピー 最短符号
17
エントロピーの別の解釈 (1/2)• 同じ物体を箱に分けて入れる問題
– N個の物体をたくさんの箱に分けて入れる– i番目の箱にはni個の物体が存在– N個の物体を箱に入れる方法: N!通り– i番目の箱に物体を入れた順番: ni!通り ←区別しない
⇒ N個の物体の箱への入れ方の総数 ( ) は,
∏=
i in
�W
!
!(1.94)
18
エントロピーの別の解釈 (2/2)• エントロピーを多 の対数を適当に定数 し
たものと定義∑−==i
in�
��
W�
H !ln1
!ln1
ln1
∑ =i i �n
(1.95)
���� −≅ ln!lnスターリングの近似式 と より
∑ ∑−=
=∞→
i i
iiii
�pp
�
n
�
nH lnlnlim (1.97)
箱は 偶 変数Xの状態xiと解釈でき,p(X=xi) = piとすると
∑−=i
ii xpxppH )(ln)(][ (1.98)
19
分布とエントロピーの関係• 鋭いピークを持つ分布 ⇒ エントロピー小• 多くの値に広がる分布 ⇒ エントロピー大
20
エントロピーの最大化
21
エントロピーの最大化 (1/2)• ラグランジュ乗数法を使って最大値を求める
– の総和は1という制約を入れる
−+−= ∑∑
i
i
i
ii xpxpxpH 1)()(ln)(~
λ (1.99)
01)()(ln)()(
=
−+−
∂∂
∑∑i
i
i
ii
k
xpxpxpxp
λ
( ) 01)(ln =++− λkxp
p(xi) が全て等しいとき (p(xi) = 1/M) 最大化最大値はln M
22
エントロピーの最大化 (2/2)• エントロピーの2階微分を計算
• 負定値のため,凹関数であることがわかり,停点が最大値であることが示された
( ) λ++− 1)(ln ixp
i
ij
ji pI
xpxp
H 1
)()(
~
−=∂∂
∂
参考 (1階微分):
(1.100)
23
補足: ラグランジュ乗数法• 制約付き非線形最適化の常套手段 (詳しくは付録E)
• g(x) = 0 の制約において f(x) を最適化⇒ 以下で定義されるラグランジュ関数の停 点を求める
)()(),( xxx gfL λλ +≡
0)()( =∇+∇ xx gf λすなわち
24
演習1.29• エントロピー最大化をJensenの 等式から く• 解)
– あ・と・で
25
エントロピーの連続値への拡張
26
連続値への拡張• 基本的にΣが∫に変わるだけ
27
連続値への拡張(終)
28
もとい
29
連続値への拡張 (1/2)• xを等間隔の区間Δに分ける• p(x)が連続であると仮定すれば 値の よ
り,各区間に対して以下を満たすxiが存在する
∫∆+
∆∆=
)1(
)(d)(i
iixpxxp (1.101)
iΔ
p(xi)
x
p(x)
(i+1)Δ
30
連続値への拡張 (2/2)• Σp(xi)Δ=1 が り つので
∑ ∆∆−=∆i
ii xpxpH ))(ln()(
∑∑ ∆∆−∆−=i
i
i
ii xpxpxp ln)()(ln)(
∆−∆−= ∑ ln)(ln)(i
ii xpxp (1.102)
• 第2項のlnΔを無視してΔ→0の極限を考える– 第1項はp(x)ln p(x) に収束
∫∑ −=
∆−→∆
xxpxpxpxpi
ii d)(ln)()(ln)(lim0
(1.103)
微分エントロピー
31
連続値への拡張 (2/2)• Σp(xi)Δ=1 が り つので
∑ ∆∆−=∆i
ii xpxpH ))(ln()(
∑∑ ∆∆−∆−=i
i
i
ii xpxpxp ln)()(ln)(
∆−∆−= ∑ ln)(ln)(i
ii xpxp (1.102)
• 第2項のlnΔを無視してΔ→0の極限を考える– 第1項はp(x)ln p(x) に収束
∫∑ −=
∆−→∆
xxpxpxpxpi
ii d)(ln)()(ln)(lim0
(1.103)
微分エントロピー
連続変数を厳密に規定するために無限
ビット数が必要であることを反映
32
微分エントロピーの最大化 (1/2)∫−= xxxx d)(ln)(][H pp
1d)( =∫∞
∞−xxp
µ=∫∞
∞−xxxp d)(
22 d)()( σµ =−∫∞
∞−xxpx
連続変数の場合のエントロピー最大化を考える.以下の3つの制約のもとで最大化
(1.104)
規格化
分布の平均
分布の広がり
−+− ∫∫
∞
∞−
∞
∞−1)(d)(ln)( 1 dxxpxxpxp λ
−−+
−+ ∫∫
∞
∞−
∞
∞−
22
32 d)()(d)( σµλµλ xxpxxxxp
ラグランジュ関数=
(1.105)
(1.106)
(1.107)
33
微分して0とおきます
34
微分エントロピーの最大化 (2/2)• 以下の結果が得られる (演習1.34)⇒ 微分エントロピーを最大化する分布はガウス分布
−−=
2
2
2/12 2
)(exp
)2(
1)(
σµ
πσx
xp
非負制約を設けなかったけれど,結果オーライガウス分布の微分エントロピーは以下になる (演習1.35)
{ })2ln(12
1][ 2πσ+=xH
(1.109)
(1.110)
σ2が増えて分布が幅広くなるにつれて大きくなるのとき,H[x] < 0 となる22
1πσ>
e
35
条件付きエントロピー• 同時分布 p(x,y) を考える• xの値が既知とすれば,対応するyの値を特定す
るために必要な情報は- ln p(y|x)• したがって,yを特定するために必要な情報の平
均は,
∫∫−= xyxyxyxy dd)|(ln),(]|[H pp (1.111)
これをxに対するyの条件付きエントロピーと呼ぶ
36
演習1.37• H[x,y] = H[y|x] + H[x] を証明せよ⇒ ホワイトボード
37
1.6.1相対エントロピーと相
38
相対エントロピー• 未知の分布 p(x) を近似的に q(x) でモデル化
– q(x) を用いて– xの値を特定するために必要な 加情報 の平均は
xx
xx d
)(
)(ln)(∫
−=p
qp
( )∫ ∫−−−= xxxxxx d)(ln)(d)(ln)()||(KL ppqpqp
この値は,カルバック-ライブラーダイバージェンス (KLd)
または 相対エントロピーと呼ばれる
)||()||( pqKLqpKL ≠注意:
(1.113)
39
やや唐突ですが凸関数の話をします
40
凸関数)()1()())1(( bfafbaf λλλλ −+≤−+ (1.114)
41
演習1.36• 関数が真に凸であることと,2階微分が正である
ことと等価であることを示せ
• 直感的な解– 2階微分が正 ⇒ 微分 (接線の傾き) が常に増加
42
イ ンセンの 等式• (1.114)を任意の点集合へ拡張した(1.115)は,
イェン ンの と呼ばれる (演習1.38)
(1.115)∑∑==
≤
M
i
ii
M
i
ii xfxf11
)(λλ
0≥iλ 1=∑i iλここで
( ) )]([][ xfExEf ≤
( ) ∫∫ ≤ xpfpf d)()(d)( xxxxx
(1.116)
(1.117)
λiを 変数x上の 分布と なすと
連続変数に対しては,
43
KLdの解釈• イ ンセンの 等式をKLdへ適用
– ln(x) が凸関数であることを 用
∫∫ =−≥
−= 0d)(lnd)(
)(ln)()||(KL xxx
x
xx q
p
qpqp
(1.118)
等号は全てのxについてq(x) = p(x) のとき り つのでKLdは2つの分布 p(x)とq(x) の隔たりを表していることがわかる
44
KLdの最小化 ⇒ ?!• 未知の 分布のモデル化の問題
– データが未知の分布 p(x) からサンプルされる– 可変なパラメータθを持つ分布 q(x|θ) を用いて近似– θを決める方法⇒ p(x) と p(x|θ) のKLdをθについて最小化
• p(x) はわからないので,xnの有限和で近似 ((1.35)式)
{ }∑=
+−≈�
n
nn pq�
qp1
)(ln)|(ln1
)||(KL xx θ
KLdの最小化 ⇒ の最大化
45
再掲: 演習1.29• エントロピー最大化をJensenの 等式から く• 解)
∑=M
i i
ixp
xpxH)(
1ln)(][
ln(x)は凹関数なので,Jensenの 等式より
Mxp
xpxHM
i i
i ln)(
1)(ln][ =
≤ ∑
46
相
47
相僆情報• 同時分布 p(x, y) を考える• たつの 変数が の場合 p(x,y)=p(x)p(y)• 変数同士の「近さ」を測るために,同時分布と周
辺分布の積のKLdを考える
))()(||),((KL],[I yxyxyx ppp≡
yxyx
yxyx dd
),(
)()(ln),(∫∫
−=
p
ppp
これを変数x,yの間の相 と呼ぶ
48
相僆情報 とエントロピーの関係• の加法・乗法定 を用いて以下のとおりに
表すことができる (演習1.41)]|[H][H]|[H][H],[I xyyyxxyx −=−=
• ベイズの観点からp(x) をxの事前分布,p(x|y) を新たなデータyを観測した後の事後分布と考えられる
⇒ 相僆情報 は,新たなyを観測した結果として,xに関する 実性が減少した 合いを表す
49
演習1.41• I[x,y] = H[x] – H[x|y] を証明
yxyx
yxyx dd
),(
)()(ln),(∫∫
−
p
ppp
yxyyx
yxyx dd
)()|(
)()(ln),(∫∫
−=
pp
ppp
yxyxyxyxxyx dd)|(ln),(dd)(ln),( ∫∫∫∫ +−= pppp
yxyxyxxxx dd)|(ln),(d)(ln)( ∫∫∫ +−= pppp
]|[H][H yxx −=
50
xxエントロピー/xxでおなかいっぱいのアナタに
51
補足: 各種エントロピーの関係• ベン で るとわかり すい
H[X]
H[Y]
I[X,Y]H[X|Y] H[Y|X]
H[X,Y]
52
まとめ
53
まとめ情報 の基 を しました• 情報
– 情報 における定義• エントロピー
– 条件付きエントロピー– 相対エントロピー
• カルバック・ライブラーダイバージェンス• 相僆情報
おまけあり・・・
54
おまけ
55
相僆情報 の応用• pointwise mutual information (PMI)
– a.k.a. self mutual information (SMI)– 関連語抽出などに用いられる
• expected mutual information– PMIは, 語に っ張られる問題があるので,期
待値を取ってあげる
−===
),(
)()(ln),(PMI
yxp
ypxpyx yx
−===
),(
)()(ln),(),(EMI
yxp
ypxpyxpyx yx
56
実験
57
実験: 相僆情報 による関連語の抽出
• データセット– 20newsgroups
• 公開データセット• http://people.csail.mit.edu/jrennie/20Newsgroups/
– ニュースグループの20カテゴリに投稿された記事1000文書ずつ• 実験
– PMI(カテゴリ,単語),EMI(カテゴリ,単語) を高い順に並べる
alt.atheism
comp.graphics
comp.os.ms-windows.misc
comp.sys.ibm.pc.hardware
comp.sys.mac.hardware
comp.windows.x
misc.forsale
rec.autos
rec.motorcycles
rec.sport.baseball
rec.sport.hockey
sci.crypt
sci.electronics
sci.med
sci.space
soc.religion.christian
talk.politics.guns
talk.politics.mideast
talk.politics.misc
talk.religion.misc
58
結果
59
実験結果• 別紙参照
60
おしまい