19

Click here to load reader

Bayes Independence Test - HSIC と性能を比較する-

Embed Size (px)

DESCRIPTION

人工知能学会基本問題研究会(宮古島) 2014 年3 月3 日

Citation preview

Page 1: Bayes Independence Test - HSIC と性能を比較する-

.

.

問題

.

.

離散の場合

.

.

連続の場合

.

.

HSIC

.

.

実験

.

.

まとめ

Bayes Independence Test - HSICと性能を比較する -

鈴木 譲

大阪大学

人工知能学会 基本問題研究会 (宮古島)2014年 3月 3日

.

.

.

.

1 / 19

.

Bayes Independence Test - HSIC と性能を比較する -

Page 2: Bayes Independence Test - HSIC と性能を比較する-

.

.

問題

.

.

離散の場合

.

.

連続の場合

.

.

HSIC

.

.

実験

.

.

まとめ

ロードマップ

.

.. 1 問題

.

..

2 離散の場合

.

..

3 連続の場合

.

..

4 HSIC

.

..

5 実験

.

..

6 まとめ

.

.

.

.

2 / 19

.

Bayes Independence Test - HSIC と性能を比較する -

.

Page 3: Bayes Independence Test - HSIC と性能を比較する-

.

.

問題

.

.

離散の場合

.

.

連続の場合

.

.

HSIC

.

.

実験

.

.

まとめ

問題: (x1, y1), · · · , (xn, yn)から、X ⊥⊥ Y か否かを検定

相互情報量: I (X ,Y ) :=∑x

∑y

PXY (x , y) logPXY (x , y)

PX (x)PY (y)

I (X ,Y ) = 0 ⇐⇒ X ⊥⊥ Y

Hilbert Schmidt independent criterion: 相関係数の非線型化

相関係数 (X ,Y ) = 0⇐==⇒ X ⊥⊥ Y

HSIC (X ,Y ) = 0 ⇐⇒ X ⊥⊥ Y

.

独立性検定 (X ⊥⊥ Y か否か)

.

.

.

. ..

.

.

(x1, y1), · · · , (xn, yn)から、I (X ,Y ), HSIC (X ,Y )を推定

.

.

.

.

3 / 19

.

Bayes Independence Test - HSIC と性能を比較する -

.

Page 4: Bayes Independence Test - HSIC と性能を比較する-

.

.

問題

.

.

離散の場合

.

.

連続の場合

.

.

HSIC

.

.

実験

.

.

まとめ

相互情報量の推定 (最尤推定)

X ,Y : 離散

In(xn, yn) :=

∑x

∑y

Pn(x , y) logPn(x , y)

Pn(x)Pn(y)

Pn(x , y): (x1, y1), · · · , (xn, yn)での (X ,Y ) = (x , y)の相対頻度Pn(x): x1, · · · , xnでの X = x の相対頻度Pn(y): y1, · · · , ynでの Y = y の相対頻度

In(x , y) → I (X ,Y ) (n → ∞)

X ⊥⊥ Y であっても、確率 1で、In(xn, yn) > 0が無限回生じる

独立性検定をどのように構成するか ({ϵn}の設定)が不明

In(xn, yn) < ϵn ⇐⇒ X ⊥⊥ Y

X ,Y が連続のときに、どのように一般化されるのかが不明

.

.

.

.

4 / 19

.

Bayes Independence Test - HSIC と性能を比較する -

.

Page 5: Bayes Independence Test - HSIC と性能を比較する-

.

.

問題

.

.

離散の場合

.

.

連続の場合

.

.

HSIC

.

.

実験

.

.

まとめ

相互情報量のBayes推定の提案: 離散

.

Lempel-Zivアルゴリズム (lzh, gzipなど)

.

.

.

. ..

.

.

xn = (x1, · · · , xn)を圧縮して、zm = (z1, · · · , zm) ∈ {0, 1}m

.

.

.

1 PX によらず、圧縮率m

nがエントロピー H(X )に収束

.

.

.

2

∑2−m ≤ 1 (Kraftの不等式)

QnX (x

n) := 2−m とおくと、m = − logQnX (x

n)は圧縮後の長さ

QnY (y

n), QnXY (x

n, yn)も定義し、X ⊥⊥ Y の事前確率を pとして

Jn(xn, yn) :=

1

nlog

(1− p)QnXY (x

n, yn)

pQnX (x

n)QnY (y

n)

.

.

.

.

5 / 19

.

Bayes Independence Test - HSIC と性能を比較する -

.

Page 6: Bayes Independence Test - HSIC と性能を比較する-

.

.

問題

.

.

離散の場合

.

.

連続の場合

.

.

HSIC

.

.

実験

.

.

まとめ

MDL(minimum description length)原理

例から、各モデルについて、

モデルの記述

モデルを仮定したときの例の記述

の長さの合計を最小とするモデルを選択

する情報量基準 (Rissanen, 1976)

MDL(X ⊥⊥ Y ) := − log p − 1

nlogQn

X (xn)− 1

nlogQn

Y (yn)

MDL(X ⊥⊥ Y ) := − log(1− p)− 1

nlogQn

XY (xn, yn)

.

一致性

.

.

.

. ..

.

.

n → ∞で、MDL最小のモデルが真のモデルと確率 1で一致

.

.

.

.

6 / 19

.

Bayes Independence Test - HSIC と性能を比較する -

.

Page 7: Bayes Independence Test - HSIC と性能を比較する-

.

.

問題

.

.

離散の場合

.

.

連続の場合

.

.

HSIC

.

.

実験

.

.

まとめ

相互情報量のBayes推定の提案: 離散 (続)

MDLの一致性から、独立性検定の一致性が証明される

Jn(xn, yn) ≤ 0 ⇐⇒ MDL(X ⊥⊥ Y ) ≤ MDL(X ⊥⊥ Y )

α := |X |, β := |Y |として、

Jn(xn, yn) ≈ In(x

n.yn)− (α− 1)(β − 1)

2nlog n

Jn(xn, yn) ≤ 0 ⇐⇒ In(x

n, yn) ≤ ϵn :=(α− 1)(β − 1)

2nlog n

Jn(xn, yn) → I (X ,Y ) (n → ∞)

O(n)の計算量

Suzuki 2012では、p =1

2を仮定していた

.

.

.

.

7 / 19

.

Bayes Independence Test - HSIC と性能を比較する -

.

Page 8: Bayes Independence Test - HSIC と性能を比較する-

.

.

問題

.

.

離散の場合

.

.

連続の場合

.

.

HSIC

.

.

実験

.

.

まとめ

ユニバーサル性: 離散

任意の PX について、

m

n= −1

nlogQn

X (xn) → H(X )

i.i.d.であることと、大数の強法則から、任意の PX について、

−1

nlogPn

X (xn) = −1

n

n∑i=1

logPX (xi ) → E [− logPX (X )] = H(X )

したがって、任意の PX について、

1

nlog

PnX (x

n)

QnX (x

n)→ 0

.

.

.

.

8 / 19

.

Bayes Independence Test - HSIC と性能を比較する -

.

Page 9: Bayes Independence Test - HSIC と性能を比較する-

.

.

問題

.

.

離散の場合

.

.

連続の場合

.

.

HSIC

.

.

実験

.

.

まとめ

ユニバーサル性: 連続

正則条件のもとで、

任意の密度関数 fX について、

1

nlog

f nX (xn)

gnX (x

n)→ 0

∫ ∞

−∞gn(xn)dx ≤ 1

なる gnX が存在する (Ryabko 2009)

正則条件の仮定の除去

2変数以上でも成立

離散でも連続でもない確率変数についても成立

(Suzuki 2013)

.

.

.

.

9 / 19

.

Bayes Independence Test - HSIC と性能を比較する -

.

Page 10: Bayes Independence Test - HSIC と性能を比較する-

.

.

問題

.

.

離散の場合

.

.

連続の場合

.

.

HSIC

.

.

実験

.

.

まとめ

gnX の構成

レベル k での量子化: xn = (x1, · · · , xn) 7→ (a(k)1 , · · · , a(k)n )

......

......

-

-

-

レベル 1

レベル 2

レベル k

Qn1 (a

(1)1 , · · · , a(1)n )

λ(a(1)1 ) · · ·λ(a(1)n )

Qn2 (a

(2)1 , · · · , a(2)n )

λ(a(2)1 ) · · ·λ(a(2)n )

Qnk (a

(k)1 , · · · , a(k)n )

λ(a(k)1 ) · · ·λ(a(k)n )

gnX (x

n) = w1×Qn

1 (a(1)1 , · · · , a(1)n )

λ(a(1)1 ) · · ·λ(a(1)n )

+· · ·+wk×Qn

k (a(k)1 , · · · , a(k)n )

λ(a(k)1 ) · · ·λ(a(k)n )

+· · ·

.

.

.

.

10 / 19

.

Bayes Independence Test - HSIC と性能を比較する -

.

Page 11: Bayes Independence Test - HSIC と性能を比較する-

.

.

問題

.

.

離散の場合

.

.

連続の場合

.

.

HSIC

.

.

実験

.

.

まとめ

相互情報量のBayes推定の提案: 一般の場合

.

相互情報量のBayes推定量

.

.

.

. ..

.

.

Jn(xn, yn) :=

1

nlog

(1− p)gnXY (x

n, yn)

pgnX (x

n)gnY (y

n)

(通常の密度関数ではなく、離散の場合を含めることができる) 

MDL原理の一般化と思える

MDL(X ⊥⊥ Y ) := − log p − 1

nlog gn

X (xn)− 1

nlog gn

Y (yn)

MDL(X ⊥⊥ Y ) := − log(1− p)− 1

nlog gn

XY (xn, yn)

.

予想: 一致性

.

.

.

. ..

.

.

n → ∞で、MDL最小のモデルが真のモデルと確率 1で一致

.

.

.

.

11 / 19

.

Bayes Independence Test - HSIC と性能を比較する -

.

Page 12: Bayes Independence Test - HSIC と性能を比較する-

.

.

問題

.

.

離散の場合

.

.

連続の場合

.

.

HSIC

.

.

実験

.

.

まとめ

Jn(xn, yn) → I (X ,Y ) (n → ∞)

証明: xn, ynが i.i.d.、大数の強法則から、任意の fX について、

1

nlog

f nXY (xn, yn)

f nX (xn)f nY (x

n)=

1

n

n∑i=1

logf nXY (x

n, yn)

f nX (xn)f nY (x

n)

→ E [logfXY (XY )

fX (X )fY (Y )] = I (X ,Y )

Jn(xn, yn)− I (X ,Y )

= −1

nlog

f nXY (xn, yn)

gnXY (x

n, yn)+

1

nlog

f nX (xn)

gnX (x

n)+

1

nlog

f nY (yn)

gnY (y

n)

+1

nlog

f nXY (xn, yn)

f nX (xn)f nY (x

n)− I (X ,Y ) +

1

nlog

1− p

p

→ 0

.

.

.

.

12 / 19

.

Bayes Independence Test - HSIC と性能を比較する -

.

Page 13: Bayes Independence Test - HSIC と性能を比較する-

.

.

問題

.

.

離散の場合

.

.

連続の場合

.

.

HSIC

.

.

実験

.

.

まとめ

HSIC

相関係数 cov(X ,Y )の非線形化

確率変数 X Y

値域 X YRKHS F : 基底 {fi} G: 基底 {gj}kernel k : X × X → R l : Y × Y → R

HSIC (PXY ,F ,G) =∑i ,j

cov(fi (X ), gj(Y ))2

k が universalのとき、HSIC (PXY ,F ,G) = 0 ⇐⇒ X ⊥⊥ Y 

例: Gaussian kernelは、universal

k(x , y) = exp{−(x − y)2/2}

.

.

.

.

13 / 19

.

Bayes Independence Test - HSIC と性能を比較する -

.

Page 14: Bayes Independence Test - HSIC と性能を比較する-

.

.

問題

.

.

離散の場合

.

.

連続の場合

.

.

HSIC

.

.

実験

.

.

まとめ

HSIC適用の問題点

.

HSIC (PXY ,F ,G)の推定量

.

.

.

. ..

.

.

K = (k(xi , xj)), L = (k(yi , yj)), H = (δi ,j − 1n )として、

HSIC (xn, yn,F ,G) = 1

(n − 1)2tr(KHLH)

n → ∞で、確率 1で、HSIC (PXY ,F ,G) → HSIC (PXY ,F ,G)となる証明がない

H0: X ⊥⊥ Y の危険率 αを設定した検定で、採択域 {ϵn}の設定が難しい

{xn, yn|HSIC (xn, yn,F ,G) ≤ ϵn}

O(n3)の計算量 (不完全 Cholesky分解で近似しても O(n2))

.

.

.

.

14 / 19

.

Bayes Independence Test - HSIC と性能を比較する -

.

Page 15: Bayes Independence Test - HSIC と性能を比較する-

.

.

問題

.

.

離散の場合

.

.

連続の場合

.

.

HSIC

.

.

実験

.

.

まとめ

実験

.

..

1 -�������*-HHHHHHHj

X Y

0

1

0

1

12

12

p

1− p

I (X ,Y ) = HSIC (X ,Y ) = 0

⇐⇒ p =1

2⇐⇒ X ⊥⊥ Y

.

.

.

2 (X ,Y ) ∼ N(0,Σ), Σ =

[1 ρρ 1

], −1 < ρ < 1

I (X ,Y ) = HSIC (X ,Y ) = 0 ⇐⇒ ρ = 0 ⇐⇒ X ⊥⊥ Y

.

.

.

3 P(X = 0) = P(X = 1) = 12 , Y ∼ N(aX , 1), a ≥ 0

I (X ,Y ) = HSIC (X ,Y ) = 0 ⇐⇒ a = 0 ⇐⇒ X ⊥⊥ Y

.

.

.

.

15 / 19

.

Bayes Independence Test - HSIC と性能を比較する - .

Page 16: Bayes Independence Test - HSIC と性能を比較する-

.

.

問題

.

.

離散の場合

.

.

連続の場合

.

.

HSIC

.

.

実験

.

.

まとめ

実験 1

n = 100のときの誤り率

真の p 提案 HSIC→推定した p しきい値 (×10−4)

4 8 12 16 20

p = 0.5 → p = 0.5 0.084 0.306 0.135 0.077 0.043 0.022

p = 0.4 → p = 0.5 0.758 0.507 0.694 0.787 0.860 0.908p = 0.3 → p = 0.5 0.333 0.139 0.251 0.396 0.505 0.610p = 0.2 → p = 0.5 0.048 0.018 0.035 0.083 0.135 0.201p = 0.1 → p = 0.5 0.001 0.000 0.001 0.005 0.010 0.021

.

.

.

.

16 / 19

.

Bayes Independence Test - HSIC と性能を比較する - .

Page 17: Bayes Independence Test - HSIC と性能を比較する-

.

.

問題

.

.

離散の場合

.

.

連続の場合

.

.

HSIC

.

.

実験

.

.

まとめ

実験 2

n = 100のときの誤り率

ρ 提案 HSICしきい値 (×10−3)

2 4 6 8

0.0 0.095 0.338 0.036 0.006 0.000.2 0.628 0.298 0.676 0.884 0.970.4 0.168 0.008 0.088 0.300 0.5120.6 0.008 0.000 0.000 0.002 0.0060.8 0.000 0.000 0.000 0.000 0.000

Gaussian kernelで、Gauss分布の場合、HSICはかなり良い性能を示している。

.

.

.

.

17 / 19

.

Bayes Independence Test - HSIC と性能を比較する - .

Page 18: Bayes Independence Test - HSIC と性能を比較する-

.

.

問題

.

.

離散の場合

.

.

連続の場合

.

.

HSIC

.

.

実験

.

.

まとめ

実行時間

実行時間 (秒)n 100 500 1000 2000

提案 0.30 0.33 0.62 1.05HSIC 0.50 9.51 40.28 185.53

.

.

.

.

18 / 19

.

Bayes Independence Test - HSIC と性能を比較する - .

Page 19: Bayes Independence Test - HSIC と性能を比較する-

.

.

問題

.

.

離散の場合

.

.

連続の場合

.

.

HSIC

.

.

実験

.

.

まとめ

まとめ

.

成果

.

.

.

. ..

.

.

離散や連続によらないMDLの一般化による独立性の検定

提案 HSIC

原理 Bayes(事後確率最大) 危険率一定で、検定力最大

強い問題 離散 連続

しきい値 不要 必要

事前確率 必要 不要

計算時間 O(n) O(n3)強一致性 証明されている 証明されていない

課題

実験による提案方法の実現の最適化

一般化MDLの一致性 (予想)の証明

.

.

.

.

19 / 19

.

Bayes Independence Test - HSIC と性能を比較する - .