View
4.397
Download
0
Category
Preview:
DESCRIPTION
人工知能学会基本問題研究会(宮古島) 2014 年3 月3 日
Citation preview
.
.
問題
.
.
離散の場合
.
.
連続の場合
.
.
HSIC
.
.
実験
.
.
まとめ
Bayes Independence Test - HSICと性能を比較する -
鈴木 譲
大阪大学
人工知能学会 基本問題研究会 (宮古島)2014年 3月 3日
.
.
.
.
1 / 19
.
Bayes Independence Test - HSIC と性能を比較する -
.
.
問題
.
.
離散の場合
.
.
連続の場合
.
.
HSIC
.
.
実験
.
.
まとめ
ロードマップ
.
.. 1 問題
.
..
2 離散の場合
.
..
3 連続の場合
.
..
4 HSIC
.
..
5 実験
.
..
6 まとめ
.
.
.
.
2 / 19
.
Bayes Independence Test - HSIC と性能を比較する -
.
.
.
問題
.
.
離散の場合
.
.
連続の場合
.
.
HSIC
.
.
実験
.
.
まとめ
問題: (x1, y1), · · · , (xn, yn)から、X ⊥⊥ Y か否かを検定
相互情報量: I (X ,Y ) :=∑x
∑y
PXY (x , y) logPXY (x , y)
PX (x)PY (y)
I (X ,Y ) = 0 ⇐⇒ X ⊥⊥ Y
Hilbert Schmidt independent criterion: 相関係数の非線型化
相関係数 (X ,Y ) = 0⇐==⇒ X ⊥⊥ Y
HSIC (X ,Y ) = 0 ⇐⇒ X ⊥⊥ Y
.
独立性検定 (X ⊥⊥ Y か否か)
.
.
.
. ..
.
.
(x1, y1), · · · , (xn, yn)から、I (X ,Y ), HSIC (X ,Y )を推定
.
.
.
.
3 / 19
.
Bayes Independence Test - HSIC と性能を比較する -
.
.
.
問題
.
.
離散の場合
.
.
連続の場合
.
.
HSIC
.
.
実験
.
.
まとめ
相互情報量の推定 (最尤推定)
X ,Y : 離散
In(xn, yn) :=
∑x
∑y
Pn(x , y) logPn(x , y)
Pn(x)Pn(y)
Pn(x , y): (x1, y1), · · · , (xn, yn)での (X ,Y ) = (x , y)の相対頻度Pn(x): x1, · · · , xnでの X = x の相対頻度Pn(y): y1, · · · , ynでの Y = y の相対頻度
In(x , y) → I (X ,Y ) (n → ∞)
X ⊥⊥ Y であっても、確率 1で、In(xn, yn) > 0が無限回生じる
独立性検定をどのように構成するか ({ϵn}の設定)が不明
In(xn, yn) < ϵn ⇐⇒ X ⊥⊥ Y
X ,Y が連続のときに、どのように一般化されるのかが不明
.
.
.
.
4 / 19
.
Bayes Independence Test - HSIC と性能を比較する -
.
.
.
問題
.
.
離散の場合
.
.
連続の場合
.
.
HSIC
.
.
実験
.
.
まとめ
相互情報量のBayes推定の提案: 離散
.
Lempel-Zivアルゴリズム (lzh, gzipなど)
.
.
.
. ..
.
.
xn = (x1, · · · , xn)を圧縮して、zm = (z1, · · · , zm) ∈ {0, 1}m
.
.
.
1 PX によらず、圧縮率m
nがエントロピー H(X )に収束
.
.
.
2
∑2−m ≤ 1 (Kraftの不等式)
QnX (x
n) := 2−m とおくと、m = − logQnX (x
n)は圧縮後の長さ
QnY (y
n), QnXY (x
n, yn)も定義し、X ⊥⊥ Y の事前確率を pとして
Jn(xn, yn) :=
1
nlog
(1− p)QnXY (x
n, yn)
pQnX (x
n)QnY (y
n)
.
.
.
.
5 / 19
.
Bayes Independence Test - HSIC と性能を比較する -
.
.
.
問題
.
.
離散の場合
.
.
連続の場合
.
.
HSIC
.
.
実験
.
.
まとめ
MDL(minimum description length)原理
例から、各モデルについて、
モデルの記述
モデルを仮定したときの例の記述
の長さの合計を最小とするモデルを選択
する情報量基準 (Rissanen, 1976)
MDL(X ⊥⊥ Y ) := − log p − 1
nlogQn
X (xn)− 1
nlogQn
Y (yn)
MDL(X ⊥⊥ Y ) := − log(1− p)− 1
nlogQn
XY (xn, yn)
.
一致性
.
.
.
. ..
.
.
n → ∞で、MDL最小のモデルが真のモデルと確率 1で一致
.
.
.
.
6 / 19
.
Bayes Independence Test - HSIC と性能を比較する -
.
.
.
問題
.
.
離散の場合
.
.
連続の場合
.
.
HSIC
.
.
実験
.
.
まとめ
相互情報量のBayes推定の提案: 離散 (続)
MDLの一致性から、独立性検定の一致性が証明される
Jn(xn, yn) ≤ 0 ⇐⇒ MDL(X ⊥⊥ Y ) ≤ MDL(X ⊥⊥ Y )
α := |X |, β := |Y |として、
Jn(xn, yn) ≈ In(x
n.yn)− (α− 1)(β − 1)
2nlog n
Jn(xn, yn) ≤ 0 ⇐⇒ In(x
n, yn) ≤ ϵn :=(α− 1)(β − 1)
2nlog n
Jn(xn, yn) → I (X ,Y ) (n → ∞)
O(n)の計算量
Suzuki 2012では、p =1
2を仮定していた
.
.
.
.
7 / 19
.
Bayes Independence Test - HSIC と性能を比較する -
.
.
.
問題
.
.
離散の場合
.
.
連続の場合
.
.
HSIC
.
.
実験
.
.
まとめ
ユニバーサル性: 離散
任意の PX について、
m
n= −1
nlogQn
X (xn) → H(X )
i.i.d.であることと、大数の強法則から、任意の PX について、
−1
nlogPn
X (xn) = −1
n
n∑i=1
logPX (xi ) → E [− logPX (X )] = H(X )
したがって、任意の PX について、
1
nlog
PnX (x
n)
QnX (x
n)→ 0
.
.
.
.
8 / 19
.
Bayes Independence Test - HSIC と性能を比較する -
.
.
.
問題
.
.
離散の場合
.
.
連続の場合
.
.
HSIC
.
.
実験
.
.
まとめ
ユニバーサル性: 連続
正則条件のもとで、
任意の密度関数 fX について、
1
nlog
f nX (xn)
gnX (x
n)→ 0
∫ ∞
−∞gn(xn)dx ≤ 1
なる gnX が存在する (Ryabko 2009)
正則条件の仮定の除去
2変数以上でも成立
離散でも連続でもない確率変数についても成立
(Suzuki 2013)
.
.
.
.
9 / 19
.
Bayes Independence Test - HSIC と性能を比較する -
.
.
.
問題
.
.
離散の場合
.
.
連続の場合
.
.
HSIC
.
.
実験
.
.
まとめ
gnX の構成
レベル k での量子化: xn = (x1, · · · , xn) 7→ (a(k)1 , · · · , a(k)n )
......
......
-
-
-
レベル 1
レベル 2
レベル k
Qn1 (a
(1)1 , · · · , a(1)n )
λ(a(1)1 ) · · ·λ(a(1)n )
Qn2 (a
(2)1 , · · · , a(2)n )
λ(a(2)1 ) · · ·λ(a(2)n )
Qnk (a
(k)1 , · · · , a(k)n )
λ(a(k)1 ) · · ·λ(a(k)n )
gnX (x
n) = w1×Qn
1 (a(1)1 , · · · , a(1)n )
λ(a(1)1 ) · · ·λ(a(1)n )
+· · ·+wk×Qn
k (a(k)1 , · · · , a(k)n )
λ(a(k)1 ) · · ·λ(a(k)n )
+· · ·
.
.
.
.
10 / 19
.
Bayes Independence Test - HSIC と性能を比較する -
.
.
.
問題
.
.
離散の場合
.
.
連続の場合
.
.
HSIC
.
.
実験
.
.
まとめ
相互情報量のBayes推定の提案: 一般の場合
.
相互情報量のBayes推定量
.
.
.
. ..
.
.
Jn(xn, yn) :=
1
nlog
(1− p)gnXY (x
n, yn)
pgnX (x
n)gnY (y
n)
(通常の密度関数ではなく、離散の場合を含めることができる)
MDL原理の一般化と思える
MDL(X ⊥⊥ Y ) := − log p − 1
nlog gn
X (xn)− 1
nlog gn
Y (yn)
MDL(X ⊥⊥ Y ) := − log(1− p)− 1
nlog gn
XY (xn, yn)
.
予想: 一致性
.
.
.
. ..
.
.
n → ∞で、MDL最小のモデルが真のモデルと確率 1で一致
.
.
.
.
11 / 19
.
Bayes Independence Test - HSIC と性能を比較する -
.
.
.
問題
.
.
離散の場合
.
.
連続の場合
.
.
HSIC
.
.
実験
.
.
まとめ
Jn(xn, yn) → I (X ,Y ) (n → ∞)
証明: xn, ynが i.i.d.、大数の強法則から、任意の fX について、
1
nlog
f nXY (xn, yn)
f nX (xn)f nY (x
n)=
1
n
n∑i=1
logf nXY (x
n, yn)
f nX (xn)f nY (x
n)
→ E [logfXY (XY )
fX (X )fY (Y )] = I (X ,Y )
Jn(xn, yn)− I (X ,Y )
= −1
nlog
f nXY (xn, yn)
gnXY (x
n, yn)+
1
nlog
f nX (xn)
gnX (x
n)+
1
nlog
f nY (yn)
gnY (y
n)
+1
nlog
f nXY (xn, yn)
f nX (xn)f nY (x
n)− I (X ,Y ) +
1
nlog
1− p
p
→ 0
.
.
.
.
12 / 19
.
Bayes Independence Test - HSIC と性能を比較する -
.
.
.
問題
.
.
離散の場合
.
.
連続の場合
.
.
HSIC
.
.
実験
.
.
まとめ
HSIC
相関係数 cov(X ,Y )の非線形化
確率変数 X Y
値域 X YRKHS F : 基底 {fi} G: 基底 {gj}kernel k : X × X → R l : Y × Y → R
HSIC (PXY ,F ,G) =∑i ,j
cov(fi (X ), gj(Y ))2
k が universalのとき、HSIC (PXY ,F ,G) = 0 ⇐⇒ X ⊥⊥ Y
例: Gaussian kernelは、universal
k(x , y) = exp{−(x − y)2/2}
.
.
.
.
13 / 19
.
Bayes Independence Test - HSIC と性能を比較する -
.
.
.
問題
.
.
離散の場合
.
.
連続の場合
.
.
HSIC
.
.
実験
.
.
まとめ
HSIC適用の問題点
.
HSIC (PXY ,F ,G)の推定量
.
.
.
. ..
.
.
K = (k(xi , xj)), L = (k(yi , yj)), H = (δi ,j − 1n )として、
HSIC (xn, yn,F ,G) = 1
(n − 1)2tr(KHLH)
n → ∞で、確率 1で、HSIC (PXY ,F ,G) → HSIC (PXY ,F ,G)となる証明がない
H0: X ⊥⊥ Y の危険率 αを設定した検定で、採択域 {ϵn}の設定が難しい
{xn, yn|HSIC (xn, yn,F ,G) ≤ ϵn}
O(n3)の計算量 (不完全 Cholesky分解で近似しても O(n2))
.
.
.
.
14 / 19
.
Bayes Independence Test - HSIC と性能を比較する -
.
.
.
問題
.
.
離散の場合
.
.
連続の場合
.
.
HSIC
.
.
実験
.
.
まとめ
実験
.
..
1 -�������*-HHHHHHHj
X Y
0
1
0
1
12
12
p
1− p
I (X ,Y ) = HSIC (X ,Y ) = 0
⇐⇒ p =1
2⇐⇒ X ⊥⊥ Y
.
.
.
2 (X ,Y ) ∼ N(0,Σ), Σ =
[1 ρρ 1
], −1 < ρ < 1
I (X ,Y ) = HSIC (X ,Y ) = 0 ⇐⇒ ρ = 0 ⇐⇒ X ⊥⊥ Y
.
.
.
3 P(X = 0) = P(X = 1) = 12 , Y ∼ N(aX , 1), a ≥ 0
I (X ,Y ) = HSIC (X ,Y ) = 0 ⇐⇒ a = 0 ⇐⇒ X ⊥⊥ Y
.
.
.
.
15 / 19
.
Bayes Independence Test - HSIC と性能を比較する - .
.
.
問題
.
.
離散の場合
.
.
連続の場合
.
.
HSIC
.
.
実験
.
.
まとめ
実験 1
n = 100のときの誤り率
真の p 提案 HSIC→推定した p しきい値 (×10−4)
4 8 12 16 20
p = 0.5 → p = 0.5 0.084 0.306 0.135 0.077 0.043 0.022
p = 0.4 → p = 0.5 0.758 0.507 0.694 0.787 0.860 0.908p = 0.3 → p = 0.5 0.333 0.139 0.251 0.396 0.505 0.610p = 0.2 → p = 0.5 0.048 0.018 0.035 0.083 0.135 0.201p = 0.1 → p = 0.5 0.001 0.000 0.001 0.005 0.010 0.021
↑
.
.
.
.
16 / 19
.
Bayes Independence Test - HSIC と性能を比較する - .
.
.
問題
.
.
離散の場合
.
.
連続の場合
.
.
HSIC
.
.
実験
.
.
まとめ
実験 2
n = 100のときの誤り率
ρ 提案 HSICしきい値 (×10−3)
2 4 6 8
0.0 0.095 0.338 0.036 0.006 0.000.2 0.628 0.298 0.676 0.884 0.970.4 0.168 0.008 0.088 0.300 0.5120.6 0.008 0.000 0.000 0.002 0.0060.8 0.000 0.000 0.000 0.000 0.000
↑
Gaussian kernelで、Gauss分布の場合、HSICはかなり良い性能を示している。
.
.
.
.
17 / 19
.
Bayes Independence Test - HSIC と性能を比較する - .
.
.
問題
.
.
離散の場合
.
.
連続の場合
.
.
HSIC
.
.
実験
.
.
まとめ
実行時間
実行時間 (秒)n 100 500 1000 2000
提案 0.30 0.33 0.62 1.05HSIC 0.50 9.51 40.28 185.53
.
.
.
.
18 / 19
.
Bayes Independence Test - HSIC と性能を比較する - .
.
.
問題
.
.
離散の場合
.
.
連続の場合
.
.
HSIC
.
.
実験
.
.
まとめ
まとめ
.
成果
.
.
.
. ..
.
.
離散や連続によらないMDLの一般化による独立性の検定
提案 HSIC
原理 Bayes(事後確率最大) 危険率一定で、検定力最大
強い問題 離散 連続
しきい値 不要 必要
事前確率 必要 不要
計算時間 O(n) O(n3)強一致性 証明されている 証明されていない
課題
実験による提案方法の実現の最適化
一般化MDLの一致性 (予想)の証明
.
.
.
.
19 / 19
.
Bayes Independence Test - HSIC と性能を比較する - .
Recommended