53
1 正定値カーネルを用いた データ解析 福水健次 情報・システム研究機構 統計数理研究所 総合研究大学院大学 August 8. YSG 2005 Extended version.

正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

1

正定値カーネルを用いたデータ解析

福水健次

情報・システム研究機構 統計数理研究所

総合研究大学院大学

August 8. YSG 2005

Extended version.

Page 2: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

2

概要

イントロダクション

正定値カーネルと再生核ヒルベルト空間

さまざまなカーネルアルゴリズム

セミパラメトリック推定問題への応用ー 独立性と条件付独立性 ー

おわりに

Page 3: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

3

イントロダクション

非線形データ解析としてのカーネル法古典的なデータ解析

データの行列表現

⇒ 線形の処理 (主成分分析,正準相関分析,線形回帰...)

線形で十分か?

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=

Nm

N

m

m

XX

XX

XX

X

1

221

111

m 次元 N 点のデータ

Page 4: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

4

-6 -4 -2 0 2 4 6-6

-4

-2

0

2

4

6

0

5

10

15

20 0

5

10

15

20

-15

-10

-5

0

5

10

15

イントロダクション

非線形変換によるデータの簡単化

)2,,(),,( 2122

21321 xxxxzzz =

x1

x2

z1

z3

z2

線形識別不能 線形識別可能

Page 5: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

5

イントロダクション

カーネル法: 関数空間への変換

X : Ω に値をとる

確率変数

Φ(x) zi

H : 関数空間 (ヒルベルト空間)

xi

Ω : もとのデータの空間

Φ(X) : Η に値をとる

確率変数

あるいは、

無限次元でもよい

Page 6: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

6

1. 正定値カーネルと再生核ヒルベルト空間

Page 7: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

7

正定値カーネル

正定値カーネルΩ:集合.

k(x,y) がΩ上の正定値カーネル

1. (対称性) k(x,y) = k(y,x)2.(正定値性) 任意の n ∈Nと,任意のx1, …, xn ∈ Ωに対し

が(半)正定値.すなわち,任意の実数 c1,…, cn に対し,

(半)正定値対称行列 を,グラム行列と呼ぶ

0),(1,

≥∑ =

n

ji jiji xxkcc

( )njiji xxk

1,),(

= ⎟⎟⎟

⎜⎜⎜

⎛=

),(),(

),(),(

1

111

nnn

n

xxkxxk

xxkxxkn×n 行列

( )njiji xxk

1,),(

=

R→Ω×Ω:k

Page 8: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

8

正定値カーネルの例

多項式カーネル

ガウスカーネル(RBFカーネル)

Fourierカーネル(複素数値)

dT cyxyxk )(),( +=mR=Ω

( d:自然数, )

⎟⎠⎞

⎜⎝⎛ −−= 2

2

1exp),( xyyxkσ

mR=Ω( σ > 0 )

mR=Ω )(1),( yxT

eyxk −−= ω mR∈ω

0≥c

( )

Page 9: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

9

再生核ヒルベルト空間

定理

k(x,y) : 集合 Ω 上の正定値カーネル

Ω 上の関数からなるヒルベルト空間 Hk が一意に存在して,

次の3つを満たす

(1)

(2) 有限和 の形の元は Hk の中で稠密

(3) (再生性)

注) k(・, x) ・・・ x を固定した1変数関数

Hk : (k に対する)再生核ヒルベルト空間(reproducing kernel Hilbert space, RKHS)

kHxk ∈⋅ ),( ( x ∈ Ω は任意に固定)

∑ = ⋅= ni ii xkcf 1 ),(

),(,)( xkfxf ⋅= ∀ f ∈Hk, x∈Ω

Page 10: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

10

RKHSによるデータ表現

底空間からRKHSへX : Ω に値をとる確率変数

k : Ω 上の(可測な)正定値カーネル, Hk : RKHS

Φ(X) : Hk に値をとる確率変数 Φ(X) に対してデータ解析

X1, X2, …, Xn : サンプルΦ(X1), Φ(X2), …, Φ(Xn) : Hk への埋め込み

: , ( ) ( , )kH x k xΦ Ω → Φ = ⋅

Page 11: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

11

RKHSの利点

内積計算が容易ヒルベルト空間内でのデータの相関が計算可能

Gram行列が活躍

c.f. L2 空間: 内積計算には積分必要

( ), ( ) ( , ), ( , ) ( , )x y k x k y k x yΦ Φ = ⋅ ⋅ =

( ), ( ) ( , )i i j j i j i ji j i ja X b X a b k X XΦ Φ =∑ ∑ ∑ ∑グラム行列

特に2 2( ) ( , ) ( , )x k x k x xΦ = ⋅ =

Page 12: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

12

RKHSの利点

関数の連続性、微分可能性k :連続(微分可能) Hkに属する任意の関数は連続(微分可能)

c.f. L2 空間: 1点における関数の値すら定まらない

L2 よりも狭く扱いやすいk(x, x) が2乗可積分ならば、 かつ

{ }

22

2 2

2

( ) ( ) , ( , ) ( , )

( , ) ( , )

( , ), ( , ) 2 ( , ), ( , ) ( , ), ( , )

f x f y f k x k y

f k x k y

f k x k x k x k y k y k y

− = ⋅ − ⋅

≤ ⋅ − ⋅

= ⋅ ⋅ − ⋅ ⋅ + ⋅ ⋅2 ( ( , ) 2 ( , ) ( , )) 0 ( )f k x x k x y k y y x y= − + → →

連続性)

(Schwartz)

2 ( )kH L μ⊆

( )21/ 2

( ) ( , )kL Hf k x x d fμ μ≤ ∫

Page 13: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

13

正定値性の判定

基本的な正定値カーネルk(x,y) = f(x) f(y) ( f : Ω R は任意の関数)

正定値性を保つ変換k1(x, y) ,k2(x, y) : 正定値、 a1, a2 ≧ 0

非負結合

積 k1(x, y) k2(x, y) : 正定値

各点収束 k1(x, y), k2(x, y), … :正定値 :正定値

正規化 k(x,y) : 正定値、 f : Ω R は任意の関数f(x) k(x,y) f(y) : 正定値

特に

),(),( 2211 yxkayxka + : 正定値

lim ( , )nnk x y

→∞

),(),(),(),(~

yykxxkyxkyxk = : 正定値 (正規化)

Page 14: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

14

正定値性の判定

多項式カーネル

xTy は正定値 ∵) xTy = x1y1 + x1y1 + … + xmym

⇒ xTy + c は正定値 ( c ≧ 0 )

⇒ (xTy + c)d は正定値 (d 個の積)

Fourierカーネル

Gaussカーネル

( ) ( ) ( )yxyx TTT ωωω 1exp1exp)(1exp −−−=−− )()( yfxf=

( ) ( ) ( )2 21 12 2

1exp || || exp || || exp 1(2 ) m

Tm R

x x dω ω ωπ

− = − −∫ガウス関数の Fourier変換は,またガウス関数

( ) ( ) ( )221 12 2exp || || exp 1 ( ) expT

t tt x y x yω ω− − − → − −∑

正定値

Page 15: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

15

Rm上の正定値カーネル

Bochner の定理k(x,y) = φ(xーy) の形を持つ Rm 上の関数が正定値であるための

必要十分条件は, Rm 上の測度 μ が存在して、関数 φ(z) が,

と表されることである。特に、 φ(z) のFourier変換が非負実数関数ならば φ(xーy) は正定値。

上の積分表示を持つ φ(z) が正定値であることは、

ガウスの場合と同様。実は、この形で尽くされている。

Fourierカーネル が、正定値カーネル全体の成す閉凸錐を張っている。

Bochnerの定理はAbel群上(半群上)のカーネルに拡張可能。

( )( ) exp 1 ( )mTz z dφ ω μ ω= −∫R

測度(非負)Fourierカーネル(正定値)

( ))(1exp yxT −− ω

Remarks

Page 16: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

16

2. さまざまなカーネル

アルゴリズム

Page 17: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

17

線形手法のカーネル化

RKHSでの線形アルゴリズムデータが Rm のベクトル

線形アルゴリズムの利用 (線形回帰、PCA、CCA etc)相関、分散共分散行列の計算が本質的

内積計算ができれば、ヒルベルト空間内のデータにも適用可能

RKHSにおける線形アルゴリズム

データの空間での非線形アルゴリズム

SVM(カーネル最大マージン識別器)

カーネル主成分分析(カーネルPCA)カーネル正準相関分析(カーネルCCA)カーネルFisher判別分析

カーネルロジスティック回帰 etc

Page 18: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

18

PCAとカーネルPCA主成分分析(PCA,復習)m 次元データ X1, …, XN

PCA ・・・ 分散が最大になる方向(部分空間)にデータを射影

単位ベクトル a 方向の分散:

V の単位固有ベクトル u1, u2, …, um ( λ1 ≧ … ≧ λm )

第 p 主成分の軸 = up

データ Xj の第 p 主成分 =

Ti

Ni iN XXV ~~

11 ∑ ==

∑ =−= Nj jNii XXX 1

1~ (中心化)

分散共分散行列

jTp Xu

VaaXaXa TNi i

TN

T == ∑ =121 )~(][Var

Page 19: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

19

PCAとカーネルPCA

カーネルPCA(Schölkopf et al. 98)カーネル k を設定

データ X1, …, XN ∈ ΩHk 上でPCA単位ベクトル h 方向の分散 =

としてよい(直交方向は分散に寄与しない)

分散

kjj HXk ∈⋅= ),(φ

∑ =Ni ih

N 1

2~,1 φ

ただし ∑ =−= Nj jNii 1

1~ φφφ (中心化)

最大化

∑ == Ni iih 1

~φα

2 21 1

1 1,N N Tj j aa j K

N Nα φ φ α α= == =∑ ∑

jiijK φφ ~,~~ =ただし

|| || 1 1Th Kα α= ⇔ =

最大化

制約

Page 20: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

20

カーネルPCAのアルゴリズム

中心化グラム行列の計算

固有分解

主成分

* φ1 ,…, φN に対する計量的MDSに他ならない

計量(相関)が正定値カーネルによって定義されている

∑ == Na

Taaa uuK 1

~ λ

2

11

1 11 , 1

( , ) ( , )

( , ) ( , )

Nij i j i aaN

N Na j a ba a bN N

K K X X K X X

K X X K X X=

= =

= −

− +

∑ ∑( )ijNN KQQ=

,1 TNNNNN IQ 11−= 1N = (1,…,1)Tただし

データ Xj の第 p 主成分 =p

p juλ

Page 21: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

21

正準相関分析(CCA)CCA(復習)2種類の多次元データの相関が最もよく表れる方向を探す

m 次元データ X1, …, XN

n 次元データ Y1, …, YN

X を a 方向,Y を b 方向に射影したときに相関が大きくなる(a,b) を求める

正準相関 ( )( )( ) ( ) bVbaVa

bVa

YbXa

YbXa

YYT

XXT

XYT

ba

i iT

Ni iT

N

i iT

iT

N

ba

n

m

n

m

RR

RR

∈∈

∈∈

==∑∑

∑ max~~

~~max

2121

X Ya

aTX bTYb

∑= iT

iiNXY YXV ~~1 などただし

Page 22: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

22

正準相関分析(CCA)

CCAの手続き

特異値分解

CCAの解

( )( )( ) ( )vu

vVVVubVaV

bVVVVVa YYXYXXT

vu

YYXX

YYYYXYXXXXT

ba

n

m

n

m

2/12/1

2/12/1

2/12/12/12/1

maxmax−−

∈∈

−−

∈∈

==RR

RR

ρ

1/ 2 1/ 2,XX YYu V a v V b= =

TYYXYXX VUVVV Λ=−− 2/12/1

),,( 1 muuU …=),,( 1 nvvV …=

01 ≥≥≥ λλ},min{ nm=

⎩⎨⎧

=

=−

12/1

12/1

vVb

uVa

YY

XX1λρ =

1

λ

⎛ ⎞⎜ ⎟Λ = ⎜ ⎟⎜ ⎟⎝ ⎠

Page 23: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

23

カーネルCCARKHS上でのCCA kX , kY : ΩX , ΩY 上の正定値カーネル

X1, …, XN φX1, …, φX

N

Y1, …, YN φY1, …, φY

N

カーネルCCA ・・・ φX を f ∈ HX 方向、 φY1 を g ∈ HY 方向に

射影したときに、最も相関が大きくなる f, g を求める

( , ),Xi X ik Xφ = ⋅

( , )Yi Y ik Yφ = ⋅

1

2 21 1

, ,max

, ,

X Y

XY

X Y

X Yi iiN H H

f H X Yg H i ii iN NH H

f g

f g

φ φ

φ φ∈∈

∑ ∑

,X Yi iφ φ :中心化

でよいか?

Page 24: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

24

カーネルCCAの正則化

正則化の必要性で十分(直交方向は寄与しない)1 ,N X

i iif a φ== ∑ 1N Y

i iig bφ== ∑

2 2max

N

N

TX Y

T TaX Yb

a K K b

a K a b K bρ

∈∈

=RR

,X YK K : 中心化Gram行列

,X YK K : N×N行列。 値域はともに N⊥1

X YK a K b= なる a, b に対し、常に ρ = 1 無意味

Page 25: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

25

カーネルCCAの正則化

正則化 1

2 22 21 1

, ,max

, ,

X Y

XY

X YX Y

X Yi iiN H H

f H X Yg H i N i Ni iN NH HH H

f g

f f g g

φ φ

φ ε φ ε∈∈ + +

∑ ∑

1 ,N Xi iif a φ== ∑ 1

N Yi iig bφ== ∑ とおくと

( ) ( )2 2max

N

N

TX Y

T TaX N X Y N Yb

a K K b

a K N K a b K N K bε ε∈∈

+ +RR

εN : 正則化定数

Page 26: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

26

カーネルCCAのアルゴリズム

特異値分解

CCAの解

( ) ( )1/ 2 1/ 2X N N X Y Y N NK N I K K K N Iε ε− −

+ +

最大特異値に対する固有ベクトル : u1, v1

( ) 1/ 21,X N Na K N I uε −

= +

1

1

ˆ ,

ˆ

N XN i ii

N YN i ii

f a

g b

φ

φ=

=

⎧ =⎪⎨

=⎪⎩

( ) 1/ 21Y N Nb K N I vε −

= +

Page 27: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

27

カーネルCCAの例

-1 -0.5 0 0.5 10

0.05

0.1

0.15

0.2

0.25

0.3

0.35

-1 -0.5 0 0.5 1-0.35

-0.3

-0.25

-0.2

-0.15

-0.1

-0.05

0

-1 -0.5 0 0.5 1-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35-0.35

-0.3

-0.25

-0.2

-0.15

-0.1

-0.05

0

y

x

y

x

ˆ ( )Nf x

( )ˆNg y

ˆ ( )Nf X

( )ˆNg Y

オリジナルデータ 変換後のデータ

ガウスカーネルを用いた

Page 28: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

28

カーネルCCAの一致性

カーネルCCAの妥当性「正則化」によって得られた解の妥当性は?

推定問題としてのCCACCAの最終目標: ポピュレーションで考える

一致性

は f* , g* に収束するか?

収束のための εN の条件は?

収束を測るためのノルムは何か?

( )1/ 2[ ( ), ( )]max

[ ( )] [ ( )]XY

f Hg H

Cov f X g YVar f X Var g Y∈

f* , g*

ˆ , ˆN Nf g

Page 29: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

29

共分散作用素

共分散作用素の定義X , Y : ΩX , ΩY 上の確率変数

HX , HY : kX, kY により定まる ΩX , ΩY 上のRKHS有界な線形作用素

で次の関係が成り立つものが存在

有限次元の場合の共分散行列に対応

:YX X YH HΣ →

, [ ( ) ( )] [ ( )] [ ( )]YYX XY X Yg f E f X g Y E f X E g YΣ = −H

,X Yf H g H∀ ∈ ∀ ∈( )Cov[ ( ), ( )]f X g Y=

. .) Cov ,T T TYXc f b a a X b Y⎡ ⎤Σ = ⎣ ⎦

Page 30: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

30

共分散作用素によるKCCAの表現

カーネルCCA(ポピュレーション)

カーネルCCAの解

ことが知られている。書き換えると

ξ∗, ζ∗: WYX の最大特異値に対する固有ベクトル

,max , YXf g

g fΣ , 1,XXf fΣ = , 1YYg gΣ =subj. to

1/ 2 1/ 2YX YY YX XXW − −= Σ Σ Σ

1/ 2 1/ 2* * * *,XX YYf gξ ζ− −= Σ = Σ

1/ 2 1/ 2YX YY YX XXWΣ = Σ Σ ( WYX は有界かつ || WYX ||≦1 ) とかける

Page 31: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

31

共分散作用素によるKCCAの表現

経験共分散作用素

カーネルCCA(サンプル)

( ) 1 1 11 1 1

ˆ, ( ) ( ) ( ) ( )N N NNYX i i i ii i iN N Ng f f X g Y f X g Y= = =Σ = −∑ ∑ ∑

( )

,ˆmax , N

YXf gg fΣ ( ) ( )( ) ( )ˆ ˆ, , 1N N

XX N YY Nf I f g I gε εΣ + = Σ + =subj. to

ˆ ˆ,N Nξ ζ

( ) ( )1/ 2 1/ 2( ) ( ) ( ) ( )ˆ ˆ ˆ ˆ:N N N NYX YY N YX XX NW I Iε ε

− −= Σ + Σ Σ +

( ) 1/ 2

( ) 1/ 2

ˆ ˆˆ( )ˆˆ( )ˆ

NN XX N N

NN YY N N

f I

g I

ε ξ

ε ζ

⎧ = Σ +⎪⎨

= Σ +⎪⎩

: の最大特異値に対する固有ベクトル( )ˆ NYXW

階数有限の作用素

Page 32: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

32

コンパクト作用素

定義H1, H2 : ヒルベルト空間

T : H H2 線形作用素

T がコンパクトであるとは、 H1内の任意の有界列 に対し、部分列 ni があって が H2 で収束することをいう。

コンパクト作用素の特異値分解コンパクト作用素は特異値分解が可能。

1{ }n nf ∞=

inTf

1 2 0,λ λ∃ ≥ ≥

11,i i iH

iT λ ξ ζ

== ⋅∑

{ } 1i iξ ∞=∃ { } 1i iζ ∞

=∃: H1 の正規直交基底, : H2 の正規直交基底

Page 33: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

33

固有ベクトルの収束

作用素ノルムH, G : ヒルベルト空間

T : H G 有界線形作用素

固有ベクトルの収束H1, H2 : ヒルベルト空間、 T, Tn : H1 H2 コンパクト作用素

(ξ∗, ζ∗) : T の最大特異値に対する単位固有ベクトル

(ξn, ζn) : Tn の最大特異値に対する単位固有ベクトル

Tnが T にノルム収束する(|| Tn – T || 0 )ならば、

0sup G

f H

TfT

f≠= ・・・ 作用素ノルム

(行列の場合の最大固有値に対応)

1*, 1,n Hξ ξ →2*, 1 ( ).n H nζ ζ → → ∞

Page 34: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

34

カーネルCCAの一致性

補題1

WYX がコンパクト作用素、かつ正則化係数が

を満たすならば、 N ∞ のとき、

は WYX にノルム収束の意味で確率収束する。

1/30, ( )N NN Nε ε→ → ∞ → ∞

( ) ( )1/ 2 1/ 2( ) ( ) ( ) ( )ˆ ˆ ˆ ˆN N N NYX YY N YX XX NW I Iε ε

− −= Σ + Σ Σ +

Page 35: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

35

カーネルCCAの一致性

定理1

WYX がコンパクト作用素、かつ正則化係数が

を満たすならば、

と確率収束する。

1/30, ( )N NN Nε ε→ → ∞ → ∞

*ˆ , 1,

XNξ ξ →

H *ˆ , 1

YNζ ζ →

H( )N → ∞

RKHSでの収束は非常に強い。各点収束、および正定値カーネルが連続なら一様収束をも意味する。

Page 36: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

36

カーネルCCAの一致性

定理2 (カーネルCCAのL2収束)

WYX がコンパクト作用素、かつ正則化係数が

を満たし、ξ* と ζ* がそれぞれ ΣXX と ΣYYの値域に含まれるならば、

と確率収束する。

1/30, ( )N NN Nε ε→ → ∞ → ∞

( ) ( )2 ( )

ˆ ˆ[ ( )] [ ( )] 0X

N X N X L Pf E f X f E f X− − − →

( ) ( )2 ( )[ ( )] [ ( )] 0ˆ ˆ

YN Y N Y L Pg E g Y g E g Y− − − → (N ∞ )

Page 37: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

37

3.セミパラメトリック推定問題への応用

- 条件付独立性 -

Page 38: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

38

確率変数の独立性

独立性の定義X, Y : 確率変数

PXY : 同時確率, PX , PY : 周辺確率,

X と Y が独立 ⇔

特性関数による特徴づけ

X と Y が独立 [ ] [ ] [ ]YY

XX

YXXY

TTTT

eEeEeeE ηωηω 1111 −−−− =⇔

⇔ の相関が 0YX TT

ee ηω 11 −− と

)()()( BPAPBAP YXXY =×

(∀ω, η)

yx TT

ee ηω 11 −− と は非線形相関をつくる変換

独立性 ⇔ 十分さまざまな非線形相関が 0

Fourierカーネル

Page 39: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

39

再生核ヒルベルト空間と独立性

RKHSによる独立性の特徴づけ(B&J2002)

X, Y : 確率ベクトル

HX , HY : ガウスカーネルに対するRKHS

X と Y が独立

[ ] [ ] [ ])()()()( YgEXfEYgXfE YXXY =⇔ ,X Yf H g H∀ ∈ ∀ ∈

∵)十分豊かな非線形相関が表現可能

⇒ は常に成立。ガウスカーネルならば逆も成立

カーネル独立成分分析(セミパラメトリック問題)への応用

YX O⇔ Σ =

Page 40: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

40

回帰問題における次元削減

回帰問題における有効な部分空間回帰問題 ・・・ Y を X で説明する

次元削減

)|()|( XBYpXYp T=

X : m 次元ベクトルB = (b1, …, bd) m x d 行列

)|( XYp の推定

となる B を探す.

BTX = (b1TX, .., bd

TX) は, Y に関してX と同じ情報量を持つ

有効部分空間(特徴ベクトル)

BTB = Id

Page 41: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

41

回帰問題における次元削減

)1.0;0()exp(1

1 2

1

NX

Y +−+

=

有効部分空間 = X1軸

X1X2

Y

1X

Y

-10 -8 -6 -4 -2 0 2 4 6 8-0.2

0

0.2

0.4

0.6

0.8

1

1.2

2X

Y

Page 42: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

42

次元削減と条件付独立性

X の分解 (U, V) = (BTX, CTX))(),( mOCB ∈

vuyuypvuyp UYVUY ,, )|(),|( |,| allfor=⇔

⇔ Y と V は U のもと条件付独立 UVY |⊥

)|()|( || xBypxyp TUYXY =⇔

XU V

Y

直交行列

B が有効な部分空間を与える

U :有効なベクトルの候補, V :それに直交する方向

Page 43: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

43

条件付独立性と条件付分散

条件付分散X, Y : ガウスの場合

Var[Y | X ] = VYY – VYX VXX-1 VXY = (線形回帰の残差)

Var[Y | X ] が小さいほど X は Y の情報を多く含んでいる

X, Y : 一般の場合

X = (U, V) と分解すると

[Var[ ( ) | ]] [Var[ ( ) | ]]X UE g Y X E g Y U≤Y に関する情報が増えることはない

[Var[ ( ) | ]] [Var[ ( ) | ]]X UE g Y X E g Y U=UVY |⊥ ならば

(∀g )

(∀g )

Y に関する情報は落ちない

Page 44: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

44

条件付独立性と条件付分散

条件付分散による条件付独立性の特徴づけ

Q: 逆に [Var[ ( ) | ]] [Var[ ( ) | ]]X UE g Y X E g Y U=UVY |⊥ならば か?

[Var[ ( ) | ]] [Var[ ( ) | ]]X UE g Y X E g Y U=

HY : ガウスカーネルによるRKHSUVY |⊥

⇔ Yg H∀ ∈

ガウスカーネルによるRKHSは十分豊かな非線形関数を含む。

( )g∀

Page 45: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

45

条件付分散と共分散作用素

共分散作用素定義

正定値自己共役作用素

共分散作用素と条件付分散任意の に対し

1|YY X YY YX XX XY

−Σ ≡ Σ − Σ Σ Σ

( )1 1/ 2 1/ 2YX XX XY YY YX XY YYV V−Σ Σ Σ = Σ Σ

Yg H∈

( ) ( ) 2|, min ( ) [ ( )] ( ) [ ( )]

XYY X YX Y Xf

g g E g Y E g Y f X E f X∈

Σ = − − −H

[Var[ ( ) | ]]XE g Y X=

(多少条件が必要)

(残差)

Page 46: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

46

共分散作用素と条件付独立性

条件付独立性の特徴づけ(FBJ2004)

kd(z1,z2) : d 次元ガウスカーネル

U = BTX に対するRKHSを kd で構成

常に

が成立。

さらに、若干の条件のもと、

| |Tr TrYY U YY X⎡ ⎤ ⎡ ⎤Σ ≥ Σ⎣ ⎦ ⎣ ⎦

( , ) ( , ).T TU V B X C X=

| || Tr TrYY U YY XY V U ⎡ ⎤ ⎡ ⎤⊥ ⇔ Σ = Σ⎣ ⎦ ⎣ ⎦

1Tr[ ] ,i i

iA e Ae

== ∑* 1{ }i ie ∞

= : 正規直交基底

Page 47: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

47

カーネル次元削減法

(X1,Y1),…,(XN,YN):サンプル

: kB (x1, x2) = kd(BTx1, BTx2) に対する中心化Gram行列

( ) 1( ) ( ) ( ) ( ) ( )|

ˆ ˆ ˆ ˆ ˆ:B N N B N B N B NYY X YY YX XX N XYIε

−Σ = Σ − Σ Σ + Σ

( ) 1( )|

ˆTr Tr TrB N B BYY X Y Y X N N XK K K N I Kε

−⎡ ⎤⎡ ⎤Σ = − +⎡ ⎤⎣ ⎦⎣ ⎦ ⎢ ⎥⎣ ⎦

( ) ( )1 1B B BX N N X N N X N NK N I K I N K N Iε ε ε

− −+ = − +

BXK

カーネル次元削減法(KDR)

( ) 1

:min Tr

Td

BY X N N

B B B IK K N Iε

=

⎡ ⎤+⎢ ⎥⎣ ⎦

Page 48: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

48

KDRの応用例

-20 -10 0 10 20

-20

-15

-10

-5

0

5

10

15

20

-20 -10 0 10 20

-20

-15

-10

-5

0

5

10

15

20

-20 -10 0 10 20

-20

-15

-10

-5

0

5

10

15

20 CCA Partial Least Square

Sliced Inverse Regression

( )22exp),( σyxyxk −−=

σ = 30

-20 -10 0 10 20

-20

-15

-10

-5

0

5

10

15

20

KDR

Wine data (from UCI Repository)13 dim. 178 data.3 classes2 dim. projection

Page 49: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

49

KDRの一致性

kd が有界かつ連続で、正則化係数が

を満たすとする。また最適パラメータ集合を S0 をかく。すなわち

このとき、適当な正則条件のもと、 なる任意の開集合 Uに対し

1/ 20, ( )N NN Nε ε→ → ∞ → ∞

定理3

{ }'0 | |'

| , Tr min TrT B Bd YY X YY XB

S B B B I ⎡ ⎤ ⎡ ⎤= = Σ = Σ⎣ ⎦ ⎣ ⎦

0U S⊃

( )( )ˆPr 1 ( ).NB U N∈ → → ∞

Page 50: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

50

おわりに

正定値カーネルデータ間の内積(相関)構造を定める

その内積を持つ再生核ヒルベルト空間が定義される

カーネル法関数空間への変換による非線形相関の導入

従来の線形アルゴリズムを容易に拡張できる

カーネルPCA, カーネルCCA, カーネルFDA, SVM,カーネルロジスティック回帰 etc.

モデリング = カーネルの定義

問題の性質を反映したカーネルが重要

構造化データ(非ベクトル、グラフ、系列など)の扱いに便利

Page 51: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

51

おわりに

セミパラメトリック問題への応用独立性、条件付独立性の特徴づけに必要な無限の自由度を扱うためにRKHSを用いる

カーネルICA, カーネル次元削減法

カーネル法に関するその他の話題SVMの詳細(最適化、汎化誤差など)

構造化データ(グラフ、系列など)の扱い

カーネルの最適設計、カーネルの学習

ガウス過程としての見方

Page 52: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

52

参考文献全般

Schölkopf, B. and A. Smola. Learning with Kernels. MIT Press. 2002. John Shawe-Taylor & Nelo Cristianini. Kernel Methods for Pattern Analysis. Cambridge Univ. Press. 2004.

個別の話題

Kernel PCASchölkopf, B., A. Smola, K.-R. Müller. (1998) Nonlinear Component Analysis as a Kernel Eigenvalue Problem. Neural Computation 10, 1299–1319.

Kernel CCAAkaho, S. (2001) A kernel method for canonical correlation analysis. International Meeting on Psychometric Society (IMPS2001).Bach, F.R. and M.I. Jordan. Kernel independent component analysis. J. Machine Learning Research, 3, 1-48, 2002. Fukumizu, K. Bach, F.R., and Gretton, A. Consistency of Kernel Canonical Correlation Analysis. ISM Research Memo 942, 2005.

Page 53: 正定値カーネルを用いた データ解析Extended version. 2 概要 {イントロダクション {正定値カーネルと再生核ヒルベルト空間 {さまざまなカーネルアルゴリズム

53

参考文献

カーネル次元削減法

Fukumizu, K., F.R. Bach, and M.I. Jordan. Dimensionality reduction for supervised learning with reproducing kernel Hilbert spaces, J. Machine Learning Research, 5, 73-99, 2004.

公開講座資料

2004年統数研公開講座「機械学習の最近の話題」

http://www.ism.ac.jp/~fukumizu/ISM_lecture_2004/index.html