7 10 bio-datamining-morishita-classification-svm-kNN …moris/lecture/upbsb/...C5-2 C4-1 C3-1 C3-2 C4-2 C2-2 C9 C10 C11: cell size C12: cell outline length C13: fitness for ellipsoid

k nearest neighbors

• 規則を学習しない• 未知のテストレコードと最も類似した（適切な距離を定義し、近い距離にある）k 個の訓練レコードの集合 S を求める

• 未知のテストレコードの目標属性値を S から予測例２値の場合： S の目標属性値の多数決

数値の場合：平均値

• レコード間の類似性を適切に定義することが重要でユークリッド距離やハミング距離など

• k の選択も学習能力を左右

未知のテストレコード

ナイーブベイズ分類

P(A | T) = P(A & T ) / P(T)

P(T | A) = P(A & T) / P(A)

P(A & T) = P(A | T) P(T) = P(T | A) P(A)

P(A | T) =P(A)

P(T)

条件付確率

ベイズの定理

事後確率（条件ＴのもとＡが観測される確率）

P(T | A)

尤度（Ａが観測されたとき、それを説明する条件 T の尤もらしさ）

事前確率

P(T1&T2 | A) = P(T1|A) P(T|T1&A)

訓練データ

T1 T2 T3 T4 目標属性A

1 0 1 1 11 0 1 1 11 1 1 1 11 1 0 0 0

:

P(A=w | T1=v1 ,…, T4=v4) =

P(A=w)

P(T1=v1 ,…, T4=v4)

T1=v1 ,…, T4=v4 はｗの値として 1 と 0 どちらを推定するか？

事後確率の推定尤度を条件付確率を利用して変形

P(T1=v1, T2=v2, T3=v3, T4=v4 | A=w)= P(T1=v1 | A=w) P(T2=v2 , T3=v3, T4=v4 | T1=v1, A=w)= P(T1=v1 | A=w)

P(T2=v2 | T1=v1, A=w) P(T3=v3, T4=v4 | T2=v2, T1=v1, A=w)= P(T1=v1 | A=w) P(T2=v2 | T1=v1, A=w)

P(T3=v3 | T2=v2, T1=v1, A=w) P(T4=v4 | T3=v3, T2=v2, T1=v1, A=w)

≒P(T1=v1 | A=w) P(T2=v2 | A=w) P(T3=v3 | A=w) P(T4=v4 | A=w)

未知のテストデータに対してクラス分類器 T1=v1 ,…, T4=v4 が目標属性値 w を予測する（事後）確率をベイズの定理より推定

尤度（目標属性Aの値 w が観測されたとき、それを説明する条件 T1=v1 ,…, T4=v4 の尤もらしさを示す）

T1=v1 ,…, T4=v4 が互いに独立であることを「ナイーブに」仮定（ナイーブベイス分類）例 P(T2=v2 | T1=v1, A=w) = P(T2=v2 | A=w)

P(T1=v1 ,…, T4=v4 | A=w)

P(T1&T2 | A) = P(T1 | A) P(T2 | T1& A)

T1 T2 T3 T4 目標属性A

1 0 1 1 11 0 1 1 11 1 1 1 11 1 1 0 01 0 1 0 01 1 0 1 01 0 0 1 01 1 0 1 00 1 0 1 10 0 1 1 10 1 0 1 10 1 0 1 10 0 0 1 10 0 1 0 00 1 0 0 00 0 1 0 0

4/84/80

4/84/81T3

4/84/80

3/88/81T4

T2

T1

4/84/81

3/85/80

5/80/80

5/83/81

01

目標属性 A

条件付確率 P(Ti =v | A=w)

wv

P(T1=0, T2=0, T3=0, T4=1 | A=1) = P(T1=0|A=1) P(T2=0|A=1) P(T3=0|A=1) P(T4=1|A=1)= (5/8) (4/8) (4/8) (8/8)

P(T1=0, T2=0, T3=0, T4=1 | A=0)= (1/2) (3/8) (4/8) (4/8) (3/8)

尤度

訓練データ

ナイーブベイズ分類器

クラス分類器 T1=v1 ,…, T4=v4 が推定する目標属性値 w は

事前確率 × 尤度＝

P(A=w) P(T1=v1 | A=w) P(T2=v2 | A=w) P(T3=v3 | A=w) P(T4=v4 | A=w)

を最大にする w の値と定義する（右辺の値は訓練データから収集する）

例P(A=1) P(T1=0|A=1) P(T2=0|A=1) P(T3=0|A=1) P(T4=1|A=1)

= (1/2) (5/8) (4/8) (4/8) (8/8)

> P(A=0) P(T1=0|A=0) P(T2=0|A=0) P(T3=0|A=0) P(T4=1|A=0)= (1/2) (3/8) (4/8) (4/8) (3/8)

T1=0, T2=0, T3=0, T4=1 は A=1 を推定

Support Vector Machine

参考文献• C. Cortes and V. Vapnik, Support-Vector Networks, Machine Learning, 20(3):273-297, September 1995• Vladimir N. Vapnik. The Nature of Statistical Learning Theory. Springer, New York, 1995

参考サイト http://www.kernel-machines.org/参考 java applet http://www.csie.ntu.edu.tw/~cjlin/libsvm/

応用例• マイクロアレーデータから遺伝子や組織を分類

• タンパク質の結合関係の予測• 表現型からの遺伝子機能の予測

細胞壁 FITC-ConA 核 DAPI アクチン Rh-ph

Superimposition

Cell-image Processing

Ｐｈｅｎｏｍｅからの例

FITC-ConA画像から

C1-2

C8C6

C7

C1-1

C2-1 C5-1

C5-2

C4-1C3-1

C3-2

C4-2

C9C2-2

C10

C11: cell size C12: cell outline lengthC13: fitness for ellipsoid

A1: Number, location,size,brightness

in each actin patch

A7: size ofactinregionA8: total brightness of

actinregionA9: proportion of

actinregion at neck

A3-1

A3-2

A5-2

A5-1

A2-1

A6-2

A6-1

A2-2

A4-2

A4-1

Rh-ph画像から

D1-1 D3-1

D5-1

D4-1

D3-3

D4-3

D13-2

D13-1

D2-2D2-1

D12-2

D12-1

D1-2D1-1

D11-2

D11-1

D2-1

D1-1C10

C1-2

C4-2

D9-1D10-1

D10-2D9-2D2-2

D1-2

C1

C2M1

D1-1

C10 D7D6-1

M

C4-2

D1-2D6-2D8

M1

D1-2

D18-1C1-2

C4-2

D22

D1-1

M1C1

D18-2 D2-2

D19-1C1-2

C4-2

D23

D2-1

M1C1

D19-2

C1-2C1 M1

D4-1D3-1

D20D24

D3-3

C4-2

D4-3C1

D21-1D21-2

D25

C1-2

D14: nuclear sizeD15: sum of nuclear brightnessD16: maximal brightness of nucle

DAPI画像から

his3rad27ctf4 est1核の分裂が完了する前の母細胞に対する芽の大きさ

ycr066w rad18 DNA repairydl013w hex3 DNA recombination

*ydr369c xrs2 Double strand break repair*yer095w rad51 DNA recombinase*ygl163c rad54 DNA repairyhr154w rtt107 DNA transpositionyhr191c ctf8 DNA replication factor C comyjl115w asf1 DNA damage responseyll002w rtt109 DNA transpositionylr233c est1 Telomere length regulation

*yml032c rad52 DNA recombinaseymr078c ctf18 DNA replication factor C com

*ymr224c mre11 Double strand break repair*ynl250w rad50 Double strand break repairypr135w ctf4 DNA polymerase a binding prypr164w mms1 DNA repair

註: *印は、予測に用いたGOの”recombinational_repair”に属する遺伝子変異株

核が分裂中の細胞の比率

高い

大きい

DNA修復や複製に関連する遺伝子

(DNA repair)

D201

C125_A1B

ydr159w sac3 Unknownyor080w dia2 Unknown

Ohya et al. High-dimensional and large-scale phenotyping of yeast mutants. PNAS 102(52):19015-20 (2005)

Fisher の線形判別

が存在することと同値とを満たす

で表現すれば、を定数

いの自由度は不必要に多

が存在しとベクトル

が線形分離可能とは、

訓練データ

b

liby

b

liy

yRyy

ii

ii

in

ill

w

xw

bwb

bxw

bw

xxx

),,1(0)(

),,1(0))((

}1,1{,),(,),,( 11

…

…

…

=>+⋅

⋅−

=>−⋅

+−∈∈w

xib

yi = 1

yi = -1

w

Fisher の線形判別

{ } { }

( )( )

( )( ) ( )( )

( )( )( )( ) ( )( )

を求めるを最大にする

　そこでしたいを小さく

ラス内での点の分散を大きく、正と負のク

の二乗上に射影した点の距離を

たデータの平均値正および負に分類され

たクラス分類線形判別関数をつかっ

w

wmxwmxwmm

wmxwmx

wmm

wmm

xx

xm

xx

xm

xwx

x

xx

xx

xx

2

1)(

2

1)(

2

2

1)(

2

1)(

2

1)(1)(

..

,

1)(|1)(|

otherwise101

)(

)(

∑∑

∑∑

∑∑

−= −= +

−+

−= −= +

−+

−+

−=−

=+

⋅−+⋅−

⋅−

⋅−+⋅−

⋅−

−==

==

⎩⎨⎧−

≥+⋅=

dd

dd

dd

dd

bd

d

m+

m-

線形判別とマージン

x

x

x

x

m+

m-

線形判別ではこの差を重視

マージンとはデータの存在しない部分

Support Vector Machineマージン (Margin)

w

wwx

wwx

w

xx

⋅−

⋅=

−==

i

y

i

y iiii

b

}1|{}1|{maxmin

),(ρマージン　

SVM はマージンを

最大化するアプローチ

マージン境界上の点(support vector) に依存

yi = 1

yi = -1

最適超平面 (Optimal Hyperplanes)

000 =+⋅ bxw100 =+⋅ bxw

w0 がマージンを最大化する場合

100 −=+⋅ bxw

w0

00

0

0

0

0

0

}1|{0

0

}1|{

00

211

maxmin

),(

www

wwx

wwx

w

xx

=−−

−−

=

⋅−

⋅=

−==

bb

b

i

y

i

y iiii

ρ

境界線上に載る点が存在するようにw0 の大きさを調節

100 ≥+⋅ bxw条件　

100 −≤+⋅ bxw条件　

を最大化のもと制約　 wwxw ⋅=≥+⋅ 2),,1(1)( liby ii …

yi = 1

yi = -1

最適超平面: ２次計画問題へ

[ ]

( )

[ ]

を与えるが鞍点について最大となるについて最小、と

をラグランジュ乗数

数法により解くラグランジュの未定乗

るが最適超平面をあたえを最小化するつまり

を最大化、のもと制約　

２次計画問題

0

1

1

0

)point( saddle

)1(1)(21),,(

)0(,,

2),,1(1)(

wΛw

wxwwΛw

Λ

wwwwwxw

b

bybL

liby

l

iiii

ilT

ii

…

…

∑=

−+⋅−⋅=

≥=

⋅

⋅=≥+⋅

α

ααα

最適超平面：双対問題へ

[ ]

∑∑∑∑

∑

∑∑∑

∑

∑

∑∑

= ===

=

===

=

==

===

⋅−=⋅−=

+⋅−⋅=

+−⋅−⋅=

−+⋅−⋅=

=−=∂

∂

==−=∂

∂

l

i

l

jjijiji

l

ii

l

ii

l

ii

l

ii

l

iii

l

iiii

l

iiii

l

iii

bb

l

iiii

l

iiii

yy

byy

by

bL

ybbL

yybLb

1 1100

1

10000

110

1000

10000

00

1

10

10

21

21

)3(),2(2121

1)(21

),,()1(

)3(0),,(

)2(0),,(,

0

0

xxww

wwww

wxww

wxww

Λw

Λw

xwxww

Λww

ww

αααα

α

ααα

α

α

αα

へ代入

条件について最小となる　

[ ]

( )

?

)2(

.,,

21),,(

0,0

01

0

1

1 1100

1

が必要かすべての　

を決定からより

２次計画法で計算

をを最大化する

のもと制約

双対問題

i

i

l

iiii

lT

l

i

l

jjijiji

l

ii

i

l

iii

y

yybL

y

x

wxw

Λ

xxΛw

αα

αα

ααα

αα

∑

∑∑∑

∑

=

= ==

=

=

=

⋅−=

≥=

…

最適超平面： w0 の計算

( )[ ]( )

( )

で表現可能最適超平面は

をこの条件を満たす

のとき

ての条件より鞍点におい

だけが線形結合に貢献のときの

が必要ではなくてすべての

の線形結合はより

ctor support ve

ctorsupport ve 1

0,,1

01Tucker -Kuhn

0

)2(

00

00

10

i

ii

i

iii

ii

i

l

iiiii

by

liby

y

xwx

wx

xx

xxw

=+⋅≠

==−+⋅

≠

∑=

α

α

α

α

…

100 −=+⋅ bxw

w0

100 =+⋅ bxw

最適超平面: マージンの計算

( )

( ) ( )

∑∑

∑

∑∑

∑

==

=

==

=

==

=+⋅−=

=⋅=

⋅

⋅−==

⋅⋅

l

iii

l

ii

ii

l

iii

l

iiii

l

iiii

l

iil

y

byby

yy

bL

11

0

001

00

10

10

0

00

001

0000

10

000000

0

11

.21),,(,,

.2

αα

α

αα

ααα

ρ

wx

xwwx

ww

wwΛwΛ

wwwww

を最大化すると仮定が

を計算なのではマージンの定める最適超平面の

…

エラーを許す分類へ：ソフトマージン

は定数）の最小化（

離したい小さくする超平面で分

を差の和マージンを広くし、誤

を用意し制約を緩和

数各データごとに非負実

、線形分離が困難な場合

CC

liby

l

ii

l

ii

iii

i

∑

∑

=

=

+

=−≥+⋅

≥

1

2

1

21

)2(),,1(1)(

)1(0

ξ

ξ

ξ

ξ

w

xw…

ソフトマージン

( )

( ) ( )( )

( )[ ]

00

0

,,)1(

121

,,,,00

,,1,0,,1,1

)1(21

00

0

0

00

000

111

2

1

2

=−−=∂∂

==∂∂

=−=∂∂

−+−+⋅−+

=≥≥

=≥=−≥+⋅

+

===

==

===

=

∑

∑

∑∑∑

∑

iii

l

iii

bb

l

iiii

i

l

iii

l

iiiii

l

ii

i

iii

l

ii

rCLybL

yLb

rbyC

bL,

liliby

C

ii

αξ

α

α

ξ

ξξαξ

ξξ

ξ

ξξ

xww

w

wxw

RΛξwRΛ

wx

w

ww

は以下の条件をみたすを最小化する

をラグランジュ乗数

小化を以下の制約のもと最

……

( )( )

( )

( )[ ]

∑

∑∑∑

=

= ==

=

≠

=+−+⋅

⋅−=

l

iiii

i

ii

iiii

l

i

l

jjijiji

l

ii

i

y

by

bL

yy

bL

bLb

00

0

000

00

0

1 11

00

0

000

ctor support ve .ctor support ve0

01

Tucker-Kuhn

,,,,

21

,,,,

,,,,,,

xw

xwx

wx

ΛRΛξw

xx

RΛξw

RΛξww

α

αξα

ααα

ξ

の線形結合はやはり

と定義をとなる

の定理より

２次計画法で計算

をを最大化する

に代入し変形を

非線形の判別関数による分類

正のデータ

負のデータ

x

y

x

yy=x2y=x

( ) ( )22121 ,,: xxxx →φ

非線形の判別関数：特徴空間

( ) ( ) ( ) ( )( )

( )

( ) ( )∑=

=

∈=→∈

l

iiiii

NN

n

N

n

y

xxxxxxxx

RR

RR

1

0

212221

2121

21

ctor support ve

,,,,)),((

,,,

xx

w

xxxxx

φαφ

φ

φφφφ

の線形結合の形をした

はを形成する特徴空間で最適超平面

例

みるに写像し線形分離を試間より高い次元の特徴空

離できない場合、の点を効果的に線形分入力空間

…

非線形の判別関数：計算量の軽減

( ) ( )

( )

( ) ( ) ( )

( ) ( ) ( ) ( ) の条件とは？を計算可能な関数を陽に計算せずに、と

で分類するときを最適超平面テスト

双対問題を解くとき

算量も増大巨大な特徴空間では計

次元の特徴空間にたいして入力パラメータ数が

の場合も大きい次元の特徴空間例　訓練データ数より

に使えば線形分離は容易を特徴空間入力空間に比べ巨大な

φφφφφ

φφαφ

φα

φφααα

yxyx

xxwx

xwx

xxΛw

⋅

−≤≥+⋅=+⋅

=

⋅−=

≅==

≈

<<

∑

∑

∑∑∑

=

=

= ==

?)1(?1

21),,(

102100.2.

)(

01

00

10

1 1100

30100

byb

y

yybL

NnN

Nn

l

iiii

l

iiii

l

i

l

jjijiji

l

ii

n

非線形の判別関数：カーネルトリック

( ) ( )( ) ( ) ( ) ( ) ( )

( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )( )

( ) ( )⎟⎟

⎠

⎞

⎜⎜

⎝

⎛ −−=⋅

=

≥==+⋅

+⋅=⋅∈

+++++=++=+⋅=⋅

==

==∈

++

+

=

+

+

+

+

+ ∑∑

2

2

21!!!!!

1

1,,,2211!!!!

!

22112

2222112

112

22112

212221

2121

2221

21

21212

exp

.1

.0,11

...1,

1222)1(1

)1,2,2,,2,()1,2,2,,2,(

),(),,(,

121

121

121

121

121

σφφ

φ

φ

φφ

φφ

φφ

yxyx

x

x

yx

yxyxyx

yxyx

yx

yxyx

カーネル他の例：

の次元は

ルであればよいを各要素とするベクトは

ただし

の形にするにはのとき一般に

ならば

と表現のとき

多項式カーネル

Gauss

CC

xxx

cdcyxyxyx

R

yxyxyxyxyxyxyxyx

yyyyyyxxxxxx

yyxxR

ddnndn

ccn

cccccc

d

i

n

ii

ccc

ccnn

cccccc

dd

dn

nn

nn

n

nn

nn…

d=4, n=3

c1=0, c2=1, c3=2, c4=1

Documents

7 10 bio-datamining-morishita-classification-svm-kNN …moris/lecture/upbsb/...C5-2 C4-1 C3-1 C3-2 C4-2 C2-2 C9 C10 C11: cell size C12: cell outline length C13: fitness for ellipsoid