Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
k nearest neighbors
• 規則を学習しない• 未知のテストレコードと最も類似した(適切な距離を定義し、近い距離にある)k 個の訓練レコードの集合 S を求める
• 未知のテストレコードの目標属性値を S から予測例 2値の場合: S の目標属性値の多数決
数値の場合: 平均値
• レコード間の類似性を適切に定義することが重要でユークリッド距離やハミング距離など
• k の選択も学習能力を左右
未知のテストレコード
ナイーブベイズ分類
P(A | T) = P(A & T ) / P(T)
P(T | A) = P(A & T) / P(A)
P(A & T) = P(A | T) P(T) = P(T | A) P(A)
P(A | T) =P(A)
P(T)
条件付確率
ベイズの定理
事後確率(条件TのもとAが観測される確率)
P(T | A)
尤度(Aが観測されたとき、それを説明する条件 T の尤もらしさ)
事前確率
P(T1&T2 | A) = P(T1|A) P(T|T1&A)
訓練データ
T1 T2 T3 T4 目標属性A
1 0 1 1 11 0 1 1 11 1 1 1 11 1 0 0 0
:
P(A=w | T1=v1 ,…, T4=v4) =
P(A=w)
P(T1=v1 ,…, T4=v4)
T1=v1 ,…, T4=v4 は w の値として 1 と 0 どちらを推定するか?
事後確率の推定 尤度を条件付確率を利用して変形
P(T1=v1, T2=v2, T3=v3, T4=v4 | A=w)= P(T1=v1 | A=w) P(T2=v2 , T3=v3, T4=v4 | T1=v1, A=w)= P(T1=v1 | A=w)
P(T2=v2 | T1=v1, A=w) P(T3=v3, T4=v4 | T2=v2, T1=v1, A=w)= P(T1=v1 | A=w) P(T2=v2 | T1=v1, A=w)
P(T3=v3 | T2=v2, T1=v1, A=w) P(T4=v4 | T3=v3, T2=v2, T1=v1, A=w)
≒P(T1=v1 | A=w) P(T2=v2 | A=w) P(T3=v3 | A=w) P(T4=v4 | A=w)
未知のテストデータに対してクラス分類器 T1=v1 ,…, T4=v4 が目標属性値 w を予測する(事後)確率をベイズの定理より推定
尤度(目標属性Aの値 w が観測されたとき、それを説明する条件 T1=v1 ,…, T4=v4 の尤もらしさを示す)
T1=v1 ,…, T4=v4 が互いに独立であることを「ナイーブに」仮定 (ナイーブベイス分類)例 P(T2=v2 | T1=v1, A=w) = P(T2=v2 | A=w)
P(T1=v1 ,…, T4=v4 | A=w)
P(T1&T2 | A) = P(T1 | A) P(T2 | T1& A)
T1 T2 T3 T4 目標属性A
1 0 1 1 11 0 1 1 11 1 1 1 11 1 1 0 01 0 1 0 01 1 0 1 01 0 0 1 01 1 0 1 00 1 0 1 10 0 1 1 10 1 0 1 10 1 0 1 10 0 0 1 10 0 1 0 00 1 0 0 00 0 1 0 0
4/84/80
4/84/81T3
4/84/80
3/88/81T4
T2
T1
4/84/81
3/85/80
5/80/80
5/83/81
01
目標属性 A
条件付確率 P(Ti =v | A=w)
wv
P(T1=0, T2=0, T3=0, T4=1 | A=1) = P(T1=0|A=1) P(T2=0|A=1) P(T3=0|A=1) P(T4=1|A=1)= (5/8) (4/8) (4/8) (8/8)
P(T1=0, T2=0, T3=0, T4=1 | A=0)= (1/2) (3/8) (4/8) (4/8) (3/8)
尤度
訓練データ
ナイーブベイズ分類器
クラス分類器 T1=v1 ,…, T4=v4 が推定する目標属性値 w は
事前確率 × 尤度 =
P(A=w) P(T1=v1 | A=w) P(T2=v2 | A=w) P(T3=v3 | A=w) P(T4=v4 | A=w)
を最大にする w の値と定義する(右辺の値は訓練データから収集する)
例P(A=1) P(T1=0|A=1) P(T2=0|A=1) P(T3=0|A=1) P(T4=1|A=1)
= (1/2) (5/8) (4/8) (4/8) (8/8)
> P(A=0) P(T1=0|A=0) P(T2=0|A=0) P(T3=0|A=0) P(T4=1|A=0)= (1/2) (3/8) (4/8) (4/8) (3/8)
T1=0, T2=0, T3=0, T4=1 は A=1 を推定
Support Vector Machine
参考文献• C. Cortes and V. Vapnik, Support-Vector Networks, Machine Learning, 20(3):273-297, September 1995• Vladimir N. Vapnik. The Nature of Statistical Learning Theory. Springer, New York, 1995
参考サイト http://www.kernel-machines.org/参考 java applet http://www.csie.ntu.edu.tw/~cjlin/libsvm/
応用例• マイクロアレーデータから遺伝子や組織を分類
• タンパク質の結合関係の予測• 表現型からの遺伝子機能の予測
細胞壁 FITC-ConA 核 DAPI アクチン Rh-ph
Superimposition
Cell-image Processing
Phenomeからの例
FITC-ConA画像から
C1-2
C8C6
C7
C1-1
C2-1 C5-1
C5-2
C4-1C3-1
C3-2
C4-2
C9C2-2
C10
C11: cell size C12: cell outline lengthC13: fitness for ellipsoid
A1: Number, location,size,brightness
in each actin patch
A7: size ofactinregionA8: total brightness of
actinregionA9: proportion of
actinregion at neck
A3-1
A3-2
A5-2
A5-1
A2-1
A6-2
A6-1
A2-2
A4-2
A4-1
Rh-ph画像から
D1-1 D3-1
D5-1
D4-1
D3-3
D4-3
D13-2
D13-1
D2-2D2-1
D12-2
D12-1
D1-2D1-1
D11-2
D11-1
D2-1
D1-1C10
C1-2
C4-2
D9-1D10-1
D10-2D9-2D2-2
D1-2
C1
C2M1
D1-1
C10 D7D6-1
M
C4-2
D1-2D6-2D8
M1
D1-2
D18-1C1-2
C4-2
D22
D1-1
M1C1
D18-2 D2-2
D19-1C1-2
C4-2
D23
D2-1
M1C1
D19-2
C1-2C1 M1
D4-1D3-1
D20D24
D3-3
C4-2
D4-3C1
D21-1D21-2
D25
C1-2
D14: nuclear sizeD15: sum of nuclear brightnessD16: maximal brightness of nucle
DAPI画像から
his3rad27ctf4 est1核の分裂が完了する前の母細胞に対する芽の大きさ
ycr066w rad18 DNA repairydl013w hex3 DNA recombination
*ydr369c xrs2 Double strand break repair*yer095w rad51 DNA recombinase*ygl163c rad54 DNA repairyhr154w rtt107 DNA transpositionyhr191c ctf8 DNA replication factor C comyjl115w asf1 DNA damage responseyll002w rtt109 DNA transpositionylr233c est1 Telomere length regulation
*yml032c rad52 DNA recombinaseymr078c ctf18 DNA replication factor C com
*ymr224c mre11 Double strand break repair*ynl250w rad50 Double strand break repairypr135w ctf4 DNA polymerase a binding prypr164w mms1 DNA repair
註: *印は、予測に用いたGOの”recombinational_repair”に属する遺伝子変異株
核が分裂中の細胞の比率
高い
大きい
DNA修復や複製に関連する遺伝子
(DNA repair)
D201
C125_A1B
ydr159w sac3 Unknownyor080w dia2 Unknown
Ohya et al. High-dimensional and large-scale phenotyping of yeast mutants. PNAS 102(52):19015-20 (2005)
Fisher の線形判別
が存在することと同値とを満たす
で表現すれば、を定数
いの自由度は不必要に多
が存在しとベクトル
が線形分離可能とは、
訓練データ
b
liby
b
liy
yRyy
ii
ii
in
ill
w
xw
bwb
bxw
bw
xxx
),,1(0)(
),,1(0))((
}1,1{,),(,),,( 11
…
…
…
=>+⋅
⋅−
=>−⋅
+−∈∈w
xib
yi = 1
yi = -1
w
Fisher の線形判別
{ } { }
( )( )
( )( ) ( )( )
( )( )( )( ) ( )( )
を求めるを最大にする
そこでしたいを小さく
ラス内での点の分散を大きく、正と負のク
の二乗上に射影した点の距離を
たデータの平均値正および負に分類され
たクラス分類線形判別関数をつかっ
w
wmxwmxwmm
wmxwmx
wmm
wmm
xx
xm
xx
xm
xwx
x
xx
xx
xx
2
1)(
2
1)(
2
2
1)(
2
1)(
2
1)(1)(
..
,
1)(|1)(|
otherwise101
)(
)(
∑∑
∑∑
∑∑
−= −= +
−+
−= −= +
−+
−+
−=−
=+
⋅−+⋅−
⋅−
⋅−+⋅−
⋅−
−==
==
⎩⎨⎧−
≥+⋅=
dd
dd
dd
dd
bd
d
m+
m-
線形判別とマージン
x
x
x
x
m+
m-
線形判別ではこの差を重視
マージンとはデータの存在しない部分
Support Vector Machineマージン (Margin)
w
wwx
wwx
w
xx
⋅−
⋅=
−==
i
y
i
y iiii
b
}1|{}1|{maxmin
),(ρマージン
SVM はマージンを
最大化するアプローチ
マージン境界上の点(support vector) に依存
yi = 1
yi = -1
最適超平面 (Optimal Hyperplanes)
000 =+⋅ bxw100 =+⋅ bxw
w0 がマージンを最大化する場合
100 −=+⋅ bxw
w0
00
0
0
0
0
0
}1|{0
0
}1|{
00
211
maxmin
),(
www
wwx
wwx
w
xx
=−−
−−
=
⋅−
⋅=
−==
bb
b
i
y
i
y iiii
ρ
境界線上に載る点が存在するようにw0 の大きさを調節
100 ≥+⋅ bxw条件
100 −≤+⋅ bxw条件
を最大化のもと制約 wwxw ⋅=≥+⋅ 2),,1(1)( liby ii …
yi = 1
yi = -1
最適超平面: 2次計画問題へ
[ ]
( )
[ ]
を与えるが鞍点について最大となるについて最小、と
をラグランジュ乗数
数法により解くラグランジュの未定乗
るが最適超平面をあたえを最小化するつまり
を最大化、のもと制約
2次計画問題
0
1
1
0
)point( saddle
)1(1)(21),,(
)0(,,
2),,1(1)(
wΛw
wxwwΛw
Λ
wwwwwxw
b
bybL
liby
l
iiii
ilT
ii
…
…
∑=
−+⋅−⋅=
≥=
⋅
⋅=≥+⋅
α
ααα
最適超平面: 双対問題へ
[ ]
∑∑∑∑
∑
∑∑∑
∑
∑
∑∑
= ===
=
===
=
==
===
⋅−=⋅−=
+⋅−⋅=
+−⋅−⋅=
−+⋅−⋅=
=−=∂
∂
==−=∂
∂
l
i
l
jjijiji
l
ii
l
ii
l
ii
l
ii
l
iii
l
iiii
l
iiii
l
iii
bb
l
iiii
l
iiii
yy
byy
by
bL
ybbL
yybLb
1 1100
1
10000
110
1000
10000
00
1
10
10
21
21
)3(),2(2121
1)(21
),,()1(
)3(0),,(
)2(0),,(,
0
0
xxww
wwww
wxww
wxww
Λw
Λw
xwxww
Λww
ww
αααα
α
ααα
α
α
αα
へ代入
条件について最小となる
[ ]
( )
?
)2(
.,,
21),,(
0,0
01
0
1
1 1100
1
が必要かすべての
を決定からより
2次計画法で計算
をを最大化する
のもと制約
双対問題
i
i
l
iiii
lT
l
i
l
jjijiji
l
ii
i
l
iii
y
yybL
y
x
wxw
Λ
xxΛw
αα
αα
ααα
αα
∑
∑∑∑
∑
=
= ==
=
=
=
⋅−=
≥=
…
最適超平面: w0 の計算
( )[ ]( )
( )
で表現可能最適超平面は
をこの条件を満たす
のとき
ての条件より鞍点におい
だけが線形結合に貢献のときの
が必要ではなくてすべての
の線形結合はより
ctor support ve
ctorsupport ve 1
0,,1
01Tucker -Kuhn
0
)2(
00
00
10
i
ii
i
iii
ii
i
l
iiiii
by
liby
y
xwx
wx
xx
xxw
=+⋅≠
==−+⋅
≠
∑=
α
α
α
α
…
100 −=+⋅ bxw
w0
100 =+⋅ bxw
最適超平面: マージンの計算
( )
( ) ( )
∑∑
∑
∑∑
∑
==
=
==
=
==
=+⋅−=
=⋅=
⋅
⋅−==
⋅⋅
l
iii
l
ii
ii
l
iii
l
iiii
l
iiii
l
iil
y
byby
yy
bL
11
0
001
00
10
10
0
00
001
0000
10
000000
0
11
.21),,(,,
.2
αα
α
αα
ααα
ρ
wx
xwwx
ww
wwΛwΛ
wwwww
を最大化すると仮定が
を計算なのではマージンの定める最適超平面の
…
エラーを許す分類へ: ソフトマージン
は定数)の最小化(
離したい小さくする超平面で分
を差の和マージンを広くし、誤
を用意し制約を緩和
数各データごとに非負実
、線形分離が困難な場合
CC
liby
l
ii
l
ii
iii
i
∑
∑
=
=
+
=−≥+⋅
≥
1
2
1
21
)2(),,1(1)(
)1(0
ξ
ξ
ξ
ξ
w
xw…
ソフトマージン
( )
( ) ( )( )
( )[ ]
00
0
,,)1(
121
,,,,00
,,1,0,,1,1
)1(21
00
0
0
00
000
111
2
1
2
=−−=∂∂
==∂∂
=−=∂∂
−+−+⋅−+
=≥≥
=≥=−≥+⋅
+
===
==
===
=
∑
∑
∑∑∑
∑
iii
l
iii
bb
l
iiii
i
l
iii
l
iiiii
l
ii
i
iii
l
ii
rCLybL
yLb
rbyC
bL,
liliby
C
ii
αξ
α
α
ξ
ξξαξ
ξξ
ξ
ξξ
xww
w
wxw
RΛξwRΛ
wx
w
ww
は以下の条件をみたすを最小化する
をラグランジュ乗数
小化を以下の制約のもと最
……
( )( )
( )
( )[ ]
∑
∑∑∑
=
= ==
=
≠
=+−+⋅
⋅−=
l
iiii
i
ii
iiii
l
i
l
jjijiji
l
ii
i
y
by
bL
yy
bL
bLb
00
0
000
00
0
1 11
00
0
000
ctor support ve .ctor support ve0
01
Tucker-Kuhn
,,,,
21
,,,,
,,,,,,
xw
xwx
wx
ΛRΛξw
xx
RΛξw
RΛξww
α
αξα
ααα
ξ
の線形結合はやはり
と定義をとなる
の定理より
2次計画法で計算
をを最大化する
に代入し変形を
非線形の判別関数による分類
正のデータ
負のデータ
x
y
x
yy=x2y=x
( ) ( )22121 ,,: xxxx →φ
非線形の判別関数: 特徴空間
( ) ( ) ( ) ( )( )
( )
( ) ( )∑=
=
∈=→∈
l
iiiii
NN
n
N
n
y
xxxxxxxx
RR
RR
1
0
212221
2121
21
ctor support ve
,,,,)),((
,,,
xx
w
xxxxx
φαφ
φ
φφφφ
の線形結合の形をした
はを形成する特徴空間で最適超平面
例
みるに写像し線形分離を試間より高い次元の特徴空
離できない場合、の点を効果的に線形分入力空間
…
非線形の判別関数: 計算量の軽減
( ) ( )
( )
( ) ( ) ( )
( ) ( ) ( ) ( ) の条件とは?を計算可能な関数を陽に計算せずに、と
で分類するときを最適超平面テスト
双対問題を解くとき
算量も増大巨大な特徴空間では計
次元の特徴空間にたいして入力パラメータ数が
の場合も大きい次元の特徴空間例 訓練データ数より
に使えば線形分離は容易を特徴空間入力空間に比べ巨大な
φφφφφ
φφαφ
φα
φφααα
yxyx
xxwx
xwx
xxΛw
⋅
−≤≥+⋅=+⋅
=
⋅−=
≅==
≈
<<
∑
∑
∑∑∑
=
=
= ==
?)1(?1
21),,(
102100.2.
)(
01
00
10
1 1100
30100
byb
y
yybL
NnN
Nn
l
iiii
l
iiii
l
i
l
jjijiji
l
ii
n
非線形の判別関数: カーネルトリック
( ) ( )( ) ( ) ( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )( )
( ) ( )⎟⎟
⎠
⎞
⎜⎜
⎝
⎛ −−=⋅
=
≥==+⋅
+⋅=⋅∈
+++++=++=+⋅=⋅
==
==∈
++
+
=
+
+
+
+
+ ∑∑
2
2
21!!!!!
1
1,,,2211!!!!
!
22112
2222112
112
22112
212221
2121
2221
21
21212
exp
.1
.0,11
...1,
1222)1(1
)1,2,2,,2,()1,2,2,,2,(
),(),,(,
121
121
121
121
121
σφφ
φ
φ
φφ
φφ
φφ
yxyx
x
x
yx
yxyxyx
yxyx
yx
yxyx
カーネル他の例:
の次元は
ルであればよいを各要素とするベクトは
ただし
の形にするにはのとき一般に
ならば
と表現のとき
多項式カーネル
Gauss
CC
xxx
cdcyxyxyx
R
yxyxyxyxyxyxyxyx
yyyyyyxxxxxx
yyxxR
ddnndn
ccn
cccccc
d
i
n
ii
ccc
ccnn
cccccc
dd
dn
nn
nn
n
nn
nn…
d=4, n=3
c1=0, c2=1, c3=2, c4=1