59
3. 線線線線線線線線線 線線線線線線線線 線線線線線線線 L2 線線線 L1 線線線 線線線線線 Bayes 線線線 線線線線 線線線線線線線線線線線線 2 線線線線線線線線線線線線線線線 線線線線線線線線線線線線線 by 線線線線 線線線線線 ()

3. 線形 回帰および識別

Embed Size (px)

DESCRIPTION

クラシックな機械学習の入門. 3. 線形 回帰および識別. 線形回帰のモデル 正則化項の導入 L2 正則化 L1 正則化 正則化項の Bayes 的解釈 線形識別 生成 モデルを利用した 識別 2 乗誤差最小化の線形識別の 問題点. b y 中川裕志(東京大学). 線形モデル. y=w 1 x+w 0. y. データ の分布状況から線形回帰式を求める. w 0. x. 線形モデル. 入力ベクトル: x から出力: y  を得る関数が x の線形関数( w と x の内積). 一般に観測データはノイズを含んでいる。つまり - PowerPoint PPT Presentation

Citation preview

Page 1: 3.  線形 回帰および識別

3. 線形回帰および識別

線形回帰のモデル正則化項の導入

L2 正則化L1 正則化

正則化項の Bayes 的解釈線形識別

生成モデルを利用した識別2 乗誤差最小化の線形識別の問題点

クラシックな機械学習の入門

by 中川裕志(東京大学)

Page 2: 3.  線形 回帰および識別

線形モデル

データ の分布状況から線形回帰式を求める

w0

x

y y=w1x+w0

Page 3: 3.  線形 回帰および識別

線形モデル

T101

0

],,,,[,],,,1[, KT

Ki

K

ii wwwxxxwy

wxwx ただし、

入力ベクトル: x から出力: y  を得る関数が xの線形関数( w と x の内積)

一般に観測データはノイズを含んでいる。つまり

得られた N 個の観測データ の組( y,X)に対して最適な wを推定する。

そこで、 yと       の 2 乗誤差を最小化するように wを選ぶ。

と考える。はノイズで ),0(, 2 Ny wx

wX

Page 4: 3.  線形 回帰および識別

2 乗誤差の最小化

yXXXw

yXXwXw

XwyXwy

XwyXwyww

x

x

Xy

TT

w

N

1

TT

T

T

KNKN

K

T

T

N w

w

w

w

xx

xx

y

y

1

1

0

1

1111

)(

0)()(

)()(minargˆ

1

1

を解くと

の推定値

正規方程式 と呼ばれる基本式

Page 5: 3.  線形 回帰および識別

補遺:正規方程式の導出

)(2)()(

..)(

..)(..)(..)(

..)(

..)(..)(..)()()(

)()(rulechain

0222)1(

2

)1(0)()(

)()()(

1

XwyXXwyXXwyX

y

yy

w

y

y

yy

w

y

w

XwyXwy

x

x

x

x

x

x

yXXXw

XwXyXXwXyXXwyX

XwXXXwXwXw

wXXw

w

XwXw

w

XwXw

yXXyw

Xwya

x

xayX

w

yXwa

x

ax

w

XwXw

w

Xwy

w

yXw

w

XwyXwy

XwXwXwyyXwyyXwyXwyXwyXwy

TTT

T

TTTT

TT

TTTTT

TTTTTTTTTTT

TTTTT

TTTT

TTTTTT

TTTTTTTTTT

g

gfggfcf

   

   

  を使えば  の  行列で微分する場合

よりより

Page 6: 3.  線形 回帰および識別

正規方程式を解く簡単な例

N

ii

N

ii

N

ii

N

ii

N

ii

N

ii

N

iii

N

ii

N

ii

N

ii

N

ii

N

iii

N

ii

N

ii

N

ii

N

ii

N

ii

N

ii

N

ii

N

iii

N

ii

N

ii

N

ii

N

ii

N

ii

T

TTN

iii

N

ii

N

ii

N

ii

N

ii

NN

NN

T

NN

xwN

yN

w

xxN

yxyxN

N

x

N

y

xxN

yxxyxw

xxN

yxyxNw

Nx

xx

xxN

yx

y

w

w

xx

xN

y

y

xxw

w

x

x

xx

w

w

y

y

x

x

11

102

11

2

111112

11

2

1111

2

0

2

11

2

1111

1

11

2

2

11

2

1

1

1

1

0

1

2

1

1

1

11

01

1

1

011

11

1

11

1

111

1

1

XX

yXwXX

yXXwXwyX T

       

  

は   正規方程式

Page 7: 3.  線形 回帰および識別

用語:誤差、損失、目的関数線形モデルで最小化したかったのは2乗誤差真のモデルにおける値 ( 2乗誤差における y) と 予測値 ( 2乗誤差における Xw) の差異を表す関

数を損失関数(単に損失)あるいは Loss と呼び、 L で表すことが多い。

上記のような最適化問題において最小化(一般的には最適化)したい関数を目的関数と呼ぶ。

線形モデルの2乗誤差最小化では 2乗誤差=損失=目的関数

Page 8: 3.  線形 回帰および識別

線形モデルの一般化 T

Ky )](,,)(,1[, 1 xxxw(x)

基底関数 重みN 個の観測データ( y,x )に対して

( y 、 φ ( x ))が得られたとすると、 2 乗誤差を最小化するwは前を同じく以下の通りだが、少し別の見方で解く。

yxφxφxφ TTw )())()((ˆ 1

基底関数の例

T

T

x

x

N

1

N

1

y

y

y

urier Fast Fo:even):(m 2exp

sigmoidal : /exp1

1

Gaussian : 2

exp

lpolynomina :

2

2

m

xjix

sxx

s

xx

xx

j

jj

jj

jj

Page 9: 3.  線形 回帰および識別

{x( ベクトル ),y} が観測データ (training data) w,β を決定する、即ち (p(y|x,w,β) を最大化) N 組の i.i.d. 観測データすなわち教師データがあると

する。

正規方程式を求める別の方法

K

T

T

TN

w

w

w

wyy

1

0

1 ),,(

N

1

x

x

Xy

すると次のページのように p(y|x,w,β )が書ける。

),),(|(),|(

.),0(),(1

21

wxwx,

wx

φyNyp

Nφy を精度と呼ぶ

Page 10: 3.  線形 回帰および識別

両辺の log をとる

),),|(),( 1

1

N

ii φyNp w(xwX,|y i

N

iiyL

LNN

wp

1

2

0

,2

1)(

)(2log2

log2

),,(log

w)(xw

wX,w|y

i

log p(y|w,X,β) を w,β について最大化したい。まず、 wについて最大化する。

Page 11: 3.  線形 回帰および識別

yφ(X)φ(X)φ(X)w

wφ(X)φ(X)yφ(X)

w)(x)(x)(x

w)(x)(xw

Xw,|y

iii

ii

TT

TT

N

i

TN

ii

N

ii

y

yp

1

11

1

)(ˆ

)(

0

0,),(log

T

N

T

φ

φ

x

x

xφ 1

Page 12: 3.  線形 回帰および識別

バイアス w0 の部分だけに注目してみると• 対数近似関数から最適な w0 を によって求め

ると

K

j

N

ijj

N

ii

N

iK

Ki

N

i

K

Ki

N

iK

Ki

N

i

K

Ki

wN

yN

w

w

w

w

y

w

w

w

y

w

w

w

w

y

w

w

w

w

y

w

L

1 110

10

1

11

1

0

1

0

1

2

0

1

1

0

1

2

1

0

1

0

)11

0))),..(2))),..,1(2

))),..())),..,1(

i

iiii

iiii

(x

(x(x(x(x

(x(x(x(x

w

yの平均 基底関数の学習データの平均のw重み付き和

Page 13: 3.  線形 回帰および識別

精度 β を求める。

log p(y|w,X,β) を β に対して最大化

ただし、 w は最適化されたものを用いる

N

ii

N

ii

yN

yL

LNp

1

21

1

2

ˆ1ˆ

ˆ2

1)(

)ˆ(2

),ˆ(log

w)φ(x

w)φ(xw

wX,w|y

i

i

yの予測値と観測された値の差の2乗の平均

Page 14: 3.  線形 回帰および識別

φ 1 (x)

φ2 (x)

新規データ:y

S:が張る空間wx

y から S に最も近い点(垂直に落としている)

幾何学的イメージ

Page 15: 3.  線形 回帰および識別

計算の効率化大きな data sets に対して  の右辺第 1 項の逆行列計算量が問題特にデータの次元 N に対して O(N3) なので

高次元だと大変定石は、コレスキー分解 O(N2) して上 / 下

半 3 角行列で表現される連立方程式を 2 回解く

L(w)を最小化するような wの数値計算

yφφφw TT 1)(ˆ

Tnnny

L

)())((

)()()(

)()1(

xwxw

www

目的関数(すなわち損失 L(w)) の減る方向へ進む( ー gradient を w に加える)方法を gradient descent は呼ばれ、最適化における基本的数値計算法である。

Page 16: 3.  線形 回帰および識別

正則化項の導入

モデルを複雑にするほど学習データにはよく合致するが、学習データ以外のデータには弱いという過学習を起こす。

過学習を抑えるために、損失関数に正則化項を導入。

正則化項にはモデルをできるだけ簡単化する方向に作用する。データが高次元の場合には次元削減効果あり。

Page 17: 3.  線形 回帰および識別

一般的な正則化項

正則化項 q=2 のときが L2 正則化 q=1 のときは LASSO:  1ノルムによる正則

化なので   L1 正則化と呼ぶ Least Absolute Shrinkage and Selection

Operator

λ が十分大きいと、 wj のいくつかは 0 になりやすい  →  スパースなモデル

q=0 のときは L0 正則化。解きにくい問題(上記2つと違い凸ではない)

K

j

qj

N

iii wφyL

1

2

1

||2

),2

1)(

w(xw

Page 18: 3.  線形 回帰および識別

• 制約

のもとで、 L(w) を最小化する、と考える。

qK

jjw

1

q=0.5 q=1 q=2 q=4

Page 19: 3.  線形 回帰および識別

正則化項

(w の影響を小さくする効果 )

W の2ノルムによる正則化であるので、 L2 正則化と呼ぶ

yφ(Xφ(Xφ(XIww

www(xw

w

TT

TN

iii

L

φyL

))))()(minargˆ

2),

2

1)(

1

2

1

最小化すると

最適な wは L(w) を微分して0とすれば上記のように解析的に閉じた式で求まる。

これは φ(X) と λ の案配よって決まり、どの成分も強制的にゼロにしようという力は働かない

L2 正則化

Page 20: 3.  線形 回帰および識別

K

jj

N

iii wφyL

1

22

1 2),

2

1)(

w(xw

W1

W2

最短の 2 乗距離で結ぶ

L2正則化のイメージ

Page 21: 3.  線形 回帰および識別

L1 正則化

L 2正則化では w の最適値  を損失 Lの微分で閉じた式で求められたが、 L1 正則化では |w| がw=0で微分できないので、ややこしくなる。

L1 正則化を行う逐次的な方法と  L1 正則化がwの要素の多くをゼロ化す

る傾向を以下で説明する

w

Page 22: 3.  線形 回帰および識別

1

K

jj

N

iii wφyL

1

2

1 2),

2

1)(

w(xw

W1

W2

Loss+L1 の最小距離で結ぶCase 3 では、W2=0 となる

2

3                                                                                                        

L oss L1

L1正則化イメージ:  (1) 軸での Loss の微分 =0 として  を求める

2w 2~w

Page 23: 3.  線形 回帰および識別

1

K

jj

N

iii wφyL

1

2

1 2),

2

1)(

w(xw

W1

W2

Loss+L1 の最小距離で結ぶCase 3 では、W2=0 となる

2

3                                                                                                        

L oss L1

L1正則化イメージ : (2) 軸での Loss の微分 =0 として  を求める

2w 2~w

Page 24: 3.  線形 回帰および識別

1

K

jj

N

iii wφyL

1

2

1 2),

2

1)(

w(xw

W1

W2

Loss+L1 の最小距離で結ぶCase 3 では、W2=0 となる

2

3                                                                                                        

L oss L1

(1)(2)(3)で2本の赤い矢印線の長さの和が変わらない点

に注目以下で L1 正則化に関してもう少し細かく議

論する。

L1正則化イメージ: (3) 軸での Loss の微分 =0 として  を求める

2w 2~w

Page 25: 3.  線形 回帰および識別

ある次元 d に着目して L(w) を最小化するような wd を求める。

これを各次元について繰り返し、 L(w) の最小化を図る。 wd について L(w) を書き直すと

      とおき wd の最適値を求めたいが絶対値を含む第2項 L1(w) が微分できないので、ひとまず Loss(w) を微分して0とおくと

)101(||2

),2

1)(

1

2

1

LwφyLK

jj

N

iii

w(xw

                                 )201(1

22

1

1

2

LLLoss

wwwwyLdj

jd

N

i djjijdidi

ww

xxw

0

dw

L w

Page 26: 3.  線形 回帰および識別

N

iid

N

i djjijiid

d

d

N

i djjijdidiid

N

i djjijdidi

dd

wy

w

wwwy

wwyww

Loss

1

2

1

1

1

2

~

~0

2

1

x

xx

xxx

xxw

とするの解を   

これを用いて L(w) を書き換える。ただし、 wd に関係しないところは当面定数と見なせるので、無視した。

Constwwww

Constwwywww

ConstwwywwwL

d

N

iiddd

N

iidd

d

N

i

N

iid

djjijidid

N

iidd

N

iidd

d

N

i djjijididdidd

1

2

1

22

1 1

2

1

2

1

22

1

22

~2

2

2)~(2

xx

xxxxx

xxx

   

   

Page 27: 3.  線形 回帰および識別

が働くスパース化)される力 になりゼロ化

がゼロに近づくとの解のすなわちにより

           矛盾すなわちだと             

    矛盾すなわちだと             

    なぜなら     なら   なので   なら

   なので   なら

を探すなる

とおくと、ここで

(0

~~3 case

~0~0

~0~0

0~3 case

~00~2 case

~00~1 case

0)(

0undefined

0~0~

)(

~2

1)(

2

2

1

2

d

ddd

ddd

ddd

dd

dddd

dddd

dd

d

d

ddd

ddd

d

d

dddddN

i id

w

wwLossw

www

www

ww

wwww

wwww

ww

wL

w

www

www

w

wL

constwwwwwL

w

x

Page 28: 3.  線形 回帰および識別

W全体の正則化

[step 1] w の各要素を適当な値に初期化[step 2] w の各要素の値 w_k(k=1,..,K) が収束するまで以下 step 3,4,5 を繰り返す[step 3] k=1,.., K で step 4, step 5 を繰り返す   [step 4] wj (j ≠ k) を用いて case1,2,3 にし たがって wj を計算してゼロ化     [step 5] wk を更新 [step 6] 収束したら wの最終結果とする

Page 29: 3.  線形 回帰および識別

wd のゼロ化のイメージ

dw~

dw

Page 30: 3.  線形 回帰および識別

L1 正則化が支配的になり  をゼロ化する様子を下図で例示する

dw

λ 大

λ 小

wd

L(wd)

dw 2 乗誤差 Lossが支配的

正規化項 L1が支配的

Page 31: 3.  線形 回帰および識別

正則化項の Bayes 的解釈Bayes では事後確率は   観測データの確率 ×事前確率事後確率を最大化するパラメタ η を求めたい

ここで対数尤度にしてみると、次のように解釈できる

|log|logmaxargˆ

||maxargˆ

PXP

PXP

パラメタは事前分布のハイパー

損失関数 正則化項

Page 32: 3.  線形 回帰および識別

例:事前分布、事後分布とも正規分布

ノルムによる正則化項      

とすると    事前分布の重みをここで、

     

   

も同様にすると事前分布

L22

),(2

1maxarg

,0

2

1),(

2

1minarg

),|(log),|(logminarg

2/),|(log

,|

2/),()1,),(|(log)1,|(log

)1,0()(

),,(

2

2

2

1

0

1

wwwx

wwwx

ww,x

www

w

wxwxw,x

wx

w

x

x

Xy

w

w

w

N

1

T

iii

T

iii

iii

T

iii

iii

iii

K

T

T

TN

φy

φy

pyp

p

p

φyφyNyp

Nφy

w

w

w

yy

事前分布の wの分散 :λ ー 1  と

も見える。

Page 33: 3.  線形 回帰および識別

例:事前分布が Laplace 分布、事後分布が正規分布

ノルムによる正則化項        

   

も同様にすると分布の事前分布は期待値

L12

),(2

1minarg

)|(log),|(logminarg

2)|(log

2exp

4|0

2/),()1,),(|(log)1,|(log

)1,0()(

2

2

wwx

ww,x

ww

ww

wxwxw,x

wx

w

w

iii

iii

iii

iii

iii

φy

pyp

p

pLaplace

φyφyNyp

Nφy

Page 34: 3.  線形 回帰および識別

以上、述べてきた線形回帰のよるモデル化は、生成モデル

当然、線形の識別モデルもある。次以降は線形識別モデルの話

Page 35: 3.  線形 回帰および識別

線形識別

  と  の領域の境界面を線形関数として求める

Page 36: 3.  線形 回帰および識別

線形識別 データ : xがいくつかのクラス(あるいはカテゴリー): C

kのどれかに属する。 例:新聞記事が「政治」「経済」「スポーツ」「芸能」「社会」などのクラスのどれかに属する場合。この場合、データ:xは例えば、記事に現れる単語の集合、など。

データ: xが K 個のクラスの各々に属するかどうかの判定は(-1=属さない,1=属する)の2値を要素とする K 次元ベクトル: yi =( -1,1,-1,..,1) で表される。 ただし、1つのクラスに属するか属さないかだけを識別すの

場合は 2 クラス分類という。当然、 yi =ー 1   or yi = 1 この属するか否かの判断をする式が線形の場合を線

形識別という。

TMxxx ],,,[ 21 x

Page 37: 3.  線形 回帰および識別

線形識別の関数

一般化線形識別の関数は以下

2クラス分類クラス C 1に属するか C2 (= notC1 )に属する

かは、次の通り if y(x)≥0 then データ:xは C 1に属する        otherwise データ:xは C2 に属す

る                   ( すなわ

ち C1 に属さない)

wxxw

wx

x

wxx

~,~)(~,1~

,)(

0

0

yw

wy

とおくならあるいは

は非線形でもよいfwfy ),()( 0 wxx

Page 38: 3.  線形 回帰および識別

2 値分類の直観的説明

y={-1,1} 、 x は 2 次元とする。(下図を参照) {y,x} を教師データとして、 2 乗誤差の最小化

を行って正規方程式を求めると、下図の  のようなクラスを分類する分離平面が得られる。

y=-1

y=1

x1

x2

境界面

Page 39: 3.  線形 回帰および識別

線形識別関数の幾何学的解釈

x

xa

xb

w

xc

||||

)(

w

xy

||||0

wx

wd

直交。すなわち識別境界線とは )(

),()()(0

0,)(,0,)( 00

ba

baba

bbaa

yy

wywy

xxw

wxxxx

wxxwxx

識別境界線

||||||0||||||||,

|||||||,

,)(0

000

0

wxwxwx

wxwxwx

wxx

x

www

wy

ddd

ddd

dd

d

整理するとこれを上式に代入して

から、に並行で横ベクトルだは

とおく。の垂線の交点を原点から識別境界線へ

xd

Page 40: 3.  線形 回帰および識別

線形識別関数の幾何学的解釈

x

w

xc

||||

)(

w

xyr

||||0

w

w

識別境界線

||||

)(0)(

||||

||||)(

||||

,,,)(

||||2

00

0

w

xx

w

wx

w

wwwxwxx

ww

wxx

yry

ryrwwy

wr

c

cc

c

だから

を足すとの内積をとり、両辺と

xaxb

xd

Page 41: 3.  線形 回帰および識別

w の計算方法 :2 クラス分類の場合

.すると新規のデータ: xは が正ならク

ラス C1 に ,負なら C 2属する

.

で書けるとするの境界がクラス wxx ~,~)(, 21 yCC

)~(xy

wx

wx

WXY

x

x

X

x

~,~

~,~~~

~

~~

10,1

),1(,~

111

NNT

N

T

nn

nn

y

y

yy

NnyN

なら   ただしクラス1ならがあったとき個の教師データ

Page 42: 3.  線形 回帰および識別

すると、観測データ(教師データ)において個々のクラスに分類されたか否かの観点からの2乗誤差は次式となる

もう少し詳しく書くと

YWXYWXW ~~~~)

~(

TE

   

22

11

11

11

~,~~,~

~,~

~,~

~,~~,~

~~~~

NN

NN

NN

T

yy

y

y

yy

wxwx

wx

wx

wxwx

YWXYWX

Page 43: 3.  線形 回帰および識別

これを最小化する   は   で微分して0とおけば、線形回帰のときと同様の計算により求まる。

微分は次式:

YWXYWXW ~~~~)

~(

TE

W~

W~

YXXXW

YWXXW

W

TT

TE

~)

~~(

~

0~~~

~

~

1

YWXXYWXAAW

A

W

AA

~~~

2~~

2 TTT

Page 44: 3.  線形 回帰および識別

新規のデータ xnew に対する予測を行う y(xnew)も求まる。

YXXXxWx

x

x

xy

YXXXW

TTnewnew

newK

new

new

TT

y

y~

)~~

(~~~

)~(

)~(

)~(

~)

~~(

~

11

1

y(xnew)が大きいほどクラス  C1 に属する可能性が高い。

 

Page 45: 3.  線形 回帰および識別

w の計算方法 :多クラス分類の場合 .

すると新規のデータ: xは が最大の kのクラス Ck に属する

.

で書けるとする。が線形識別モデルクラス kkk yC wxx ~~)(

)~(xky

Wxwxwx

xxyx~~~,~~,~

)]()([)(

1

1

K

TKk yyKy

                        

個並べたベクトルを

KNN

K

NT

N

T

n

n

nn

K

K

NnN

wxwx

wxwx

WX

y

y

Y

x

x

X

y

x

yx

~,~~,~

~,~~,~~~

~

~~

)1,...,1,1,1(

~),..,1(,~

1

11111

のような形。次元ベクトルはらに属することもあるな個のクラス内の複数個は

があったとき個の教師データ

Page 46: 3.  線形 回帰および識別

すると、観測データ(教師データ)において個々のクラスに分類されたか否かの観点からの2乗誤差は次式となる

もう少し詳しく書くと

YWXYWXW ~~~~)

~(

TTrE

22

11

2

11

2

1111

11

111111

11

111111

~,~~,~

~,~~,~

~~~~

~,~~,~

~,~~,~

~,~~,~

~,~~~

~~~~

NKKNKK

NN

T

NKKNNN

KK

NKKNKK

NN

T

yy

yy

Tr

yy

yy

yy

yy

wxwx

wxwx

YWXYWX

wxwx

wxwx

wxwx

wxwx

YWXYWX

   

Page 47: 3.  線形 回帰および識別

これを最小化する   は   で微分して0とおけば、線形回帰のときと同様の計算により求まる。

Tr の微分は次式:

YWXYWXW ~~~~)

~(

TTrE

W~

W~

YXXXW

YWXXW

W

TT

TE

~)

~~(

~

0~~~

~

~

1

YWXXYWXAAW

A

W

AA

~~~2

~~2

)( TTTTr

Page 48: 3.  線形 回帰および識別

新規のデータ xnew に対する予測を行う y(xnew)も求まる。

YXXXxWx

x

x

xy

YXXXW

TTnewnew

newK

new

new

TT

y

y~

)~~

(~~~

)~(

)~(

)~(

~)

~~(

~

11

1

yi(xnew)が大きいほどそのクラス i に属する可能性が高い。

 もちろん、 yi(xnew)が最大となる i のクラスに属すると考えるのが自然。だが。。。

Page 49: 3.  線形 回帰および識別

生成モデルを利用した識別識別はベイズ統計的には次式

N 個のデータ: xk ( k=1,..,N) があるクラスに属するかどうかの判定は( 0 =属さない,1=属する)の2値を要素とする N 個の K 次元ベクトル: y =( 0,1,0,..,1) で表される。以下のベイズ統計による分類では、属さない場合を -

1 ではなく0とすることに注意。以下ではベイズ統計による 2 クラス分類をする

場合に事後確率について考える。

)(

)()|()|(

x

xx

p

CpCpCp kk

k

Page 50: 3.  線形 回帰および識別

Logistic sigmoid function

クラス C1 の事後分布は次式 (s-1)

)1()exp(1

)exp(

)exp(1

1

)exp(1

)exp(

d

d1

log)(1)(

)()|(

)()|(log

function sigmoid logistc1)-(s-)()exp(1

1

)()|()()|(

)()|()|(

2

22

11

2211

111

a

a

aa

a

a

aaa

CpCp

CpCpawhere

aa

CpCpCpCp

CpCpCp

x

x

xx

xx

Page 51: 3.  線形 回帰および識別

クラス C1,C2 が共分散∑が等しい 2 つの正規分布の場合の事後確率 p(C1|x)

式 (s-1) によって以下のように導ける。

)(

)(log

2

1

2

1)(

)(

)(log

2

1

2

1

)(

)(log

2

1

2

1

||2log

||2log

)()|(

)()|(log

2

1exp

||

1

2

1)|(

2

12

121

1121

1

2

12

12

122

11

11

111

1

2

12

121

11

21

2

21

2

22

11

1

21

2

Cp

Cp

Cp

Cp

Cp

Cp

CpCp

CpCp

Cp

TTT

TTTTTT

TT

K

K

iT

iKi

x

xxxx

xxxx

x

x

xxx

∑ が 2 つのクラスで等しいことにとってキャンセルしていることに注意。等しくないともう少し複雑。

Page 52: 3.  線形 回帰および識別

クラス C1,C2 が共分散∑が等しい 2 つの正規分布の場合の事後確率 p(C1|x)

)(

)(log

2

1

2

1

)(

exp1

1)|(

)(

)(log

2

1

2

1)(

)()|(

)()|(log

2

1exp

||

1

2

1)|(

2

12

121

110

211

001

2

12

121

1121

1

22

11

1

21

2

Cp

Cpw

where

wwCp

Cp

Cp

CpCp

CpCp

Cp

TT

TT

TTT

iT

iKi

w

xwxwx

xx

x

xxx

事後確率:

∑ が 2 つのクラスで等しいことにとってキャンセルしていることに注意。等しくないともう少し複雑。

Page 53: 3.  線形 回帰および識別

次に  Maximum likelihood solution  (つまりw,w0) を求める。これによって、各クラスの事後

確率が求まる ここで各クラスの事前確率が以下だったとする

)10(,....,

1,|)1(,|),,,|(

,|)1()|()(),(

0

,|)|()(),(

1

1)()(

1

21

121

2222

2

1111

1

21

sttwhere

ntNnt

Np

Nlikelihood

NCpCpCp

tC

NCpCpCp

tC

CpCp

TN

n

N

nn

nnn

nn

nnn

nn

t

xxt

xxx

x

xxx

x

う個あることを思い出そ観測データはは次式ここで

としに属するときが観測データ

としに属するときがこのとき観測データ

Page 54: 3.  線形 回帰および識別

(s-10) の log すなわち log likelihood function を最大化することが目標

まず、最大化する π を求める。(s-10) の log の π に関する部分は次式 (s-20)   logp (π)

に属するデータ数。はクラス

に属するデータ数。はクラス

22

11

21

11

1

1

10

)(log

)1log()1(log)(log

CN

CNwhere

NN

N

N

Nt

N

p

ttp

N

nn

N

nnn

Page 55: 3.  線形 回帰および識別

次に (s-10) の  log を最大化する  μ1  を求める。

(s-10) の log の μ 2 に関する部分は次式 (s-30)   logp (μ1 )

N

nnn

nT

n

N

nnn

N

nn

tN

p

tNtp

111

1

1

11

11

11

1

10

)(log

const2

1),|(log)(log

x

xxx

同様にして μ 1も求めると

N

nnn

nT

n

N

nnn

N

nn

tN

p

tNtp

122

2

2

21

21

21

2

)1(1

0)(log

const

)1(2

1),|(log)1()(log

x

xxx

Page 56: 3.  線形 回帰および識別

最後に (s-10) の  log を最大化する精度行列 Λ =∑-1 ( C1 と C2共分散) を求める。

(s-10) の log の∑ に関する部分は次式 (s-40)   logp (∑ )

logp (Λ ) を Λ で微分して0とおき、 (s-10) の  log を最大化する Λ =∑-1 を求める。

まず第 1 項の微分は線形代数学の公式より

)40()(2

||log2

)())(1(2

1||log)1(

2

1

)()(2

1||log

2

1)(log

2211

1111

sSTrNN

tt

ttp

nT

n

N

nn

N

nn

nT

n

N

nn

N

nn

xx

xx

が対称が対称 1

11 )50(22

||log2

sNNN

T

Page 57: 3.  線形 回帰および識別

T

Cnnn

T

Cnnn NN

S

Ss

21

))((1

))((1

)40(

2211 xxxx

は次式の

次は Tr(ΛS) を Λ で微分して0とおき、 logp(Λ) を最大化する Λ を求める。

T

Cnnn

T

Cnnn

T

NNS

SNNp

sSSSTr

21

))((1

))((1

022

)(log

)60()(

22111

1

xxxx

Page 58: 3.  線形 回帰および識別

このようにして、教師データ集合{(xn,tn)n=1,..N} から μ1, μ2,Σ-1( = Λ ) ,π が求まったので、これらを用いて定義されるw,w0 も求まる。

未知データ xがクラス C1 に属する確率は

なので、この分布を教師データから学習できた。

1log

2

1

2

1

)(

exp1

1)|(

21

211

10

211

001

TT

TT

w

where

wwCp

w

xwxwx

Page 59: 3.  線形 回帰および識別

2 乗誤差最小化の線形識別の問題点

この領域の判断が困難

この領域に青の境界線が引っ張られることあり。

そもそも、 Y の値は正規分布を想定した理論なのに、{ 0 、 1}の 2 値しかとらないとして 2 乗誤差最小化を当てはめたところに無理がある。