3. 線形回帰および識別

3. 線形回帰および識別

線形回帰のモデル正則化項の導入

L2 正則化L1 正則化

正則化項の Bayes 的解釈線形識別

生成モデルを利用した識別2 乗誤差最小化の線形識別の問題点

クラシックな機械学習の入門

by 中川裕志（東京大学）

線形モデル

データ　の分布状況から線形回帰式を求める

w0

x

y y=w1x+w0

線形モデル

T101

0

],,,,[,],,,1[, KT

Ki

K

ii wwwxxxwy

wxwx ただし、

入力ベクトル： x　から出力： y 　を得る関数が xの線形関数（ w と x の内積）

一般に観測データはノイズを含んでいる。つまり

得られた N 個の観測データの組（ y,X）に対して最適な wを推定する。

そこで、 yと　　　　　　　の 2 乗誤差を最小化するように wを選ぶ。

と考える。はノイズで ),0(, 2 Ny wx

wX

2 乗誤差の最小化

yXXXw

yXXwXw

XwyXwy

XwyXwyww

x

x

Xy

TT

w

N

1

TT

T

T

KNKN

K

T

T

N w

w

w

w

xx

xx

y

y

1

1

0

1

1111

)(

0)()(

)()(minargˆ

1

1

を解くと

の推定値

正規方程式　と呼ばれる基本式

補遺：正規方程式の導出

)(2)()(

..)(

..)(..)(..)(

..)(

..)(..)(..)()()(

)()(rulechain

0222)1(

2

)1(0)()(

)()()(

1

XwyXXwyXXwyX

y

yy

w

y

y

yy

w

y

w

XwyXwy

x

x

x

x

x

x

yXXXw

XwXyXXwXyXXwyX

XwXXXwXwXw

wXXw

w

XwXw

w

XwXw

yXXyw

Xwya

x

xayX

w

yXwa

x

ax

w

XwXw

w

Xwy

w

yXw

w

XwyXwy

XwXwXwyyXwyyXwyXwyXwyXwy

TTT

T

TTTT

TT

TTTTT

TTTTTTTTTTT

TTTTT

TTTT

TTTTTT

TTTTTTTTTT

g

gfggfcf

　　

　　

　を使えば　　の　行列で微分する場合

よりより

正規方程式を解く簡単な例

N

ii

N

ii

N

ii

N

ii

N

ii

N

ii

N

iii

N

ii

N

ii

N

ii

N

ii

N

iii

N

ii

N

ii

N

ii

N

ii

N

ii

N

ii

N

ii

N

iii

N

ii

N

ii

N

ii

N

ii

N

ii

T

TTN

iii

N

ii

N

ii

N

ii

N

ii

NN

NN

T

NN

xwN

yN

w

xxN

yxyxN

N

x

N

y

xxN

yxxyxw

xxN

yxyxNw

Nx

xx

xxN

yx

y

w

w

xx

xN

y

y

xxw

w

x

x

xx

w

w

y

y

x

x

11

102

11

2

111112

11

2

1111

2

0

2

11

2

1111

1

11

2

2

11

2

1

1

1

1

0

1

2

1

1

1

11

01

1

1

011

11

1

11

1

111

1

1

XX

yXwXX

yXXwXwyX T

　　　　

　　

は　　正規方程式

用語：誤差、損失、目的関数線形モデルで最小化したかったのは２乗誤差真のモデルにおける値 ( ２乗誤差における y) と　予測値 ( ２乗誤差における Xw) の差異を表す関

数を損失関数（単に損失）あるいは Loss と呼び、 L で表すことが多い。

上記のような最適化問題において最小化（一般的には最適化）したい関数を目的関数と呼ぶ。

線形モデルの２乗誤差最小化では　２乗誤差＝損失＝目的関数

線形モデルの一般化 T

Ky )](,,)(,1[, 1 xxxw(x)

基底関数重みN 個の観測データ（ y,x ）に対して

（ y 、 φ （ x ））が得られたとすると、 2 乗誤差を最小化するｗは前を同じく以下の通りだが、少し別の見方で解く。

yxφxφxφ TTw )())()((ˆ 1

基底関数の例

T

T

x

x

xφ

N

1

N

1

y

y

y

urier Fast Fo:even):(m 2exp

sigmoidal : /exp1

1

Gaussian : 2

exp

lpolynomina :

2

2

m

xjix

sxx

s

xx

xx

j

jj

jj

jj

{x( ベクトル ),y} が観測データ (training data) w,β を決定する、即ち (p(y|x,w,β) を最大化） N 組の i.i.d. 観測データすなわち教師データがあると

する。

正規方程式を求める別の方法

K

T

T

TN

w

w

w

wyy

1

0

1 ),,(

N

1

x

x

Xy

すると次のページのように p(y|x,w,β ）が書ける。

),),(|(),|(

.),0(),(1

21

wxwx,

wx

φyNyp

Nφy を精度と呼ぶ

両辺の log をとる

),),|(),( 1

1

N

ii φyNp w(xwX,|y i

N

iiyL

LNN

wp

1

2

0

,2

1)(

)(2log2

log2

),,(log

w)(xw

wX,w|y

i

log p(y|w,X,β) を w,β について最大化したい。まず、 wについて最大化する。

yφ(X)φ(X)φ(X)w

wφ(X)φ(X)yφ(X)

w)(x)(x)(x

w)(x)(xw

Xw,|y

iii

ii

TT

TT

N

i

TN

ii

N

ii

y

yp

1

11

1

)(ˆ

)(

0

0,),(log

T

N

T

φ

φ

x

x

xφ 1

バイアス w0 の部分だけに注目してみると• 対数近似関数から最適な w0 を　によって求め

ると

K

j

N

ijj

N

ii

N

iK

Ki

N

i

K

Ki

N

iK

Ki

N

i

K

Ki

wN

yN

w

w

w

w

y

w

w

w

y

w

w

w

w

y

w

w

w

w

y

w

L

1 110

10

1

11

1

0

1

0

1

2

0

1

1

0

1

2

1

0

1

0

)11

0))),..(2))),..,1(2

))),..())),..,1(

i

iiii

iiii

(x

(x(x(x(x

(x(x(x(x

w

ｙの平均基底関数の学習データの平均のｗ重み付き和

精度 β を求める。

log p(y|w,X,β) を β に対して最大化

ただし、 w は最適化されたものを用いる

N

ii

N

ii

yN

yL

LNp

1

21

1

2

ˆ1ˆ

ˆ2

1)(

)ˆ(2

),ˆ(log

w)φ(x

w)φ(xw

wX,w|y

i

i

ｙの予測値と観測された値の差の２乗の平均

φ １ (x)

φ2 (x)

新規データ：y

S:が張る空間wx

y から S に最も近い点（垂直に落としている）

幾何学的イメージ

計算の効率化大きな data sets に対して　　の右辺第 1 項の逆行列計算量が問題特にデータの次元 N に対して O(N3) なので

高次元だと大変定石は、コレスキー分解 O(N2) して上 / 下

半 3 角行列で表現される連立方程式を 2 回解く

L（ｗ）を最小化するような wの数値計算

yφφφw TT 1)(ˆ

Tnnny

L

)())((

)()()(

)()1(

xwxw

www

目的関数（すなわち損失 L(w)) の減る方向へ進む( ー gradient を w に加える）方法を gradient descent は呼ばれ、最適化における基本的数値計算法である。

正則化項の導入

モデルを複雑にするほど学習データにはよく合致するが、学習データ以外のデータには弱いという過学習を起こす。

過学習を抑えるために、損失関数に正則化項を導入。

正則化項にはモデルをできるだけ簡単化する方向に作用する。データが高次元の場合には次元削減効果あり。

一般的な正則化項

正則化項 q=2 のときが L2 正則化 q=1 のときは LASSO: 　１ノルムによる正則

化なので　　 L1 正則化と呼ぶ Least Absolute Shrinkage and Selection

Operator

λ が十分大きいと、 wj のいくつかは 0 になりやすい　　→　　スパースなモデル

q=0 のときは L0 正則化。解きにくい問題（上記２つと違い凸ではない）

K

j

qj

N

iii wφyL

1

2

1

||2

),2

1)(

w(xw

• 制約

のもとで、 L(w) を最小化する、と考える。

qK

jjw

1

q=0.5 q=1 q=2 q=4

正則化項

(w の影響を小さくする効果 )

W の２ノルムによる正則化であるので、 L2 正則化と呼ぶ

yφ(Xφ(Xφ(XIww

www(xw

w

TT

TN

iii

L

φyL

))))()(minargˆ

2),

2

1)(

1

2

1

最小化すると

最適な wは L(w) を微分して０とすれば上記のように解析的に閉じた式で求まる。

これは φ(X) と λ の案配よって決まり、どの成分も強制的にゼロにしようという力は働かない

L2 正則化

K

jj

N

iii wφyL

1

22

1 2),

2

1)(

w(xw

Ｗ１

Ｗ２

最短の 2 乗距離で結ぶ

Ｌ２正則化のイメージ

L1 正則化

L ２正則化では w の最適値　　を損失 Lの微分で閉じた式で求められたが、 L1 正則化では |w| がｗ＝０で微分できないので、ややこしくなる。

L1 正則化を行う逐次的な方法と　 L1 正則化がｗの要素の多くをゼロ化す

る傾向を以下で説明する

w

1

K

jj

N

iii wφyL

1

2

1 2),

2

1)(

w(xw

Ｗ１

Ｗ２

Loss+L1 の最小距離で結ぶCase 3 では、W2=0 となる

2

3 　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

Ｌ oss L1

Ｌ１正則化イメージ：　　（１）軸での Loss の微分 =0 として　を求める

2w 2~w

1

K

jj

N

iii wφyL

1

2

1 2),

2

1)(

w(xw

Ｗ１

Ｗ２


2

3 　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

Ｌ oss L1

Ｌ１正則化イメージ : （２）軸での Loss の微分 =0 として　を求める

2w 2~w

1

K

jj

N

iii wφyL

1

2

1 2),

2

1)(

w(xw

Ｗ１

Ｗ２


2

3 　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

Ｌ oss L1

（１）（２）（３）で２本の赤い矢印線の長さの和が変わらない点

に注目以下で L1 正則化に関してもう少し細かく議

論する。

Ｌ１正則化イメージ：　（３）軸での Loss の微分 =0 として　を求める

2w 2~w

ある次元 d に着目して L(w) を最小化するような wd を求める。

これを各次元について繰り返し、 L(w) の最小化を図る。 wd について L(w) を書き直すと

　　　　　　とおき wd の最適値を求めたいが絶対値を含む第２項 L1(w) が微分できないので、ひとまず Loss(w) を微分して０とおくと

)101(||2

),2

1)(

1

2

1

LwφyLK

jj

N

iii

w(xw

　　　　　　　　　　　　　　　　　　　 )201(1

22

1

1

2

LLLoss

wwwwyLdj

jd

N

i djjijdidi

ww

xxw

0

dw

L w

N

iid

N

i djjijiid

d

d

N

i djjijdidiid

N

i djjijdidi

dd

wy

w

wwwy

wwyww

Loss

1

2

1

1

1

2

~

~0

2

1

x

xx

xxx

xxw

とするの解を　　

これを用いて L(w) を書き換える。ただし、 wd に関係しないところは当面定数と見なせるので、無視した。

Constwwww

Constwwywww

ConstwwywwwL

d

N

iiddd

N

iidd

d

N

i

N

iid

djjijidid

N

iidd

N

iidd

d

N

i djjijididdidd

1

2

1

22

1 1

2

1

2

1

22

1

22

~2

2

2)~(2

xx

xxxxx

xxx

　　

　　

が働くスパース化）される力　になりゼロ化

がゼロに近づくとの解のすなわちにより

　　　　　　矛盾すなわちだと　　　　　　　

　　矛盾すなわちだと　　　　　　　

　　なぜなら　　　なら　　なので　　なら

　　なので　　なら

を探すなる

とおくと、ここで

(0

~~3 case

~0~0

~0~0

0~3 case

~00~2 case

~00~1 case

0)(

0undefined

0~0~

)(

~2

1)(

2

2

1

2

d

ddd

ddd

ddd

dd

dddd

dddd

dd

d

d

ddd

ddd

d

d

dddddN

i id

w

wwLossw

www

www

ww

wwww

wwww

ww

wL

w

www

www

w

wL

constwwwwwL

w

x

Ｗ全体の正則化

[step 1] ｗの各要素を適当な値に初期化[step 2] w の各要素の値 w_k(k=1,..,K) が収束するまで以下 step 3,4,5 を繰り返す[step 3] k=1,.., K で step 4， step 5 を繰り返す　　 [step 4] wj (j ≠ k) を用いて case1,2,3 にしたがって wj を計算してゼロ化　　　　 [step 5] wk を更新 [step 6] 収束したら wの最終結果とする

wd のゼロ化のイメージ

dw~

dw

L1 正則化が支配的になり　　をゼロ化する様子を下図で例示する

dw

λ 大

λ 小

wd

L(wd)

dw 2 乗誤差 Lossが支配的

正規化項 L1が支配的

０

正則化項の Bayes 的解釈Bayes では事後確率は　　　観測データの確率 ×事前確率事後確率を最大化するパラメタ η を求めたい

ここで対数尤度にしてみると、次のように解釈できる

|log|logmaxargˆ

||maxargˆ

PXP

PXP

パラメタは事前分布のハイパー

損失関数正則化項

例：事前分布、事後分布とも正規分布

ノルムによる正則化項　　　　

とすると　　事前分布の重みをここで、

　　　

　　

も同様にすると事前分布

L22

),(2

1maxarg

,0

2

1),(

2

1minarg

),|(log),|(logminarg

2/),|(log

,|

2/),()1,),(|(log)1,|(log

)1,0()(

),,(

2

2

2

1

0

1

wwwx

wwwx

ww,x

www

w

wxwxw,x

wx

w

x

x

Xy

w

w

w

N

1

T

iii

T

iii

iii

T

iii

iii

iii

K

T

T

TN

φy

φy

pyp

p

p

φyφyNyp

Nφy

w

w

w

yy

事前分布の wの分散 :λ ー 1 　と

も見える。

例：事前分布が Laplace 分布、事後分布が正規分布

ノルムによる正則化項　　　　　

　　

も同様にすると分布の事前分布は期待値

L12

),(2

1minarg

)|(log),|(logminarg

2)|(log

2exp

4|0

2/),()1,),(|(log)1,|(log

)1,0()(

2

2

wwx

ww,x

ww

ww

wxwxw,x

wx

w

w

iii

iii

iii

iii

iii

φy

pyp

p

pLaplace

φyφyNyp

Nφy

以上、述べてきた線形回帰のよるモデル化は、生成モデル

当然、線形の識別モデルもある。次以降は線形識別モデルの話

線形識別

　　と　　の領域の境界面を線形関数として求める

線形識別データ : xがいくつかのクラス（あるいはカテゴリー）： C

ｋのどれかに属する。例：新聞記事が「政治」「経済」「スポーツ」「芸能」「社会」などのクラスのどれかに属する場合。この場合、データ：ｘは例えば、記事に現れる単語の集合、など。

データ： xが K 個のクラスの各々に属するかどうかの判定は（－１＝属さない，１＝属する）の２値を要素とする K 次元ベクトル： yi ＝（ -1,1,-1,..,1) で表される。ただし、１つのクラスに属するか属さないかだけを識別すの

場合は 2 クラス分類という。当然、 yi ＝ー 1 　 or yi ＝ 1 この属するか否かの判断をする式が線形の場合を線

形識別という。

TMxxx ],,,[ 21 x

線形識別の関数

一般化線形識別の関数は以下

２クラス分類クラス C １に属するか C2 （＝ notC1 ）に属する

かは、次の通り if y(x)≥0 then データ：ｘは C １に属する　　　　　　　 otherwise データ：ｘは C2 に属す

る　　　　　　　　　　　　　　　　　　 ( すなわ

ち C1 に属さない）

wxxw

wx

x

wxx

~,~)(~,1~

,)(

0

0

yw

wy

とおくならあるいは

は非線形でもよいfwfy ),()( 0 wxx

2 値分類の直観的説明

y={-1,1} 、 x は 2 次元とする。（下図を参照） {y,x} を教師データとして、 2 乗誤差の最小化

を行って正規方程式を求めると、下図の　　のようなクラスを分類する分離平面が得られる。

y=-1

y=１

x1

x2

境界面

線形識別関数の幾何学的解釈

x

xa

xb

w

xc

||||

)(

w

xy

||||0

wx

wd

直交。すなわち識別境界線とは )(

),()()(0

0,)(,0,)( 00

ba

baba

bbaa

yy

wywy

xxw

wxxxx

wxxwxx

識別境界線

||||||0||||||||,

|||||||,

,)(0

000

0

wxwxwx

wxwxwx

wxx

x

www

wy

ddd

ddd

dd

d

整理するとこれを上式に代入して

から、に並行で横ベクトルだは

とおく。の垂線の交点を原点から識別境界線へ

xd

線形識別関数の幾何学的解釈

x

w

xc

||||

)(

w

xyr

||||0

w

w

識別境界線

||||

)(0)(

||||

||||)(

||||

,,,)(

||||2

00

0

w

xx

w

wx

w

wwwxwxx

ww

wxx

yry

ryrwwy

wr

c

cc

c

だから

を足すとの内積をとり、両辺と

xaxb

xd

w の計算方法 :2 クラス分類の場合

.すると新規のデータ： xはが正ならク

ラス C1 に ,負なら C ２属する

.

で書けるとするの境界がクラス wxx ~,~)(, 21 yCC

)~(xy

wx

wx

WXY

x

x

X

x

~,~

~,~~~

~

~~

10,1

),1(,~

111

NNT

N

T

nn

nn

y

y

yy

NnyN

なら　　ただしクラス１ならがあったとき個の教師データ

すると、観測データ（教師データ）において個々のクラスに分類されたか否かの観点からの２乗誤差は次式となる

もう少し詳しく書くと

YWXYWXW ~~~~)

~(

TE

　　

22

11

11

11

~,~~,~

~,~

~,~

~,~~,~

~~~~

NN

NN

NN

T

yy

y

y

yy

wxwx

wx

wx

wxwx

YWXYWX

これを最小化する　　　は　　　で微分して０とおけば、線形回帰のときと同様の計算により求まる。

微分は次式：

YWXYWXW ~~~~)

~(

TE

W~

W~

YXXXW

YWXXW

W

TT

TE

~)

~~(

~

0~~~

~

~

1

YWXXYWXAAW

A

W

AA

~~~

2~~

2 TTT

新規のデータ xnew に対する予測を行う y(xnew)も求まる。

YXXXxWx

x

x

xy

YXXXW

TTnewnew

newK

new

new

TT

y

y~

)~~

(~~~

)~(

)~(

)~(

~)

~~(

~

11

1

y(xnew)が大きいほどクラス　 C1 に属する可能性が高い。

　

w の計算方法：多クラス分類の場合 .

すると新規のデータ： xはが最大の kのクラス Ck に属する

.

で書けるとする。が線形識別モデルクラス kkk yC wxx ~~)(

)~(xky

Wxwxwx

xxyx~~~,~~,~

)]()([)(

1

1

K

TKk yyKy

　　　　　　　　　　　　　

個並べたベクトルを

KNN

K

NT

N

T

n

n

nn

K

K

NnN

wxwx

wxwx

WX

y

y

Y

x

x

X

y

x

yx

~,~~,~

~,~~,~~~

~

~~

)1,...,1,1,1(

~),..,1(,~

1

11111

のような形。次元ベクトルはらに属することもあるな個のクラス内の複数個は

注

があったとき個の教師データ

すると、観測データ（教師データ）において個々のクラスに分類されたか否かの観点からの２乗誤差は次式となる

もう少し詳しく書くと

YWXYWXW ~~~~)

~(

TTrE

22

11

2

11

2

1111

11

111111

11

111111

~,~~,~

~,~~,~

~~~~

~,~~,~

~,~~,~

~,~~,~

~,~~~

~~~~

NKKNKK

NN

T

NKKNNN

KK

NKKNKK

NN

T

yy

yy

Tr

yy

yy

yy

yy

wxwx

wxwx

YWXYWX

wxwx

wxwx

wxwx

wxwx

YWXYWX

　　

これを最小化する　　　は　　　で微分して０とおけば、線形回帰のときと同様の計算により求まる。

Tr の微分は次式：

YWXYWXW ~~~~)

~(

TTrE

W~

W~

YXXXW

YWXXW

W

TT

TE

~)

~~(

~

0~~~

~

~

1

YWXXYWXAAW

A

W

AA

~~~2

~~2

)( TTTTr

新規のデータ xnew に対する予測を行う y(xnew)も求まる。

YXXXxWx

x

x

xy

YXXXW

TTnewnew

newK

new

new

TT

y

y~

)~~

(~~~

)~(

)~(

)~(

~)

~~(

~

11

1

yi(xnew)が大きいほどそのクラス i に属する可能性が高い。

　もちろん、 yi(xnew)が最大となる i のクラスに属すると考えるのが自然。だが。。。

生成モデルを利用した識別識別はベイズ統計的には次式

N 個のデータ： xk （ k=1,..,N) があるクラスに属するかどうかの判定は（ 0 ＝属さない，１＝属する）の２値を要素とする N 個の K 次元ベクトル： y ＝（ 0,1,0,..,1) で表される。以下のベイズ統計による分類では、属さない場合を -

1 ではなく０とすることに注意。以下ではベイズ統計による 2 クラス分類をする

場合に事後確率について考える。

)(

)()|()|(

x

xx

p

CpCpCp kk

k

Logistic sigmoid function

クラス C1 の事後分布は次式 (s-1)

)1()exp(1

)exp(

)exp(1

1

)exp(1

)exp(

d

d1

log)(1)(

)()|(

)()|(log

function sigmoid logistc1)-(s-)()exp(1

1

)()|()()|(

)()|()|(

2

22

11

2211

111

a

a

aa

a

a

aaa

CpCp

CpCpawhere

aa

CpCpCpCp

CpCpCp

x

x

xx

xx

クラス C1,C2 が共分散∑が等しい 2 つの正規分布の場合の事後確率 p(C1|x)

式 (s-1) によって以下のように導ける。

)(

)(log

2

1

2

1)(

)(

)(log

2

1

2

1

)(

)(log

2

1

2

1

||2log

||2log

)()|(

)()|(log

2

1exp

||

1

2

1)|(

2

12

121

1121

1

2

12

12

122

11

11

111

1

2

12

121

11

21

2

21

2

22

11

1

21

2

Cp

Cp

Cp

Cp

Cp

Cp

CpCp

CpCp

Cp

TTT

TTTTTT

TT

K

K

iT

iKi

x

xxxx

xxxx

x

x

xxx

∑ が 2 つのクラスで等しいことにとってキャンセルしていることに注意。等しくないともう少し複雑。

クラス C1,C2 が共分散∑が等しい 2 つの正規分布の場合の事後確率 p(C1|x)

)(

)(log

2

1

2

1

)(

exp1

1)|(

)(

)(log

2

1

2

1)(

)()|(

)()|(log

2

1exp

||

1

2

1)|(

2

12

121

110

211

001

2

12

121

1121

1

22

11

1

21

2

Cp

Cpw

where

wwCp

Cp

Cp

CpCp

CpCp

Cp

TT

TT

TTT

iT

iKi

w

xwxwx

xx

x

xxx

事後確率：

∑ が 2 つのクラスで等しいことにとってキャンセルしていることに注意。等しくないともう少し複雑。

次に　 Maximum likelihood solution 　（つまりw,w0) を求める。これによって、各クラスの事後

確率が求まるここで各クラスの事前確率が以下だったとする

)10(,....,

1,|)1(,|),,,|(

,|)1()|()(),(

0

,|)|()(),(

1

1)()(

1

21

121

2222

2

1111

1

21

sttwhere

ntNnt

Np

Nlikelihood

NCpCpCp

tC

NCpCpCp

tC

CpCp

TN

n

N

nn

nnn

nn

nnn

nn

t

xxt

xxx

x

xxx

x

う個あることを思い出そ観測データはは次式ここで

としに属するときが観測データ

としに属するときがこのとき観測データ

(s-10) の log すなわち log likelihood function を最大化することが目標

まず、最大化する π を求める。(s-10) の log の π に関する部分は次式 (s-20) 　 logp (π)

に属するデータ数。はクラス

に属するデータ数。はクラス

22

11

21

11

1

1

10

)(log

)1log()1(log)(log

CN

CNwhere

NN

N

N

Nt

N

p

ttp

N

nn

N

nnn

次に (s-10) の　 log を最大化する　 μ1 　を求める。

(s-10) の log の μ ２に関する部分は次式 (s-30) 　 logp (μ1 )

N

nnn

nT

n

N

nnn

N

nn

tN

p

tNtp

111

1

1

11

11

11

1

10

)(log

const2

1),|(log)(log

x

xxx

同様にして μ １も求めると

N

nnn

nT

n

N

nnn

N

nn

tN

p

tNtp

122

2

2

21

21

21

2

)1(1

0)(log

const

)1(2

1),|(log)1()(log

x

xxx

最後に (s-10) の　 log を最大化する精度行列 Λ ＝∑－１（ C1 と C2共分散）　を求める。

(s-10) の log の∑ に関する部分は次式 (s-40) 　 logp (∑ )

logp (Λ ) を Λ で微分して０とおき、 (s-10) の　 log を最大化する Λ ＝∑－１を求める。

まず第 1 項の微分は線形代数学の公式より

)40()(2

||log2

)())(1(2

1||log)1(

2

1

)()(2

1||log

2

1)(log

2211

1111

sSTrNN

tt

ttp

nT

n

N

nn

N

nn

nT

n

N

nn

N

nn

xx

xx

が対称が対称 1

11 )50(22

||log2

sNNN

T

T

Cnnn

T

Cnnn NN

S

Ss

21

))((1

))((1

)40(

2211 xxxx

は次式の

次は Tr(ΛS) を Λ で微分して０とおき、 logp(Λ) を最大化する Λ を求める。

T

Cnnn

T

Cnnn

T

NNS

SNNp

sSSSTr

21

))((1

))((1

022

)(log

)60()(

22111

1

xxxx

このようにして、教師データ集合{(xn,tn)n=1,..N} から μ1, μ2,Σ-1( ＝ Λ ） ,π が求まったので、これらを用いて定義されるw,w0 も求まる。

未知データ xがクラス C1 に属する確率は

なので、この分布を教師データから学習できた。

1log

2

1

2

1

)(

exp1

1)|(

21

211

10

211

001

TT

TT

w

where

wwCp

w

xwxwx

2 乗誤差最小化の線形識別の問題点

この領域の判断が困難

この領域に青の境界線が引っ張られることあり。

そもそも、 Y の値は正規分布を想定した理論なのに、｛ 0 、 1｝の 2 値しかとらないとして 2 乗誤差最小化を当てはめたところに無理がある。

Documents

3. 線形 回帰および識別

3. 線形回帰および識別