41
PRML 1.2.4 1.2.5 1.3

Prml 1.2,4 5,1.3|輪講資料1120

Embed Size (px)

DESCRIPTION

haito

Citation preview

Page 1: Prml 1.2,4 5,1.3|輪講資料1120

PRML1.2.41.2.51.3

Page 2: Prml 1.2,4 5,1.3|輪講資料1120

ガウス分布

正規分布、もしくはガウス分布という。

N(χ|ν,σ2) と書かれる。

νが平均、σ2が分散となっている。

もちろん分散の平方数 σ が標準偏差となる。

分散の逆数を精度パラメーターと呼ぶ。

Page 3: Prml 1.2,4 5,1.3|輪講資料1120

ガウス分布

N(χ|ν,σ2)>0を満たしている。

らしい。

たぶん。分母の0を認めないから、ではないだろうか。

Page 4: Prml 1.2,4 5,1.3|輪講資料1120

正規分布表http://blog-imgs-35.fc2.com/r/e/a/realwave/Normal_distribution_pdf.png

Page 5: Prml 1.2,4 5,1.3|輪講資料1120

備考.モーメント

積率とも呼ばれる。確率変数のべき乗に対する期待値で与えられる。Xを確率変数、αを定数とした時、

〈(x-α)n〉,n=1,2,...

と定義されている。

Page 6: Prml 1.2,4 5,1.3|輪講資料1120

備考.n次モーメント

〈(X-α)n〉に対し、特にα=0の時mnと表され、n次のモーメントという。

〈Xn〉:=mn 

またこの時平均 ν = m1

分散 σ2=m2-(m1)2

と表現できる。

Page 7: Prml 1.2,4 5,1.3|輪講資料1120

備考.n次の中心モーメント

mnのモーメントに対して、m1に関するモーメントを

νn で表し、n次の中心モーメントという。

νn=〈(X-m1)n〉 :n次の中心モーメント

ここで2次の中心モーメントν2は

分散σ2と一致する

Page 8: Prml 1.2,4 5,1.3|輪講資料1120

D次元でのガウス分布

x={χ1,χ2,...χN}T N個のデータからなるデータ集合

∑ DxDの行列

|∑|∑の行列式(det∑)

独立同分布 i.i.d

independent Identically distributed

Page 9: Prml 1.2,4 5,1.3|輪講資料1120

補足.尤度関数

ある前提条件にしたがって結果が導出される際に、その結果からみて「前提」を推測し、その尤もらしさを表現する数値を変数として扱う関数。

らしいです。図を考えてみました。

Page 10: Prml 1.2,4 5,1.3|輪講資料1120

補足.尤度関数.こんな感じ?

Page 11: Prml 1.2,4 5,1.3|輪講資料1120

補足.尤度関数.例

この場合0.6付近が変数αだと推測される

https://skitch-img.s3.amazonaws.com/20090516-x3ftyup4myyhe1yau8pe18jsw7.jpg

Page 12: Prml 1.2,4 5,1.3|輪講資料1120

D次元のガウス分布と尤度関数

ガウス分布の未知のパラメーターνとσ2を決定するために、尤度関数を最大化する。

なお、尤度関数の対数を最大化するようにして計算量を低くできる。

対数関数のグラフを思い出してみるとわかりやすい。指数の爆発は置いておくとして

Page 13: Prml 1.2,4 5,1.3|輪講資料1120

D次元のガウス分布と尤度関数

νに対しての尤度関数の値をνML

σ2に対しての尤度関数の値をσ2ML

とする。 式1.55 式1.56

なお、同時に最大化を評価するときは

νに対して最大化し、その後にσ2を評価する。

Page 14: Prml 1.2,4 5,1.3|輪講資料1120

バイアスの問題.足がかり

後に本書で述べられることではある。最尤のアプローチでは特に分布の分散が系統的に過小評価されている。これはバイアスと呼ばれる現象の例であり、多項式曲線フィッティングにおける過学習の問題に関連している。

Page 15: Prml 1.2,4 5,1.3|輪講資料1120

バイアスの問題.足がかり

最尤解νML,σ2MLはデータ集合χ1,...,χNの関数で

あることに注意する。

これらの量のパラメータν,σ2を持つガウス分布に従うデータ集合に関する期待値を考える。 式1.57 |  式1.58となり、平均はいいけど、分散は(N-1)/N倍過小評価されることが示されている。

Page 16: Prml 1.2,4 5,1.3|輪講資料1120

バイアスの問題.足がかり

式1.58から、 式1.59は分散パラメータの不偏推定量になる。10節(すごい先)ではこの結果がベイスアプローチによってどのように自動的に得られるかがわかる。最尤解のバイアスはデータ点Nが増えればあまり重大ではなくなり、N→∞の極限では分散の最尤解はデータを生成した分布の真の分布に一致する。

Page 17: Prml 1.2,4 5,1.3|輪講資料1120

バイアスの問題.足がかり

Nが小さいという理由以外ではバイアスは深刻な問題にはならないことが示されている。しかしながら本書を通して多くのパラメーターを持つより複雑なモデルを扱うので、最尤推定に伴うバイアスの問題ははるかに難しくなる。

:過学習の問題の根本にバイアスがある。

Page 18: Prml 1.2,4 5,1.3|輪講資料1120

曲線フィッティング再訪

つかみは同じ。確率的な観点から曲線フィッティングを考える。誤差関数と正則化などを利用し、完全なベイズ的取り扱いに進む。

N個の入力値で構成される訓練データの集合

x=(χ1,...,χN)T と対応する目標値t=(t1,...,tN)T

訓練集合にもとづいて与えられた新しい入力値χに対する目標変数tの予測をする。

Page 19: Prml 1.2,4 5,1.3|輪講資料1120

曲線フィッティング再訪

目標変数に対する不確実性(誤差?)は確率分布を使って表すことができる。与えられたχに対し、対応するtは平均が1.1式で与えられる多項式曲線y(χ,w)に等しいガウス分布に従うものとする。

Page 20: Prml 1.2,4 5,1.3|輪講資料1120

曲線フィッティング再訪

以降(たぶん本書これからずっと)

β := (σ2)-1 

とする。すなわち

β-1 は σ2 を意味する。

式 1.60

訓練データ{χ,t}を使って未知のパラメーターw,β を求めるために尤度推定を使う。

Page 21: Prml 1.2,4 5,1.3|輪講資料1120

曲線フィッティング再訪

データが先ほどのp(t|χ,w,β)の分布から独立に取られたものだとすると、尤度関数は

式 1.61

で与えられる。これも同様に尤度関数の対数を最大化するほうが便利である。

Page 22: Prml 1.2,4 5,1.3|輪講資料1120

曲線フィッティング再訪

対数尤度関数は 式 1.62で得られる。まずは最尤解によって定まる多項式の係数wMLを考える。式1.62 をwについて最大化して決ま

る。この時に右辺の二項はw依存しないので無視することができる。

Page 23: Prml 1.2,4 5,1.3|輪講資料1120

曲線フィッティング再訪

また、正の定数倍をしてもwの最大値の位置は変わらないので、β/2 を 1/2 で置き換えることができることに注意する。最後に、対数尤度を最大化する代わりにそれと等価な、負の対数尤度を最小にすることができる。

Page 24: Prml 1.2,4 5,1.3|輪講資料1120

曲線フィッティング再訪

すると尤度の最大化はwを決めるという観点からは 1.2説 で定義される二乗和誤差の最小化と等価であることがわかる。

したがって二乗和誤差関数はノイズがガウス分布に従うという仮定の下で尤度の最大化の結果としてみなせる。

Page 25: Prml 1.2,4 5,1.3|輪講資料1120

曲線フィッティング再訪

条件付きガウス分布の精度パラメーターβを決めるのにも最尤推定を使うことができる。式1.62をβについて最大化すると、 式1.63を得る。この場合においてもパラメータベクトルwMLを最初

に求め、そこから式1.63の平均を計算することによって、精度パラメータβMLを求める事ができる。

単純ガウス分布においても同様。

Page 26: Prml 1.2,4 5,1.3|輪講資料1120

曲線フィッティング再訪

パラメータw,βが決まれば、χの新たな値に対する予測ができる。これまで確率モデルを使って定式化してきたので、その予測は単なる点予測値ではなく、予測分布という形で t の確率分布を与えることができる。

予測分布: predictive distribustion

Page 27: Prml 1.2,4 5,1.3|輪講資料1120

曲線フィッティング再訪

式1.60 を最尤パラメーターで置き換えれば 式1.64という形で得られる。

さらに多項式係数wに関する事前分布を導入し、ベイズ的なアプローチに進む。

Page 28: Prml 1.2,4 5,1.3|輪講資料1120

曲線フィッティング再訪

まずは簡単のため(簡単とは思えないけど) 式1.65という形のガウス分布を考える。

α:分布の精度パラメーター

M+1:M次多項式に対するベクトルwの要素数

Page 29: Prml 1.2,4 5,1.3|輪講資料1120

モデル選択

最小二乗法で多項式曲線をあてはめた例において、最も良い汎化を示した適切な次数の多項式があることをみた。 :多項式曲線を予測した時に、最適な次数の多項式が出てくるよね、ということ?

多項式の次数はモデルの自由パラメーターの数を制限し、したがってモデルの複雑さを支配する。

Page 30: Prml 1.2,4 5,1.3|輪講資料1120

モデル選択

正則化した最小二乗法では正則化係数λもモデルの実質的な複雑さを制御しており、一方混合分布やニューラルネットワークといった複雑なモデルにおいては、複雑さを支配する複数のパラメーターが別に存在し得る。

Page 31: Prml 1.2,4 5,1.3|輪講資料1120

モデル選択

実際の応用ではそういったパラメーターの値を決めなければならないが、その主な目的は通常、新たなデータに対して最も良い予測をすることである。さらに与えられたモデル内の複雑さパラメータの適切な値を決めるのとあわせて、異なる型のモデルも考慮し、それぞれの応用ごとに最も良いモデルを見つけたい。

Page 32: Prml 1.2,4 5,1.3|輪講資料1120

モデル選択

すでにガウス分布の項目で述べたように、最尤アプローチでは過学習の問題があるので、訓練集合に対する性能というのは、予測性能の良い指標ではない。

データが十分にあれば、手持ちのデータのちイブを使っていろいろなモデルを学習するか、あるいはひとつのモデルの複雑さパラメータの値を変えるかしたあと、独立なデータで比較し性能評価するのが単純である。

Page 33: Prml 1.2,4 5,1.3|輪講資料1120

モデル選択

この比較用のデータは確認用集合(検証用集合)と呼ばれる。

限られたサイズのデータ集合を使ってモデルの設計を何度も繰り返すと確認用集合にも過学習してしまうことがあるので、三番目のテスト集合を別に用意しておいて、選んだモデルの性能を最終的に評価する必要がある。

Page 34: Prml 1.2,4 5,1.3|輪講資料1120

モデル選択

しかし、多くの場合では訓練とテストに使えるデータは限られており、良いモデルを作るためには得られたデータはできるだけ沢山訓練に使いたい。一方、確認用集合が小さいと予測性能の推定誤差が大きくなる。このジレンマを解く為に、交差確認という方法がある。

Page 35: Prml 1.2,4 5,1.3|輪講資料1120

モデル選択.交差確認

交差検証(cross-validation)ともいう。得られたデータの内、(S-1)/S の割合部分を訓練に使いつつ、全データの性能評価に使うことができる。データが特に少ない時にはデータ点数をNとした時に S=N と考えるのが妥当であり、これをLOO法(1個抜き法:Leave-one-out-method)と呼ぶ。

Page 36: Prml 1.2,4 5,1.3|輪講資料1120

モデル選択.交差確認

欠点として訓練を行わなければならない回数がSに比例して大きくなることがある。複数の複雑さパラメータを保つ場合、訓練回数が指数爆発の様に増えてしまうため、交差確認よりも良いアプローチが必要となる。

Page 37: Prml 1.2,4 5,1.3|輪講資料1120

モデル選択

理想的には、訓練データだけに依存し、一回の訓練だけで超パラメータとモデルのタイプを比較できるものが望ましい。

そこで、訓練データだけに依存し、過学習によるバイアスを持たない性能の尺度が必要となる。

Page 38: Prml 1.2,4 5,1.3|輪講資料1120

モデル選択

歴史的には情報量基準と呼ばれるものが提案されてきたが、これは複雑なモデルによる過学習に罰金項を足すことによって、最尤推定のバイアスを修正しようということである。たとえば赤池情報量基準(AIC)では 式1.73という量が最大になるモデルを選ぶ。

Page 39: Prml 1.2,4 5,1.3|輪講資料1120

モデル選択

p(D|wML):最尤推定を行った場合の対数尤度

M:モデルの中の可変パラメータ数

これの変種にベイズ情報量規準(BIC)というものがあり、4.4.1節で議論するらしい。

Page 40: Prml 1.2,4 5,1.3|輪講資料1120

モデル選択

しかしながら、こうした基準はモデルパラメータの不確実性は考慮しておらず、実際には過度に単純なモデルを選ぶ傾向にある。

そこで、3.4節では複雑さに罰金を得耐えるのに自然で理にかなった方法として、完全なベイズアプローチを採用する。

Page 41: Prml 1.2,4 5,1.3|輪講資料1120

日本語と英語対応(論文検索とか)

正規分布: normal distributionガウス分布: Gaussian distribution精度パラメーター:precision parameter独立同分布:independent identically distributed二乗和誤差:sum-of-squares error予測分布:predictive distribution最大事後確率推定:maximum posterior交差確認:cross-validation情報量基準:information criterion