Upload
toshiyuki-shimono-
View
109
Download
4
Embed Size (px)
DESCRIPTION
AIC (Akaike's Information Criterion) allows adding a single non-correlated explanatory variables in 15.73% as the increase of maximized logarithmic likelihood is chi-squared distributed. 第13回モヤLTで話す目的で準備しました。
Citation preview
AICはモデルに無相関な説明変数を
1個追加しても 15.73%の確率で選択してしまうことの
R言語による数値実験的実証(最大化対数尤度の増分が
カイ 2乗分布に従うことを通して )
2013-02-03 下野寿之
第 13回モヤ LT
前置き
最初に (1)
● 何をするか 「被説明変数」 Y を 「説明変数」 X1,.., Xkの候補 k個から 選択した (できるだけ少ない ) p個に対して、 それぞれ重みをつけた線形結合で 予測式を立てる。 Y の予測値 = a1 X1 + ... ak Xk
ただし、 a1,.., ak のうち非ゼロは p個。Yと X1,...Xk はデータとして N回の観測値があるものとして、予測式を作りたい。
最初に (2)
● Y や Xi は数値であるが、 そうで無い場合は順序値に置き換えても ,
外れ値が無ければ (大抵の場合 )大して問題無い。
● 「線形回帰」「多重回帰」であるが、 非線形の多項式に置き換えて 議論することは容易である :
X1^2 , X1 ×X2 を 新しい X3, X4と見なせば良い。
● Y = f(Xi) + ε として ノイズ εはガウス分布を通常は仮定する。
AIC とは (1)
● AIC (赤池の情報量規準 ) は 1970年代に考案。
● 提案者の赤池弘次氏 (1927-2009)は 2006年に京都賞を受賞。● 数万個の論文に引用されている。● 日本発の統計学への貢献としては、 下記と並ぶようだ。 -> 田口玄一氏のタグチメソッド
直交表による工業製品の品質管理
AIC とは (2)
Akaike's Information Criterion :
次の値 (ペナルティ )が最小となるようなモデルを採択する。各モデルの AIC
= -2*(最大化対数尤度 L)+2*(説明変数の個数 p)
- モデルは予測式の候補のこと。- p は予測式の変数の個数 = 重みパラメータの個数- 対数はネイピア数 e=2.71828.. を底とする。- 尤度 (ゆうど ) とは観測した証拠から前提が成り立つ確率- L は、各モデルについて、
パラメータを調整して最大化した '予測式の尤度の対数 '
AIC とは (3)
AIC の良いところ :
- 過剰適合 (オーバーフィッティング )を 防ぐことができる
- アルゴリズムを作れば、自動計算によって 変数を選択し、その重みも自動的に 計算できる。 -> '客観的に ' モデルを選ぶことができるので、 統計学 /確率論 /数学に詳しくないユーザー ( 例 : 社会学 /経済学 /医学 /工場で働いている人など ) が 容易に使うことができる。Information Criterion としては、 他に BIC, TIC, GIC, MDL などがある。
自由度 1のカイ 2 乗分布 (χ2分布 )
- 標準正規分布 (標準ガウス分布 )に従う 確率変数の 2乗の値として、 生成される確率変数。- 平均 1,分散 2 ( √標準偏差 2 = 1.41421356.. )
- 確率密度関数は下記の様になる (x 0)≧ 。
前置きは以上
主張したいこと
モデルにランダムな変数を 1個追加で最大化対数尤度がどれだけ上がるか ?
R言語で以下を行った。 1. X1,X2,Yを標準正規分布からそれぞれ独立に 100個生成。 2. Yの X1 による回帰と Yの X1と X2による回帰をそれぞれ行う。 3. それぞれの最大化対数尤度の差の 2倍を求める。 4. 上記を 1万回繰り返し、値をヒストグラムにする。 5. 自由度 1のカイ二乗分布の密度関数 (赤 ) を重ねた。 6. もっと厳密に比較するために 1.-3.を 1000回反復した上の qqplotを 3回行った。
ランダムな 1個の変数追加による最大化対数尤度の増分はその 2 倍の値が、確率分布自由度 1の χ2 分布に従う。
- 理論的に示すことも可能 - R言語で数値実験的に確かめることもできた。
ところで AIC(Model) = -2L + 2p であった。(1) あるモデル(2) 独立にランダムな 1個の説明変数を追加したモデル
(1)と (2)がそれぞれ AICが小さくなる確率は ?
モデル (2)は明らかに (1)より意味のないモデルであるが、一定の確率でモデル (2)が選択されてしまう。
R言語で計算> pchisq( q=2 , df=1 )0.8427008
> 1 - pchisq( q=2 , df=1 )0.1572992
ちなみに、標準ガウス分布で -√2 以下となる確率の 2倍> pnorm(-sqrt(2)) * 2 0.1572992
ということで、15.73%の確率で全く余計な変数でも取り込まれてしまう
話は以上。
参考文献にすべきと思われるもの :
[1] 情報量規準 [2] R 言語のサイト