AICはモデルに無相関な説明変数を1個追加しても15.73%の確率で選択してしまうことのR言語による数値実験的実証最大化対数尤度の増分がカイ2乗分布に従うことを通して)

AICはモデルに無相関な説明変数を

1個追加しても 15.73%の確率で選択してしまうことの

R言語による数値実験的実証(最大化対数尤度の増分が

カイ 2乗分布に従うことを通して )

2013-02-03 下野寿之

第 13回モヤ LT

前置き

最初に (1)

● 何をするか「被説明変数」 Y を「説明変数」 X1,.., Xkの候補 k個から選択した (できるだけ少ない ) p個に対して、それぞれ重みをつけた線形結合で予測式を立てる。 Y の予測値 = a1 X1 + ... ak Xk

ただし、 a1,.., ak のうち非ゼロは p個。Yと X1,...Xk はデータとして N回の観測値があるものとして、予測式を作りたい。

最初に (2)

● Y や Xi は数値であるが、そうで無い場合は順序値に置き換えても ,

外れ値が無ければ (大抵の場合 )大して問題無い。

● 「線形回帰」「多重回帰」であるが、非線形の多項式に置き換えて議論することは容易である :

X1^2 , X1 ×X2 を新しい X3, X4と見なせば良い。

● Y = f(Xi) + ε としてノイズ εはガウス分布を通常は仮定する。

AIC とは (1)

● AIC (赤池の情報量規準 ) は 1970年代に考案。

● 提案者の赤池弘次氏 (1927-2009)は 2006年に京都賞を受賞。● 数万個の論文に引用されている。● 日本発の統計学への貢献としては、下記と並ぶようだ。 -> 田口玄一氏のタグチメソッド

直交表による工業製品の品質管理

AIC とは (2)

Akaike's Information Criterion :

次の値 (ペナルティ )が最小となるようなモデルを採択する。各モデルの AIC

= -2*(最大化対数尤度 L)+2*(説明変数の個数 p)

- モデルは予測式の候補のこと。- p は予測式の変数の個数 = 重みパラメータの個数- 対数はネイピア数 e=2.71828.. を底とする。- 尤度 (ゆうど ) とは観測した証拠から前提が成り立つ確率- L は、各モデルについて、

パラメータを調整して最大化した '予測式の尤度の対数 '

AIC とは (3)

AIC の良いところ :

- 過剰適合 (オーバーフィッティング )を防ぐことができる

- アルゴリズムを作れば、自動計算によって変数を選択し、その重みも自動的に計算できる。 -> '客観的に ' モデルを選ぶことができるので、統計学 /確率論 /数学に詳しくないユーザー ( 例 : 社会学 /経済学 /医学 /工場で働いている人など ) が容易に使うことができる。Information Criterion としては、他に BIC, TIC, GIC, MDL などがある。

自由度 1のカイ 2 乗分布 (χ2分布 )

- 標準正規分布 (標準ガウス分布 )に従う確率変数の 2乗の値として、生成される確率変数。- 平均 1,分散 2 ( √標準偏差 2 = 1.41421356.. )

- 確率密度関数は下記の様になる (x 0)≧ 。

前置きは以上

主張したいこと

モデルにランダムな変数を 1個追加で最大化対数尤度がどれだけ上がるか ?

R言語で以下を行った。 1. X1,X2,Yを標準正規分布からそれぞれ独立に 100個生成。 2. Yの X1 による回帰と Yの X1と X2による回帰をそれぞれ行う。 3. それぞれの最大化対数尤度の差の 2倍を求める。 4. 上記を 1万回繰り返し、値をヒストグラムにする。 5. 自由度 1のカイ二乗分布の密度関数 (赤 ) を重ねた。 6. もっと厳密に比較するために 1.-3.を 1000回反復した上の qqplotを 3回行った。

ランダムな 1個の変数追加による最大化対数尤度の増分はその 2 倍の値が、確率分布自由度 1の χ2 分布に従う。

- 理論的に示すことも可能 - R言語で数値実験的に確かめることもできた。

ところで AIC(Model) = -2L + 2p であった。(1) あるモデル(2) 独立にランダムな 1個の説明変数を追加したモデル

(1)と (2)がそれぞれ AICが小さくなる確率は ?

モデル (2)は明らかに (1)より意味のないモデルであるが、一定の確率でモデル (2)が選択されてしまう。

R言語で計算> pchisq( q=2 , df=1 )0.8427008

> 1 - pchisq( q=2 , df=1 )0.1572992

ちなみに、標準ガウス分布で -√2 以下となる確率の 2倍> pnorm(-sqrt(2)) * 2 0.1572992

ということで、15.73%の確率で全く余計な変数でも取り込まれてしまう

話は以上。

参考文献にすべきと思われるもの :

[1] 情報量規準 [2] R 言語のサイト

Documents

AICはモデルに無相関な説明変数を1個追加しても15.73%の確率で選択してしまうことのR言語による数値実験的実証最大化対数尤度の増分がカイ2乗分布に従うことを通して)