infomation geometry by R

Preview:

DESCRIPTION

 

Citation preview

R で情報幾

何@toddler2009

自己紹介• Twitter id: @toddler2009• はじめまして 遠路はるばるご苦労様です• 今回は会場係です

何でもお申し付けください• ひとりだけおっさんですみません _o_• あこがれの Tsukuba.R で発表できて光栄です• プログラミングは素人同然ですが許してくだ

さい

職業• 主夫(兼業)

ときどきけんきゅう

←これはやってません

本とか

絶版寸前?!

翻訳とか恐ろしいほどの売り上げ!

ネ申@shima__shima

ぷるむる!

R によるトイプロブレム研究• 単純モデル• 人工データ• 少数サンプルに基づく機械学習

R によるトイプロブレム研究

結論:お勧めしません

長所• 軽い計算• 低能プログラマでも OK• 理論がすごいと勘違い ------------------------短所• 多すぎるので省略

• 単純モデル• 人工データ• 少数サンプルに基づく機械学習

情報幾何

Q. ジョーホーキカって何ですか?

A.情報処理を絵で理解することです.

情報処理を絵で理解する ( 違

世の中

情報処理を絵で理解する

↓こういうことです

モデル

データ

情報処理

結果

スタート:世の中は確率分布です

• すべてのもの ( 例 :y_benjo) は確率分布である

• 確率分布はパラメータ θ で表される  → 座標で表しましょう

y_benjo

θ1

θ2

近い点と遠い点

等距離ですか?

y_benjo

θ1

θ2

mickey24 shima__shima

toddler2009

R で実験してみましょうアルゴリズム

• Step1: パラメータ θ を固定

• Step2: サンプル X 生成

• Step3: X からパラメータ推定 θ

• Step4: 推定値のばらつきをみる

^

離散分布の場合• 3 値•

独立な変数 2 個• 場所によって散

らばり方が違う

1210 qqq

正規分布の場合• 平均と標準偏差• 平均による違い

はない• 標準偏差が大き

いところのばらつきが大きい

トイプログラミングの理想と現実

• 理想

S4  オブジェクト指向・パッケージ化  いろいろな分布のクラスを定義  どんな分布のシミュレーションも OK

• 現実

スパゲティプログラミングでその場しのぎ

泥縄 R コード

infogeodemo <- function(p=c(0,1), N=1000, K=100, randfn=rnorm, aEstfn=mean, bEstfn=sd, xlab="mean", ylab="sdev") {    plot(range(p[,1]), range(p[,2]), type="n", xlab=xlab, ylab=ylab)    for (idx in 1:nrow(p)) {          p1 <- p[idx, 1]          p2 <- p[idx, 2]          r <- replicate(K, {               xsample <- randfn(N, p1, p2)               c(aEstfn(xsample), bEstfn(xsample))            })          points(t(r), pch='.', cex=2)   }    points(p, pch='+', col="red")}

パラメータ サンプル数実験回数

乱数生成関数

パラメータ推定関数

今日のデモは全部これでやります

乱数生成 +パラメータ推定

場所によって距離が違う

そもそもこいつは定義域外だったりする( 負の標準偏差とか )

y_benjo

θ1

θ2

mickey24 shima__shima

toddler2009

推定量の散らばり→距離• クラメールラオの不等式

• 推定量の散らばり具合で距離を決めよう  (散らばりの大きいところは距離が小さい)

• Gθ って何?

dGd T

11]ˆ[ GN

Var θ

統計界のヨーダ

フィッシャー情報行列• 分布のパラメータに対する敏感さ

・離散分布 θ=(q1, q2)   ・正規分布 θ= (μ, σ)

統計界の巨人

]),(log),(logE[ TxpxpG

200

010

111

111

qqq

qqqG

20

0112

G

確率分布は丸かった• 曲がった空間らしいということがわかっ

• なんかめんどくさいですね....

• 私もういいです... ユークリッド空間で...   by @ 地球平面協会

わかりましたなんとかしましょう

↑ この辺の神々のおかげ

世の中は指数分布族である• 指数分布族とは...

の形に書ける分布モデル• 離散分布も... θ=(q1, q2)

)()()(exp);(1

xCxFxpn

ii

i

)()(exp);(2

1

rixrxpi

i

0loglog qqr ii 0log)( qr 0)( xC

正規分布も

xxF )(1

2

2

2

2log2

1

2

)(exp),;(

x

xp

)()()(exp);(1

xCxFxpn

ii

i

21

22 )( xxF 2

2

21

22

2

2log2

1

2)(

0)( xC

θ でプロットしてみる  ・離散分布       ・正規分布

あまり変わった気がしない

とりあえず θ 座標系については平らということにします

平らとは?まっすぐな線が一次式で表される

距離の取り方は場所によって違ってもいい

なぜ平らとしていいかは微分幾何の知識が必要なので省略

部分空間への射影• 世の中=指数分布族の θ 座標• モデル= θ 座標の線形部分空間

• θ だけだと直交射影が一意的じゃない

世の中

モデル

データ

情報処理

結果

これだけでは

だめ

ライバル座標系登場• 座標系の取り方はいろいろ

θ だけ特別扱いはずるい• η でも平らってことにしよう

• 離散分布では確率値そのもの

• 正規分布ではモーメント

)(E xFii

ii qixE )]([

2222 E x xE1

二人合わせてピタゴラスの定理@情報幾何バージョン

ダイバージェンス

指数分布族の空間

q

)||()||()||( rqDqpDrpD

p

r

η での直線

θ での直線

dxxg

xfxfgfD

)(

)(log)()||(

射影定理• 部分空間が θ なら射影は η

部分空間が η なら射影は θ とすると一意的

指数分布族

q

p

部分空間 M

座標系を混ぜればまっすぐに見える))2/(1,/(),( 22

21 ),/(),( 22221

むりやりまとめ• η 座標で射影を下ろしたのは最尤推定• 情報幾何はまがったものをまっすぐ見る

ための技術

指数分布族

モデル

データ

最尤推定

結果

おまけQ : 混合分布や隠れマルコフモデルは指数

分布族ではないのでは ?A : 隠れている部分を潜在変数として入れ

ると指数分布になります

Q : ベイズとの関係A : 私もよくわからないので教えてくださ