Y= ８，６，２ … でしょう

Y= ８，６，２…でしょう

…q(y|x)

q(x)

先生

x ３　 x ２　 x １

文字の例

…p(y|x,w)

W をどう　しよう？

学習者

複雑な学習モデルと代数幾何の関係について　　渡辺複雑な学習モデルと代数幾何の関係について　　渡辺澄夫澄夫

p(y|x,w)

　　　　　　　　　　　　　　　　　　　　　 (1) 何がわかるか学習モデル ⇔ 確率的複雑さ　　　 (2) どうやって計算するか　　　　　　　　　　　　　　　　　　　　　 (3) 何の役にたつか

　学習し推論する外から見えない部分が

あると，何が起こる？

x y x y

複雑な学習モデル

学習理論の目的は…

逆問題先生：不明

⇒ 　　例 (x1,y1) (x2,y2) 　… (xn,yn)

◎ 　先生は何だろう　　◎　予測をあてたい

実用

順問題先生： q(y|x) ：分かっている

⇒ 　例 (x1,y1) (x2,y2) 　… (xn,yn)

◎ 　学習者 p(y|x,w) は，どれくらい先生に近い？

理論必要

第１話　「確率的複雑さ」とは何だろう

q(x) x⇒ 1, x2, …, xn

q(y|x) y⇒ 1, y2, …, yn

例入力

先生

学習モデル　　 p(y|x,w) ：学習モデル　 φ(w) ：事前分布

p(w| 例 ) Π p( y∝ i | xi , w) φ (w)i=1

n学習の結果　得られる　 W の分布

p(y|x, 例 ) = p(y|x,w) p(w| 例 ) dw∫新しい x に　　対する　予測 y は

推論 q(y|x) と p(y|x) の距離

K( q || p ) = q(y|x) log --------- q(x) dxdy∫ ∫ q(y|x)

p(y|x)

（ Kullback 情報量）

順問題の目標　－　学習曲線を解明せよ

K(n) ≡ E { K ( q || p(y|x, 例 ) ) }

例の現れ方の平均を表す

先生から　「例を元に学習した人」　までの距離 K(n) が例の数 n が多くなるとき、どのように小さくなってゆくか？

n

K(n)学習曲線汎化誤差

Hn (w) ≡ ---- ∑ log --------------経験距離

q(yi | xi)

p(yi | xi, w)

1n i=1

n 先生から学習者までの距離を例を使って測ったもの

H(w) ≡ K ( q || p(y|x,w) ) W を固定したときのカルバック距離

距離

確率的複雑さ

F( 例 ) 　≡ - log Z （例）

∫

F(n) = E { F( 例 ) }

Z （例）＝ exp ( - n Hn (w) ) φ(w) dw おおよそ正しいパラメータの体積証拠，分配関数

確率的複雑さ＝ Z （例）のオーダーベイズ因子（統計）自由エネルギー（物理）

注意： p(w| 例 ) exp( -n H∝ n(w)) φ(w)

定理（ Levin, Tishby, Solla, 1990 ; Amari, Murata 1993)

K(n) = F(n+1) - F(n)

◎ 　学習曲線は、確率的複雑さの増加分に等しい順問題を解くためには，確率的複雑さを計算すればよい

◎ 　確率的複雑さはパラメータ空間の幾何学と　　　緊密な関係がある（体積だから）

◎ 　正則な統計モデルでは，学習者が先生を含んでいれば　　　　　　　　　　 F(n) = (d/2) log n 　　　　　　　　　　 K(n) = d/(2n) (d: パラメータ数）

◎ 　学習者が先生を含んでいなければ　　　　　　　　　　　　　 F(n) = n C 　　 (C = minw H(w))

第２話　確率的複雑さと代数幾何

モデルの複雑さ

F （例）学習者は先生を含んでいる

学習者は　先生を　含んで　　いない

学習者はおおよそ先生を含んでいる

???

関数近似の　問題

確率的複雑さ

? 　を考える

入力 X

パラメ｜タ w

学習モデル

パラメータ空間　 W

A

CB

小さいモデル

中間のモデル

大きいモデル

出力Ｙ

学習モデルが作る空間

W

H(w) = 0

◎ 　学習者から見ると，「先生」は，特異点を持つ　　　解析的集合のように見える．どうしよう？

先生のパラメータ

学習者

p(w| 例 ) exp( -n H∝ n(w)) φ(w)

学習者のパラメータの分布

超関数の漸近展開

解析接続

b- 関数

特異点解消

代数解析

代数幾何

超関数

Sato　　　 Bernstein

Gel’fand

Hironaka

Atiyah

Kashiwara

計算機代数

Oaku

Pure Math.

H(w)z

exp(- nH(w))

学習理論

情報理論

統計学

統計物理

実世界

Applied Math.

δ( t -H(w))

広中の定理 (1964)

H(w)

パラメータの集合 W

実数

g

別のパラメータ空間　 U

特異的でないものが交わっているだけ

先生のパラメータはこんがらがった特異点を持っている

H(g(u)) 　　 = a(u) u12k1 u2

2k2 …ud2kd

局所的に

Fields Medal

∫ x2z ψ(x) dx = Σ ----------------1

0

Ψ(k)(0)

k! (2z+k+1)k=0

例：超関数の展開

x2z = Σ --------------------(-1)k δ(k)(x)

2 ･ k! (z+(k+1)/2)

定義

k=0

δ(t-x2) = Σ ---- δ(k)(x) t (k-1)/2(-1) k

2 ･ k!

∫( ) tzdt

k=0

H(g(u)) = a(u) u12k1 u2

2k2 …ud2kd

U の空間では，特異点は解消されている：

J(z) = ∫ H(g(u)) z |g’(u)| ψ(u) du

任意の ψ(u) について有理型関数（極は負の有理数）

学習モデルのゼータ関数

H(g(u))z |g’(u)| = Σ Σ --------------Dλm(u)

(z+λ)m

極を (- λ) ，位数を m とすると，先生にサポートを持つ超関数

H(g(u))z |g’(u)| = Σ Σ --------------Dλm(u)

(z+λ)m

Mellin 変換：

(Mf)( z)=∫f(t) tz dt

逆 Mellin 変換

δ(t-H(g(u))) |g’(u)| = Σ Σ tλ-1(-log t)m-1 Dλm(u)

カルバック情報量→０のときのパラメータの様子が表現されている

Z （例） = ∫ exp[- nHn(g(u))] φ(u) |g’(u)| du

= ∫ exp[-nH(g(u))] exp[ (nH(w))1/2 Gn(u) ] φ(u) |g’(u)| du

= ∫ ∫ δ(t - nH(g(u))) exp[- t +t1/2 Gn(u) ] φ(u) |g’(u)| du dt

確率的複雑さは…

先生の上の正規確率過程 G(u) に弱収束　　（ Empirical Process)

Z （例） ⇒ Σ Σ ----------- Zλm(Gn) nλ

(log n)m-1

代入

確率変数に収束

定理 F(n) = λlog n - (m-1) log log n + Const.

K(n) = ----- - --------λ

n

m-1

n log n

◎ 　 φ(w) が先生の上で正値なら　 0< λ << d/2

◎ 　 φ(w) [det I(w)]∝ 1/2 : Jeffreys 事前分布なら　　　　　　 λ d/2 ≧ 　　（三層 NN のとき λ= d/2 ）

◎ 　隠れた部分を持つ学習モデルについて初めて解明された

◎ 　 λ ， m はゼータ　 J(z) = ∫H(w)z φ(w)dw 　の極と位数

◎ 　ブローアップする毎に， λ の上限が得られる

第３話　確率的複雑さは何の役にたつか？

(1) 複雑なモデルの学習曲線の解明

A

CB

先生 ABC

例数

確率的複雑さ

ABC

例数

学習曲線

特異点は複雑なモデルが実世界上で生きて行く上で役立つ

F( 例 | θ) 　≡ - log 　 exp ( - n Hn (w) ) φ(w| θ) dw∫

（２）ハイパーパラメータの最適化

事前分布： φ(w| θ)

これは θ の（－対数尤度）

⇒ 　 F( 例 | θ) の最小化によって θ を決める（ Type II ML)

◎ 　予測精度向上に役立つ　　　中間ユニットは，ほぼ１次従属の状態になる。　

◎ 　モデル選択も，同じ枠組み（モデルが θ ）

モデルの複雑さモデルの複雑さ

確率的複雑さ

平均汎化誤差

先生が含まれているときはJeffreys によって，先生が見つかる

確率的複雑さの増加分が予測誤差と対応する

（３）　モデル選択

Jeffreys

一様

Jeffreys

最尤推定

一様

まとめ

隠れた部分を持つ学習モデルは　特定不能である

パラメータ空間は，特異な計量を持つ

（１）　確率的複雑さ　－　学習を測る道具

（２）　学習　－　代数幾何と関係がある

（３）　複雑モデル＋ベイズ　－　応用上　有効である

確率的複雑さの揺らぎ　－　経験確率過程論

　　　　　　　温度０極限　－　最尤、ＭＡＰ

問題

Documents

Y= ８，６，２ … でしょう