21
Y= 8,6,2 でででで q(y|x) q(x) でで x x x でででで p(y|x,w) W ででで でででででで 複複複複複複複複複複複複複複複複複複複複 複複複複 複複複複複複複複複複複複複複複複複複複複 複複複複

Y= 8,6,2 … でしょう

  • Upload
    lorant

  • View
    36

  • Download
    0

Embed Size (px)

DESCRIPTION

学習者. W をどう  しよう?. p(y|x,w). 先生. Y= 8,6,2 … でしょう. q(y|x). …. 文字の例. q(x). …. x 3  x 2  x 1. 複雑な学習モデルと代数幾何の関係について  渡辺澄夫. p(y|x,w). 複雑な学習モデル. x. y. x. y.  学習し 推論する. 外から見えない部分が あると,何が起こる?. (1) 何がわかるか 学習モデル ⇔ 確率的複雑さ (2) どうやって計算するか (3) 何の役にたつか. 理論. 必要. 順 問題. - PowerPoint PPT Presentation

Citation preview

Page 1: Y= 8,6,2 … でしょう

Y= 8,6,2…でしょう

…q(y|x)

q(x)

先生

x 3  x 2  x 1

文字の例

…p(y|x,w)

W をどう しよう?

学習者

複雑な学習モデルと代数幾何の関係について  渡辺複雑な学習モデルと代数幾何の関係について  渡辺澄夫澄夫

Page 2: Y= 8,6,2 … でしょう

p(y|x,w)

                      (1) 何がわかるか学習モデル ⇔ 確率的複雑さ    (2) どうやって計算するか                      (3) 何の役にたつか

 学習し推論する 外から見えない部分が

あると,何が起こる?

x y x y

複雑な学習モデル

Page 3: Y= 8,6,2 … でしょう

学習理論の目的は…

逆問題 先生:不明

⇒   例 (x1,y1) (x2,y2)  … (xn,yn)

◎  先生は何だろう  ◎ 予測をあてたい

実用

順問題先生: q(y|x) :分かっている

⇒  例 (x1,y1) (x2,y2)  … (xn,yn)

◎  学習者 p(y|x,w) は,どれくらい先生に近い?

理論必要

Page 4: Y= 8,6,2 … でしょう

第1話 「確率的複雑さ」とは何だろう

q(x) x⇒ 1, x2, …, xn

q(y|x) y⇒ 1, y2, …, yn

例入力

先生

学習モデル   p(y|x,w) :学習モデル  φ(w) :事前分布

p(w| 例 ) Π p( y∝ i | xi , w) φ (w)i=1

n学習の結果 得られる  W の分布

p(y|x, 例 ) = p(y|x,w) p(w| 例 ) dw∫新しい x に  対する 予測 y は

Page 5: Y= 8,6,2 … でしょう

推論 q(y|x) と p(y|x) の距離

K( q || p ) = q(y|x) log --------- q(x) dxdy∫ ∫ q(y|x)

p(y|x)

( Kullback 情報量)

順問題の目標 - 学習曲線を解明せよ

K(n) ≡ E { K ( q || p(y|x, 例 ) ) }

例の現れ方の平均を表す

先生から 「例を元に学習した人」 までの距離 K(n) が例の数 n が多くなるとき、どのように小さくなってゆくか?

n

K(n)学習曲線汎化誤差

Page 6: Y= 8,6,2 … でしょう

Hn (w) ≡ ---- ∑ log --------------経験距離

q(yi | xi)

p(yi | xi, w)

1n i=1

n 先生から学習者までの距離を例を使って測ったもの

H(w) ≡ K ( q || p(y|x,w) ) W を固定したときのカルバック距離

距離

確率的複雑さ

F( 例 )  ≡ - log Z (例)

F(n) = E { F( 例 ) }

Z (例)= exp ( - n Hn (w) ) φ(w) dw おおよそ正しいパラメータの体積証拠,分配関数

確率的複雑さ= Z (例)のオーダーベイズ因子(統計)自由エネルギー(物理)

注意: p(w| 例 ) exp( -n H∝ n(w)) φ(w)

Page 7: Y= 8,6,2 … でしょう

定理( Levin, Tishby, Solla, 1990 ; Amari, Murata 1993)

K(n) = F(n+1) - F(n)

◎  学習曲線は、確率的複雑さの増加分に等しい 順問題を解くためには,確率的複雑さを計算すればよい

◎  確率的複雑さはパラメータ空間の幾何学と   緊密な関係がある(体積だから)

◎  正則な統計モデルでは,学習者が先生を含んでいれば            F(n) = (d/2) log n             K(n) = d/(2n) (d: パラメータ数)

◎  学習者が先生を含んでいなければ              F(n) = n C    (C = minw H(w))

Page 8: Y= 8,6,2 … でしょう

第2話 確率的複雑さと代数幾何

モデルの複雑さ

F (例) 学習者は先生を含んでいる

学習者は 先生を  含んで   いない

学習者はおおよそ先生を含んでいる

???

関数近似の 問題

確率的複雑さ

?  を考える

Page 9: Y= 8,6,2 … でしょう

入力 X

パラメ|タ w

学習モデル

パラメータ空間  W

A

CB

小さいモデル

中間のモデル

大きいモデル

出力 Y

学習モデルが作る空間

Page 10: Y= 8,6,2 … でしょう

W

H(w) = 0

◎  学習者から見ると,「先生」は,特異点を持つ   解析的集合のように見える.どうしよう?

先生のパラメータ

学習者

p(w| 例 ) exp( -n H∝ n(w)) φ(w)

学習者のパラメータの分布

Page 11: Y= 8,6,2 … でしょう

超関数の漸近展開

解析接続

b- 関数

特異点解消

代数解析

代数幾何

超関数

Sato    Bernstein

Gel’fand

Hironaka

Atiyah

Kashiwara

計算機代数

Oaku

Pure Math.

H(w)z

exp(- nH(w))

学習理論

情報理論

統計学

統計物理

実世界

Applied Math.

δ( t -H(w))

Page 12: Y= 8,6,2 … でしょう

広中の定理 (1964)

H(w)

パラメータの集合 W

実数

g

別のパラメータ空間  U

特異的でないものが交わっているだけ

先生のパラメータはこんがらがった特異点を持っている

H(g(u))    = a(u) u12k1 u2

2k2 …ud2kd

局所的に

Fields Medal

Page 13: Y= 8,6,2 … でしょう

∫ x2z ψ(x) dx = Σ ----------------1

0

Ψ(k)(0)

k! (2z+k+1)k=0

例:超関数の展開

x2z = Σ --------------------(-1)k δ(k)(x)

2 ・ k! (z+(k+1)/2)

定義

k=0

δ(t-x2) = Σ ---- δ(k)(x) t (k-1)/2(-1) k

2 ・ k!

∫( ) tzdt

k=0

Page 14: Y= 8,6,2 … でしょう

H(g(u)) = a(u) u12k1 u2

2k2 …ud2kd

U の空間では,特異点は解消されている:

J(z) = ∫ H(g(u)) z |g’(u)| ψ(u) du

任意の ψ(u) について有理型関数(極は負の有理数)

学習モデルのゼータ関数

H(g(u))z |g’(u)| = Σ Σ --------------Dλm(u)

(z+λ)m

極を (- λ) ,位数を m とすると,先生にサポートを持つ超関数

Page 15: Y= 8,6,2 … でしょう

H(g(u))z |g’(u)| = Σ Σ --------------Dλm(u)

(z+λ)m

Mellin 変換:

(Mf)( z)=∫f(t) tz dt

逆 Mellin 変換

δ(t-H(g(u))) |g’(u)| = Σ Σ tλ-1(-log t)m-1 Dλm(u)

カルバック情報量→0のときのパラメータの様子が表現されている

Page 16: Y= 8,6,2 … でしょう

Z (例) = ∫ exp[- nHn(g(u))] φ(u) |g’(u)| du

= ∫ exp[-nH(g(u))] exp[ (nH(w))1/2 Gn(u) ] φ(u) |g’(u)| du

= ∫ ∫ δ(t - nH(g(u))) exp[- t +t1/2 Gn(u) ] φ(u) |g’(u)| du dt

確率的複雑さは…

先生の上の正規確率過程 G(u) に弱収束  ( Empirical Process)

Z (例) ⇒ Σ Σ ----------- Zλm(Gn) nλ

(log n)m-1

代入

確率変数に収束

Page 17: Y= 8,6,2 … でしょう

定理 F(n) = λlog n - (m-1) log log n + Const.

K(n) = ----- - --------λ

n

m-1

n log n

◎   φ(w) が先生の上で正値なら  0< λ << d/2

◎   φ(w) [det I(w)]∝ 1/2 : Jeffreys 事前分布なら       λ d/2 ≧   (三層 NN のとき λ= d/2 )

◎  隠れた部分を持つ学習モデルについて初めて解明された

◎   λ , m はゼータ  J(z) = ∫H(w)z φ(w)dw  の極と位数

◎  ブローアップする毎に, λ の上限が得られる

Page 18: Y= 8,6,2 … でしょう

第3話 確率的複雑さは何の役にたつか?

(1) 複雑なモデルの学習曲線の解明

A

CB

先生 ABC

例数

確率的複雑さ

ABC

例数

学習曲線

特異点は複雑なモデルが実世界上で生きて行く上で役立つ

Page 19: Y= 8,6,2 … でしょう

F( 例 | θ)  ≡ - log   exp ( - n Hn (w) ) φ(w| θ) dw∫

(2)ハイパーパラメータの最適化

事前分布: φ(w| θ)

これは θ の(-対数尤度)

⇒   F( 例 | θ) の最小化によって θ を決める ( Type II ML)

◎  予測精度向上に役立つ   中間ユニットは,ほぼ1次従属の状態になる。 

◎  モデル選択も,同じ枠組み(モデルが θ )

Page 20: Y= 8,6,2 … でしょう

モデルの複雑さ モデルの複雑さ

確率的複雑さ

平均汎化誤差

先生が含まれているときはJeffreys によって,先生が見つかる

確率的複雑さの増加分が予測誤差と対応する

(3) モデル選択

Jeffreys

一様

Jeffreys

最尤推定

一様

Page 21: Y= 8,6,2 … でしょう

まとめ

隠れた部分を持つ学習モデルは 特定不能である

パラメータ空間は,特異な計量を持つ

(1) 確率的複雑さ - 学習を測る道具

(2) 学習 - 代数幾何と関係がある

(3) 複雑モデル+ベイズ - 応用上 有効である

確率的複雑さの揺らぎ - 経験確率過程論

       温度0極限 - 最尤、MAP

問題