Upload
lorant
View
36
Download
0
Embed Size (px)
DESCRIPTION
学習者. W をどう しよう?. p(y|x,w). 先生. Y= 8,6,2 … でしょう. q(y|x). …. 文字の例. q(x). …. x 3 x 2 x 1. 複雑な学習モデルと代数幾何の関係について 渡辺澄夫. p(y|x,w). 複雑な学習モデル. x. y. x. y. 学習し 推論する. 外から見えない部分が あると,何が起こる?. (1) 何がわかるか 学習モデル ⇔ 確率的複雑さ (2) どうやって計算するか (3) 何の役にたつか. 理論. 必要. 順 問題. - PowerPoint PPT Presentation
Citation preview
Y= 8,6,2…でしょう
…q(y|x)
q(x)
先生
x 3 x 2 x 1
文字の例
…p(y|x,w)
W をどう しよう?
学習者
複雑な学習モデルと代数幾何の関係について 渡辺複雑な学習モデルと代数幾何の関係について 渡辺澄夫澄夫
p(y|x,w)
(1) 何がわかるか学習モデル ⇔ 確率的複雑さ (2) どうやって計算するか (3) 何の役にたつか
学習し推論する 外から見えない部分が
あると,何が起こる?
x y x y
複雑な学習モデル
学習理論の目的は…
逆問題 先生:不明
⇒ 例 (x1,y1) (x2,y2) … (xn,yn)
◎ 先生は何だろう ◎ 予測をあてたい
実用
順問題先生: q(y|x) :分かっている
⇒ 例 (x1,y1) (x2,y2) … (xn,yn)
◎ 学習者 p(y|x,w) は,どれくらい先生に近い?
理論必要
第1話 「確率的複雑さ」とは何だろう
q(x) x⇒ 1, x2, …, xn
q(y|x) y⇒ 1, y2, …, yn
例入力
先生
学習モデル p(y|x,w) :学習モデル φ(w) :事前分布
p(w| 例 ) Π p( y∝ i | xi , w) φ (w)i=1
n学習の結果 得られる W の分布
p(y|x, 例 ) = p(y|x,w) p(w| 例 ) dw∫新しい x に 対する 予測 y は
推論 q(y|x) と p(y|x) の距離
K( q || p ) = q(y|x) log --------- q(x) dxdy∫ ∫ q(y|x)
p(y|x)
( Kullback 情報量)
順問題の目標 - 学習曲線を解明せよ
K(n) ≡ E { K ( q || p(y|x, 例 ) ) }
例の現れ方の平均を表す
先生から 「例を元に学習した人」 までの距離 K(n) が例の数 n が多くなるとき、どのように小さくなってゆくか?
n
K(n)学習曲線汎化誤差
Hn (w) ≡ ---- ∑ log --------------経験距離
q(yi | xi)
p(yi | xi, w)
1n i=1
n 先生から学習者までの距離を例を使って測ったもの
H(w) ≡ K ( q || p(y|x,w) ) W を固定したときのカルバック距離
距離
確率的複雑さ
F( 例 ) ≡ - log Z (例)
∫
F(n) = E { F( 例 ) }
Z (例)= exp ( - n Hn (w) ) φ(w) dw おおよそ正しいパラメータの体積証拠,分配関数
確率的複雑さ= Z (例)のオーダーベイズ因子(統計)自由エネルギー(物理)
注意: p(w| 例 ) exp( -n H∝ n(w)) φ(w)
定理( Levin, Tishby, Solla, 1990 ; Amari, Murata 1993)
K(n) = F(n+1) - F(n)
◎ 学習曲線は、確率的複雑さの増加分に等しい 順問題を解くためには,確率的複雑さを計算すればよい
◎ 確率的複雑さはパラメータ空間の幾何学と 緊密な関係がある(体積だから)
◎ 正則な統計モデルでは,学習者が先生を含んでいれば F(n) = (d/2) log n K(n) = d/(2n) (d: パラメータ数)
◎ 学習者が先生を含んでいなければ F(n) = n C (C = minw H(w))
第2話 確率的複雑さと代数幾何
モデルの複雑さ
F (例) 学習者は先生を含んでいる
学習者は 先生を 含んで いない
学習者はおおよそ先生を含んでいる
???
関数近似の 問題
確率的複雑さ
? を考える
入力 X
パラメ|タ w
学習モデル
パラメータ空間 W
A
CB
小さいモデル
中間のモデル
大きいモデル
出力 Y
学習モデルが作る空間
W
H(w) = 0
◎ 学習者から見ると,「先生」は,特異点を持つ 解析的集合のように見える.どうしよう?
先生のパラメータ
学習者
p(w| 例 ) exp( -n H∝ n(w)) φ(w)
学習者のパラメータの分布
超関数の漸近展開
解析接続
b- 関数
特異点解消
代数解析
代数幾何
超関数
Sato Bernstein
Gel’fand
Hironaka
Atiyah
Kashiwara
計算機代数
Oaku
Pure Math.
H(w)z
exp(- nH(w))
学習理論
情報理論
統計学
統計物理
実世界
Applied Math.
δ( t -H(w))
広中の定理 (1964)
H(w)
パラメータの集合 W
実数
g
別のパラメータ空間 U
特異的でないものが交わっているだけ
先生のパラメータはこんがらがった特異点を持っている
H(g(u)) = a(u) u12k1 u2
2k2 …ud2kd
局所的に
Fields Medal
∫ x2z ψ(x) dx = Σ ----------------1
0
Ψ(k)(0)
k! (2z+k+1)k=0
例:超関数の展開
x2z = Σ --------------------(-1)k δ(k)(x)
2 ・ k! (z+(k+1)/2)
定義
k=0
δ(t-x2) = Σ ---- δ(k)(x) t (k-1)/2(-1) k
2 ・ k!
∫( ) tzdt
k=0
H(g(u)) = a(u) u12k1 u2
2k2 …ud2kd
U の空間では,特異点は解消されている:
J(z) = ∫ H(g(u)) z |g’(u)| ψ(u) du
任意の ψ(u) について有理型関数(極は負の有理数)
学習モデルのゼータ関数
H(g(u))z |g’(u)| = Σ Σ --------------Dλm(u)
(z+λ)m
極を (- λ) ,位数を m とすると,先生にサポートを持つ超関数
H(g(u))z |g’(u)| = Σ Σ --------------Dλm(u)
(z+λ)m
Mellin 変換:
(Mf)( z)=∫f(t) tz dt
逆 Mellin 変換
δ(t-H(g(u))) |g’(u)| = Σ Σ tλ-1(-log t)m-1 Dλm(u)
カルバック情報量→0のときのパラメータの様子が表現されている
Z (例) = ∫ exp[- nHn(g(u))] φ(u) |g’(u)| du
= ∫ exp[-nH(g(u))] exp[ (nH(w))1/2 Gn(u) ] φ(u) |g’(u)| du
= ∫ ∫ δ(t - nH(g(u))) exp[- t +t1/2 Gn(u) ] φ(u) |g’(u)| du dt
確率的複雑さは…
先生の上の正規確率過程 G(u) に弱収束 ( Empirical Process)
Z (例) ⇒ Σ Σ ----------- Zλm(Gn) nλ
(log n)m-1
代入
確率変数に収束
定理 F(n) = λlog n - (m-1) log log n + Const.
K(n) = ----- - --------λ
n
m-1
n log n
◎ φ(w) が先生の上で正値なら 0< λ << d/2
◎ φ(w) [det I(w)]∝ 1/2 : Jeffreys 事前分布なら λ d/2 ≧ (三層 NN のとき λ= d/2 )
◎ 隠れた部分を持つ学習モデルについて初めて解明された
◎ λ , m はゼータ J(z) = ∫H(w)z φ(w)dw の極と位数
◎ ブローアップする毎に, λ の上限が得られる
第3話 確率的複雑さは何の役にたつか?
(1) 複雑なモデルの学習曲線の解明
A
CB
先生 ABC
例数
確率的複雑さ
ABC
例数
学習曲線
特異点は複雑なモデルが実世界上で生きて行く上で役立つ
F( 例 | θ) ≡ - log exp ( - n Hn (w) ) φ(w| θ) dw∫
(2)ハイパーパラメータの最適化
事前分布: φ(w| θ)
これは θ の(-対数尤度)
⇒ F( 例 | θ) の最小化によって θ を決める ( Type II ML)
◎ 予測精度向上に役立つ 中間ユニットは,ほぼ1次従属の状態になる。
◎ モデル選択も,同じ枠組み(モデルが θ )
モデルの複雑さ モデルの複雑さ
確率的複雑さ
平均汎化誤差
先生が含まれているときはJeffreys によって,先生が見つかる
確率的複雑さの増加分が予測誤差と対応する
(3) モデル選択
Jeffreys
一様
Jeffreys
最尤推定
一様
まとめ
隠れた部分を持つ学習モデルは 特定不能である
パラメータ空間は,特異な計量を持つ
(1) 確率的複雑さ - 学習を測る道具
(2) 学習 - 代数幾何と関係がある
(3) 複雑モデル+ベイズ - 応用上 有効である
確率的複雑さの揺らぎ - 経験確率過程論
温度0極限 - 最尤、MAP
問題