Download pdf - 関連する手法について - 統計数理研究所shiro/papers/etc/2009.08.kouza1.pdf · 関連する問題ニューラルネットワークニューラルネットワーク

関連する手法について

池田思朗

統数研

4 August 2009

池田 (統計数理研究所) 関連する手法 4/Aug/2009 1 / 52

中心に扱う問題 Lasso と ℓ1 罰則項

1 中心に扱う問題Lasso と ℓ1 罰則項Lasso とスパース性Elastic Net



準備 ℓ0, ℓ1, ℓ2 ノルム

ノルム

ここでは x = (x1, · · · , xn)t に対する以下のノルムを用いる．

‖x‖ℓ0 =∣

∣{x, xi 6= 0}∣

∣ 0 でない成分の数

‖x‖ℓ1 =n

∑

i=1

|xi|

‖x‖ℓ2 =(

n∑

i=1

x2i

)1/2



基本となる問題

Lasso の推定問題: 制約付きの重回帰

min∥

∥y −Xβ∥

∥

2

ℓ2subject to

∥

∥β∥

∥

ℓ1≤ s

Lasso の推定問題: 罰則付きの重回帰

ある λ > 0 に対して，以下の最適値を与える {βj} を解とする．

min[

∥

∥y −Xβ∥

∥

2

ℓ2+ λ

∥

∥β∥

∥

ℓ1

]

.



正則化項と最尤推定

モデル

yi = β0 + β1xi1 + · · ·+ βpxip + ǫi =

p∑

j=0

βjxij + ǫi i = 1, · · · , N

j = 0, · · · , p がパラメータ，i = 1, · · · , N がサンプルを示す添字である．また，i によらず x0i = 1 とおく．

Lasso の推定問題: 制約付きの重回帰

min∥

∥y −Xβ∥

∥

2

ℓ2subject to

∥

∥β∥

∥

ℓ1≤ s

Tibshirani, (1996). “Regression shrinkage and selection via the Lasso,” J. R.Statist. Soc. B, 58(1), 267-288.






min[

∥

∥y −Xβ∥

∥

2

ℓ2+ λ

∥

∥β∥

∥

ℓ1

]

.

全ての λ, 0 ≤ λ <∞ に対して s ≥ 0 であるような s が必ずひとつ存在し，双方とも同じ解を与える．以下では，この形を基本として進める．

Osbourne, Presnell & Turlach (1999). “On the LASSO and its dual,” J.Computational and Graphical Statistics, 9, 319-337.


中心に扱う問題 Lasso とスパース性

1 中心に扱う問題Lasso と ℓ1 罰則項Lasso とスパース性Elastic Net



Lasso とスパース (疎)性

Lasso の問題


min[

∥

∥y −Xβ∥

∥

2

ℓ2+ λ

∥

∥β∥

∥

ℓ1

]

.

y の次元 n と β の次元 p の関係について考える．n ≥ p のとき，X の rank が n ならば β の成分のうち 0 でない成分の数は 0 個 (λ→∞ で)から p 個まで変化する．




n < p のとき，

X = (x1, · · · ,xp) の p 個の列ベクトルから任意の n 個をとってきたとき，どのようにとってきても，必ず一次独立となると仮定する．

X

{n

{np




β の成分のうち 0 でない成分の数は 0 個 (λ→∞ で)から n 個まで変化する．n は p よりも小さいから，解は疎であることになる．

Osbourne, Presnell & Turlach (1999). “On the LASSO and its dual,” J.Computational and Graphical Statistics, 9, 319-337.



ℓ2 罰則項

ℓ2 罰則項の問題


min[

∥

∥y −Xβ∥

∥

2

ℓ2+ λ

∥

∥β∥

∥

2

ℓ2

]

.

min[

∥

∥y −Xβ∥

∥

2

ℓ2+ λ

∥

∥β∥

∥

2

ℓ2

]

=yty + minβ

(

βt(XtX + λI)β − 2ytXβ)

この問題は次にようにかける

β =(

XtX + λI)

−1Xty

β の 0 でない成分の数は一般に p となる．解は疎ではない．池田 (統計数理研究所) 関連する手法 4/Aug/2009 9 / 52

中心に扱う問題 Elastic Net




min[

∥

∥y −Xβ∥

∥

2

ℓ2+ λ

∥

∥β∥

∥

ℓ1

]

.

ℓ2 罰則項


min[

∥

∥y −Xβ∥

∥

2

ℓ2+ λ

∥

∥β∥

∥

2

ℓ2

]

.

両方ともに良い点がある．


中心に扱う問題 Elastic Net

Elastic Net

Elastic net

ある λ1, λ2 > 0 に対して，以下の最適値を与える {βj} を解とする．

min[

∥

∥y −Xβ∥

∥

2

ℓ2+ λ2

∥

∥β∥

∥

2

ℓ2+ λ1

∥

∥β∥

∥

ℓ1

]

.

Zou & Hastie (2005). “Regularization and variable selection via the elasticnet,” J. R. Statist. Soc. B, 67, 301-320.


関連する問題地震学

2 関連する問題地震学ニューラルネットワーク画像圧縮Compressed Sensing



地震学

最適化問題

ψ1(r) =∥

∥r∥

∥

ℓ1+ λ

∥

∥Fr − g∥

∥

ℓ1

ψ3(r) =∥

∥r∥

∥

ℓ1+ λ

∥

∥Fr − g∥

∥

2

ℓ2



地震学



地震学

マイクで受けとる信号を g(t) とすると，

g(t) =

∫ t

0f(t− τ)r(τ)dt = f ∗ r(t)

f(t) はスピーカーからの音に対応し，r(t) はインパルス応答に対応する．時間方向に離散化して，

g(i∆t) =∑

j

f((i− j + 1)∆t)r(j∆t)



地震学

F = (Fij), Fij = f((i− j + 1)∆t),

r = (r1, · · · , rn)t, ri = r(i∆t),

g = (g1, · · · , gn)t, gi = g(i∆t)

とおくと

g(i∆t) =∑

j

f((i− j + 1)∆t)r(j∆t)

gi =∑

j

Fijrj

g = Fr.



地震学

r の成分は反射が起る時にしか成分がないことから，ほとんどが 0 であると仮定できる．

0time

r(t)



地震学

このとき，r を求める方法として，以下のコスト関数の最小化が提案された．

ψ1(r) =∥

∥r∥

∥

ℓ1+ λ

∥

∥Fr − g∥

∥

ℓ1

Taylor, Banks, & McCoy (1979). “Deconvolution with the ℓ1 norm,”Geophysics, 44(1), 39-52.

さらに発展したものが提案された．

ψ3(r) =∥

∥r∥

∥

ℓ1+ λ

∥

∥Fr − g∥

∥

2

ℓ2

Santosa & Symes (1986). “Linear inversion of band-limited reflectionseismograms,” SIAM J. Sci. Stat. Comput., 7(4), 1307-1330.



地震学

これを書き換えれば

ψ3(r) =∥

∥r∥

∥

ℓ1+ λ

∥

∥Fr − g∥

∥

2

ℓ2

=∥

∥g − Fr∥

∥

2

ℓ2+

1

λ

∥

∥r∥

∥

ℓ1

これを最小にする問題は

r = arg minr

[

∥

∥g − Fr∥

∥

2

ℓ2+

1

λ

∥

∥r∥

∥

ℓ1

]

Lasso と同じ形をしている．


関連する問題ニューラルネットワーク




ニューラルネットワーク

最適化問題

θ = arg minθJǫ(θ)

Jǫ(θ) = J(θ) + ǫ∥

∥θ∥

∥

ℓ1




y を x の関数として表現する．




典型的な三層パーセプトロンでは，

F (x;θ) =∑

i

vif(

wi · x)

という関数によって y を近似する．ただし θ は wij と vi をまとめて表現したもの．ここで wi = (wi1, · · · , wim)，また

f(x) =ex

1 + ex

というシグモイド関数を用いることが多い．




パラメータの推定

複数のサンプル {yt,xt} からパラメータ {vj} {wij} を学習する．y = (y1, · · · , yn)t, F ({x};θ) =

(

F (x1;θ), F (x2;θ), · · · , F (xn;θ))t

J(θ) =∥

∥y − F ({x};θ)∥

∥

2

ℓ2

という評価関数を用いて，これを小さくする vi や wij を選ぶ．

具体的にはバックプロパゲーションを用いる．

バックプロパゲーション

vj ← vj − η∂J(θ)

∂vj, wij ← wij − η

∂J(θ)

∂wij




J ではなく，Jǫ を用いる方法が提案された．

Ishikawa (1996)

Jǫ(θ) = J(θ) + ǫ∥

∥θ∥

∥

ℓ1

Ishikawa (1996). “Structural learning with forgetting,” Neural Networks,9(3), 509-521.

Ishikawa (1994). “Structural learning and its applications to rule extraction,”Proceedings of ICNN’94, 354-359.

Ishikawa (1989). “A structural learning algorithm with forgetting of linkweights,” Proceedings of IJCNN.



ニューラルネットワーク: 忘却を伴う学習法

‖ · ‖ℓ1 の項を付け加えるといくつかのパラメータが 0 となる (忘却)．以下で説明する

Ishikawa (1996)

∂Jǫ(θ)

∂θk=∂J(θ)

∂θk+ ǫ sgn(θk)




J ǫ|θi|




Jǫ

Jǫ を最小にする θi を求めると．ǫ と J の関係によって，θi = 0 が最適解となる．




−ǫ ≤ ∂J

∂θi

∣

∣

∣

∣

θi=0

≤ ǫ

微分係数が小さいときパラメータは 0 で極小値をとる．

ネットワークの構造を学習できる




Ishikawa (1996), Neural Networks, 9(3), 509-521

ǫ = 0 ǫ > 0

パラメータの値ではなく，J の微分値によってパラメータが 0 となる．



ニューラルネットワークからロジスティック回帰へ

仮りに一層のパーセプトロンを考えると，ロジスティック回帰と同様の形をしている．

f(

w · x)

=ew·x

1 + ew·x

これは x の値のよって [0, 1] の値を取る．Y という確率変数の分布を

p(y|x;w) =ew·x

1 + ew·x

として表現する．したがって，Ishikawa (1996) と同様に忘却項を入れれば，ロジステック回帰の変数選択法となる．



ニューラルネットワークからロジスティック回帰へ

対数尤度は

L(w) =∑

t

logeytw·xt

1 + ew·xt

であるから，

w = arg minw

[

L(w) + λ∥

∥w∥

∥

ℓ1

]

を最小にすれば良い．



カーネルロジスティック回帰へ

今，x をそのまま入力として使っているが，ここにカーネル関数 k(xi,x)を使うこともできるだろう．カーネルとしては例えば

k(xi,x) = exp(

−‖x− xi‖22σ2

)

.

たとえば w · x の代わりに∑

i

wik(xi,x) = w · k(x), where k(x) = (k(xi,x), · · · , k(xn,x))t

という関数を用いれば，



カーネルロジスティック回帰へ

対数尤度は

L(w) =∑

t

logeytw·k(xt)

1 + ew·k(xt)

であるから，

w = arg minw

[

L(w) + λ∥

∥w∥

∥

ℓ1

]

として推定ができる．この問題に関しては比較的高速な学習法も提案されている．

Krishnapuram, Carin, Figueiredo, & Hartemink (2005). “Sparse multinomiallogistic regression: Fast algorithms and generalization bounds,” IEEE tr.PAMI, 27(6), 957-968.


関連する問題画像圧縮




画像圧縮

最適化問題

β = arg minβ

[

∥

∥

∥I−

∑

k

βkφk

∥

∥

∥

2

ℓ2+ λ

∥

∥β∥

∥

ℓ1

]



画像圧縮

画像を基底の線形和で表現する．

I(i, j) ≃ β1φ1(i, j) + φ2(i, j) + · · ·+ βnφn(i, j).

≃ β1 + β1 + · · ·+ βn .

このとき，基底をしっていれば {βi} が画像の表現となる．

β = arg minβ

[

∥

∥

∥I−

∑

k

βkφk

∥

∥

∥

2

ℓ2+ λ

∥

∥β∥

∥

ℓ1

]

λ を変化させると多くの βi が 0 となる．すると画像を圧縮できる．




基底




基の画像



λ = 0.1

0でない係数の割合 0.9765



λ = 1




λ = 10




λ = 100




λ = 1000




λ = 10000

0 でない係数の割合 0.0246


関連する問題 Compressed Sensing




Compressed Sensing

最適化問題

minx

∥

∥x∥

∥

ℓ1, subject to y = Ax.



Lasso から Compressed Sensing へ

minx

[

∥

∥x∥

∥

ℓ1+ λ

∥

∥y −Ax∥

∥

2

ℓ2

]

この問題で λ を無限に大きくすれば，

minx

∥

∥x∥

∥


y の次元 n が x の次元 p に関して n ≥ p，かつ A の rank が p ならばy = Ax の解は，存在するならば唯一．したがって，最小化問題は意味を成さない．n < p ならば一般に y = Ax の解は複数存在する．その中から

∥

∥x∥

∥

ℓ1を最小とする x を求める．




x が “対象”であり，我々はその対象を “観測 (sensing)”したい．最終的には観測結果から対象を再構成したい．x を “1回”観測するとは A の行ベクトル a(l) = (al1, · · · , alp) を x に乗じる．すなわち，

yl = a(l)x

を得ることであるとする．これらを複数観測したときに，x を復元したい．




全ての観測をまとめたものが y

y = Ax

観測の回数 n が p と等しければ，A−1 を用いて x は必ず復元できる．nをどれくらい少なくできるかが重要．

Compresseed sensing

Donoho (2006). “Compressed sensing,” IEEE tr. IT, 52(4), 1289-1306.



仮定

常に Compressed Sensing が可能なわけではない．x の成分のうち，S < p個のみが成分をもち，残りが 0 の場合を考える．次の問題を考える．

P0: ℓ0最適化

min∥

∥x∥

∥


Chen, Donoho, & Saunders (1998). “Atomic decomposition by basispursuit,” SIAM J. on Sci. Comp., 20(1), 33-61.

Candes & Tao (2007). “The Dantzig selector: Statistical estimation when pis much larger than n,” Annals of Statistics, 35, 2313-2351.



仮定

P0 が唯一の解を持つ条件が明らかになってきた．その準備として，重要な考え方，RIP (Restricted isometry property) を定義する．

Definition: RIP

x のうち 2S 個だけが値をもち，残りが 0 だとする．このとき次の不等式を満たす δ があるとき A は RIP(2S, δ) があると言う．

(1− δ)∥

∥x∥

∥

ℓ2≤

∥

∥Ax∥

∥

ℓ2≤ (1 + δ)

∥

∥x∥

∥

ℓ2

for all∥

∥x∥

∥

ℓ0= 2S



仮定

ℓ0 復元定理

S ≥ 1 とする．A は RIP を持ち δ2S < 1 を満たすと仮定する．‖x‖ℓ0 ≤ S なる任意の x ∈ ℜp について y = Ax とするとき，

min∥

∥x∥

∥


は唯一の解を持つ．

しかし，この最適化は x のうちどの成分が 0 でないかを見つけなければならない．これは pCS の組み合わせを全て調べる必要がある．これは計算量的に不可能．



ℓ1 最適化へ．

P1: ℓ1最適化

min∥

∥x∥

∥


P1 は線形計画法 (LP) で容易に解ける．



ℓ1 復元定理

ℓ1 復元定理: Candes & Tao (2007)

S ≥ 1 とする．A は RIP を持ち δ2S ≤√

2− 1 を満たすと仮定する．このとき

min∥

∥x∥

∥


と

min∥

∥x∥

∥


の解は一致する．



A の作り方

問題となるのは A はどうやって作るか．

Aij ∼ N (0, 1)

Aij ∼ ±1 with probability 1/2

のようにランダムに作ることで，RIP(2S,√

2− 1) を高い確率で持つように構成できる．


Download pdf - 関連する手法について - 統計数理研究所shiro/papers/etc/2009.08.kouza1.pdf · 関連する問題 ニューラルネットワーク ニューラルネットワーク

Download pdf - 関連する手法について - 統計数理研究所shiro/papers/etc/2009.08.kouza1.pdf · 関連する問題ニューラルネットワークニューラルネットワーク