中心に扱う問題 Lasso と ℓ1 罰則項
1 中心に扱う問題Lasso と ℓ1 罰則項Lasso とスパース性Elastic Net
池田 (統計数理研究所) 関連する手法 4/Aug/2009 2 / 52
中心に扱う問題 Lasso と ℓ1 罰則項
準備 ℓ0, ℓ1, ℓ2 ノルム
ノルム
ここでは x = (x1, · · · , xn)t に対する以下のノルムを用いる.
‖x‖ℓ0 =∣
∣{x, xi 6= 0}∣
∣ 0 でない成分の数
‖x‖ℓ1 =n
∑
i=1
|xi|
‖x‖ℓ2 =(
n∑
i=1
x2i
)1/2
池田 (統計数理研究所) 関連する手法 4/Aug/2009 2 / 52
中心に扱う問題 Lasso と ℓ1 罰則項
基本となる問題
Lasso の推定問題: 制約付きの重回帰
min∥
∥y −Xβ∥
∥
2
ℓ2subject to
∥
∥β∥
∥
ℓ1≤ s
Lasso の推定問題: 罰則付きの重回帰
ある λ > 0 に対して,以下の最適値を与える {βj} を解とする.
min[
∥
∥y −Xβ∥
∥
2
ℓ2+ λ
∥
∥β∥
∥
ℓ1
]
.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 3 / 52
中心に扱う問題 Lasso と ℓ1 罰則項
正則化項と最尤推定
モデル
yi = β0 + β1xi1 + · · ·+ βpxip + ǫi =
p∑
j=0
βjxij + ǫi i = 1, · · · , N
j = 0, · · · , p がパラメータ,i = 1, · · · , N がサンプルを示す添字である.また,i によらず x0i = 1 とおく.
Lasso の推定問題: 制約付きの重回帰
min∥
∥y −Xβ∥
∥
2
ℓ2subject to
∥
∥β∥
∥
ℓ1≤ s
Tibshirani, (1996). “Regression shrinkage and selection via the Lasso,” J. R.Statist. Soc. B, 58(1), 267-288.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 4 / 52
中心に扱う問題 Lasso と ℓ1 罰則項
正則化項と最尤推定
Lasso の推定問題: 罰則付きの重回帰
ある λ > 0 に対して,以下の最適値を与える {βj} を解とする.
min[
∥
∥y −Xβ∥
∥
2
ℓ2+ λ
∥
∥β∥
∥
ℓ1
]
.
全ての λ, 0 ≤ λ <∞ に対して s ≥ 0 であるような s が必ずひとつ存在し,双方とも同じ解を与える.以下では,この形を基本として進める.
Osbourne, Presnell & Turlach (1999). “On the LASSO and its dual,” J.Computational and Graphical Statistics, 9, 319-337.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 5 / 52
中心に扱う問題 Lasso とスパース性
1 中心に扱う問題Lasso と ℓ1 罰則項Lasso とスパース性Elastic Net
池田 (統計数理研究所) 関連する手法 4/Aug/2009 6 / 52
中心に扱う問題 Lasso とスパース性
Lasso とスパース (疎)性
Lasso の問題
ある λ > 0 に対して,以下の最適値を与える {βj} を解とする.
min[
∥
∥y −Xβ∥
∥
2
ℓ2+ λ
∥
∥β∥
∥
ℓ1
]
.
y の次元 n と β の次元 p の関係について考える.n ≥ p のとき,X の rank が n ならば β の成分のうち 0 でない 成分の数は 0 個 (λ→∞ で)から p 個まで変化する.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 6 / 52
中心に扱う問題 Lasso とスパース性
Lasso とスパース (疎)性
n < p のとき,
X = (x1, · · · ,xp) の p 個の列ベクトルから任意の n 個をとってきたとき,どのようにとってきても,必ず一次独立となると仮定する.
X
{n
{np
池田 (統計数理研究所) 関連する手法 4/Aug/2009 7 / 52
中心に扱う問題 Lasso とスパース性
Lasso とスパース (疎)性
β の成分のうち 0 でない成分の数は 0 個 (λ→∞ で)から n 個まで変化する.n は p よりも小さいから,解は疎であることになる.
Osbourne, Presnell & Turlach (1999). “On the LASSO and its dual,” J.Computational and Graphical Statistics, 9, 319-337.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 8 / 52
中心に扱う問題 Lasso とスパース性
ℓ2 罰則項
ℓ2 罰則項の問題
ある λ > 0 に対して,以下の最適値を与える {βj} を解とする.
min[
∥
∥y −Xβ∥
∥
2
ℓ2+ λ
∥
∥β∥
∥
2
ℓ2
]
.
min[
∥
∥y −Xβ∥
∥
2
ℓ2+ λ
∥
∥β∥
∥
2
ℓ2
]
=yty + minβ
(
βt(XtX + λI)β − 2ytXβ)
この問題は次にようにかける
β =(
XtX + λI)
−1Xty
β の 0 でない成分の数は一般に p となる.解は疎ではない.池田 (統計数理研究所) 関連する手法 4/Aug/2009 9 / 52
中心に扱う問題 Elastic Net
正則化項と最尤推定
Lasso の推定問題: 罰則付きの重回帰
ある λ > 0 に対して,以下の最適値を与える {βj} を解とする.
min[
∥
∥y −Xβ∥
∥
2
ℓ2+ λ
∥
∥β∥
∥
ℓ1
]
.
ℓ2 罰則項
ある λ > 0 に対して,以下の最適値を与える {βj} を解とする.
min[
∥
∥y −Xβ∥
∥
2
ℓ2+ λ
∥
∥β∥
∥
2
ℓ2
]
.
両方ともに良い点がある.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 10 / 52
中心に扱う問題 Elastic Net
Elastic Net
Elastic net
ある λ1, λ2 > 0 に対して,以下の最適値を与える {βj} を解とする.
min[
∥
∥y −Xβ∥
∥
2
ℓ2+ λ2
∥
∥β∥
∥
2
ℓ2+ λ1
∥
∥β∥
∥
ℓ1
]
.
Zou & Hastie (2005). “Regularization and variable selection via the elasticnet,” J. R. Statist. Soc. B, 67, 301-320.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 11 / 52
関連する問題 地震学
地震学
最適化問題
ψ1(r) =∥
∥r∥
∥
ℓ1+ λ
∥
∥Fr − g∥
∥
ℓ1
ψ3(r) =∥
∥r∥
∥
ℓ1+ λ
∥
∥Fr − g∥
∥
2
ℓ2
池田 (統計数理研究所) 関連する手法 4/Aug/2009 12 / 52
関連する問題 地震学
地震学
マイクで受けとる信号を g(t) とすると,
g(t) =
∫ t
0f(t− τ)r(τ)dt = f ∗ r(t)
f(t) はスピーカーからの音に対応し,r(t) はインパルス応答に対応する.時間方向に離散化して,
g(i∆t) =∑
j
f((i− j + 1)∆t)r(j∆t)
池田 (統計数理研究所) 関連する手法 4/Aug/2009 14 / 52
関連する問題 地震学
地震学
F = (Fij), Fij = f((i− j + 1)∆t),
r = (r1, · · · , rn)t, ri = r(i∆t),
g = (g1, · · · , gn)t, gi = g(i∆t)
とおくと
g(i∆t) =∑
j
f((i− j + 1)∆t)r(j∆t)
gi =∑
j
Fijrj
g = Fr.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 15 / 52
関連する問題 地震学
地震学
r の成分は反射が起る時にしか成分がないことから,ほとんどが 0 であると仮定できる.
0time
r(t)
池田 (統計数理研究所) 関連する手法 4/Aug/2009 16 / 52
関連する問題 地震学
地震学
このとき,r を求める方法として,以下のコスト関数の最小化が提案された.
ψ1(r) =∥
∥r∥
∥
ℓ1+ λ
∥
∥Fr − g∥
∥
ℓ1
Taylor, Banks, & McCoy (1979). “Deconvolution with the ℓ1 norm,”Geophysics, 44(1), 39-52.
さらに発展したものが提案された.
ψ3(r) =∥
∥r∥
∥
ℓ1+ λ
∥
∥Fr − g∥
∥
2
ℓ2
Santosa & Symes (1986). “Linear inversion of band-limited reflectionseismograms,” SIAM J. Sci. Stat. Comput., 7(4), 1307-1330.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 17 / 52
関連する問題 地震学
地震学
これを書き換えれば
ψ3(r) =∥
∥r∥
∥
ℓ1+ λ
∥
∥Fr − g∥
∥
2
ℓ2
=∥
∥g − Fr∥
∥
2
ℓ2+
1
λ
∥
∥r∥
∥
ℓ1
これを最小にする問題は
r = arg minr
[
∥
∥g − Fr∥
∥
2
ℓ2+
1
λ
∥
∥r∥
∥
ℓ1
]
Lasso と同じ形をしている.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 18 / 52
関連する問題 ニューラルネットワーク
2 関連する問題地震学ニューラルネットワーク画像圧縮Compressed Sensing
池田 (統計数理研究所) 関連する手法 4/Aug/2009 19 / 52
関連する問題 ニューラルネットワーク
ニューラルネットワーク
最適化問題
θ = arg minθJǫ(θ)
Jǫ(θ) = J(θ) + ǫ∥
∥θ∥
∥
ℓ1
池田 (統計数理研究所) 関連する手法 4/Aug/2009 19 / 52
関連する問題 ニューラルネットワーク
ニューラルネットワーク
典型的な三層パーセプトロンでは,
F (x;θ) =∑
i
vif(
wi · x)
という関数によって y を近似する.ただし θ は wij と vi をまとめて表現したもの.ここで wi = (wi1, · · · , wim),また
f(x) =ex
1 + ex
というシグモイド関数を用いることが多い.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 21 / 52
関連する問題 ニューラルネットワーク
ニューラルネットワーク
パラメータの推定
複数のサンプル {yt,xt} からパラメータ {vj} {wij} を学習する.y = (y1, · · · , yn)t, F ({x};θ) =
(
F (x1;θ), F (x2;θ), · · · , F (xn;θ))t
J(θ) =∥
∥y − F ({x};θ)∥
∥
2
ℓ2
という評価関数を用いて,これを小さくする vi や wij を選ぶ.
具体的にはバックプロパゲーションを用いる.
バックプロパゲーション
vj ← vj − η∂J(θ)
∂vj, wij ← wij − η
∂J(θ)
∂wij
池田 (統計数理研究所) 関連する手法 4/Aug/2009 22 / 52
関連する問題 ニューラルネットワーク
ニューラルネットワーク
J ではなく,Jǫ を用いる方法が提案された.
Ishikawa (1996)
Jǫ(θ) = J(θ) + ǫ∥
∥θ∥
∥
ℓ1
Ishikawa (1996). “Structural learning with forgetting,” Neural Networks,9(3), 509-521.
Ishikawa (1994). “Structural learning and its applications to rule extraction,”Proceedings of ICNN’94, 354-359.
Ishikawa (1989). “A structural learning algorithm with forgetting of linkweights,” Proceedings of IJCNN.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 23 / 52
関連する問題 ニューラルネットワーク
ニューラルネットワーク: 忘却を伴う学習法
‖ · ‖ℓ1 の項を付け加えるといくつかのパラメータが 0 となる (忘却).以下で説明する
Ishikawa (1996)
∂Jǫ(θ)
∂θk=∂J(θ)
∂θk+ ǫ sgn(θk)
池田 (統計数理研究所) 関連する手法 4/Aug/2009 24 / 52
関連する問題 ニューラルネットワーク
ニューラルネットワーク: 忘却を伴う学習法
Jǫ
Jǫ を最小にする θi を求めると.ǫ と J の関係によって,θi = 0 が最適解となる.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 26 / 52
関連する問題 ニューラルネットワーク
ニューラルネットワーク: 忘却を伴う学習法
−ǫ ≤ ∂J
∂θi
∣
∣
∣
∣
θi=0
≤ ǫ
微分係数が小さいときパラメータは 0 で極小値をとる.
ネットワークの構造を学習できる
池田 (統計数理研究所) 関連する手法 4/Aug/2009 27 / 52
関連する問題 ニューラルネットワーク
ニューラルネットワーク: 忘却を伴う学習法
Ishikawa (1996), Neural Networks, 9(3), 509-521
ǫ = 0 ǫ > 0
パラメータの値ではなく,J の微分値によってパラメータが 0 となる.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 28 / 52
関連する問題 ニューラルネットワーク
ニューラルネットワークからロジスティック回帰へ
仮りに一層のパーセプトロンを考えると,ロジスティック回帰と同様の形をしている.
f(
w · x)
=ew·x
1 + ew·x
これは x の値のよって [0, 1] の値を取る.Y という確率変数の分布を
p(y|x;w) =ew·x
1 + ew·x
として表現する.したがって,Ishikawa (1996) と同様に忘却項を入れれば,ロジステック回帰の変数選択法となる.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 29 / 52
関連する問題 ニューラルネットワーク
ニューラルネットワークからロジスティック回帰へ
対数尤度は
L(w) =∑
t
logeytw·xt
1 + ew·xt
であるから,
w = arg minw
[
L(w) + λ∥
∥w∥
∥
ℓ1
]
を最小にすれば良い.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 30 / 52
関連する問題 ニューラルネットワーク
カーネルロジスティック回帰へ
今,x をそのまま入力として使っているが,ここにカーネル関数 k(xi,x)を使うこともできるだろう.カーネルとしては例えば
k(xi,x) = exp(
−‖x− xi‖22σ2
)
.
たとえば w · x の代わりに∑
i
wik(xi,x) = w · k(x), where k(x) = (k(xi,x), · · · , k(xn,x))t
という関数を用いれば,
池田 (統計数理研究所) 関連する手法 4/Aug/2009 31 / 52
関連する問題 ニューラルネットワーク
カーネルロジスティック回帰へ
対数尤度は
L(w) =∑
t
logeytw·k(xt)
1 + ew·k(xt)
であるから,
w = arg minw
[
L(w) + λ∥
∥w∥
∥
ℓ1
]
として推定ができる.この問題に関しては比較的高速な学習法も提案されている.
Krishnapuram, Carin, Figueiredo, & Hartemink (2005). “Sparse multinomiallogistic regression: Fast algorithms and generalization bounds,” IEEE tr.PAMI, 27(6), 957-968.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 32 / 52
関連する問題 画像圧縮
画像圧縮
最適化問題
β = arg minβ
[
∥
∥
∥I−
∑
k
βkφk
∥
∥
∥
2
ℓ2+ λ
∥
∥β∥
∥
ℓ1
]
池田 (統計数理研究所) 関連する手法 4/Aug/2009 33 / 52
関連する問題 画像圧縮
画像圧縮
画像を基底の線形和で表現する.
I(i, j) ≃ β1φ1(i, j) + φ2(i, j) + · · ·+ βnφn(i, j).
≃ β1 + β1 + · · ·+ βn .
このとき,基底をしっていれば {βi} が画像の表現となる.
β = arg minβ
[
∥
∥
∥I−
∑
k
βkφk
∥
∥
∥
2
ℓ2+ λ
∥
∥β∥
∥
ℓ1
]
λ を変化させると多くの βi が 0 となる.すると画像を圧縮できる.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 34 / 52
関連する問題 Compressed Sensing
2 関連する問題地震学ニューラルネットワーク画像圧縮Compressed Sensing
池田 (統計数理研究所) 関連する手法 4/Aug/2009 43 / 52
関連する問題 Compressed Sensing
Compressed Sensing
最適化問題
minx
∥
∥x∥
∥
ℓ1, subject to y = Ax.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 43 / 52
関連する問題 Compressed Sensing
Lasso から Compressed Sensing へ
minx
[
∥
∥x∥
∥
ℓ1+ λ
∥
∥y −Ax∥
∥
2
ℓ2
]
この問題で λ を無限に大きくすれば,
minx
∥
∥x∥
∥
ℓ1, subject to y = Ax.
y の次元 n が x の次元 p に関して n ≥ p,かつ A の rank が p ならばy = Ax の解は,存在するならば唯一.したがって,最小化問題は意味を成さない.n < p ならば一般に y = Ax の解は複数存在する.その中から
∥
∥x∥
∥
ℓ1を最小とする x を求める.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 44 / 52
関連する問題 Compressed Sensing
Lasso から Compressed Sensing へ
x が “対象”であり,我々はその対象を “観測 (sensing)”したい.最終的には観測結果から対象を再構成したい.x を “1回”観測するとは A の行ベクトル a(l) = (al1, · · · , alp) を x に乗じる.すなわち,
yl = a(l)x
を得ることであるとする.これらを複数観測したときに,x を復元したい.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 45 / 52
関連する問題 Compressed Sensing
Lasso から Compressed Sensing へ
全ての観測をまとめたものが y
y = Ax
観測の回数 n が p と等しければ,A−1 を用いて x は必ず復元できる.nをどれくらい少なくできるかが重要.
Compresseed sensing
Donoho (2006). “Compressed sensing,” IEEE tr. IT, 52(4), 1289-1306.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 46 / 52
関連する問題 Compressed Sensing
仮定
常に Compressed Sensing が可能なわけではない.x の成分のうち,S < p個のみが成分をもち,残りが 0 の場合を考える.次の問題を考える.
P0: ℓ0最適化
min∥
∥x∥
∥
ℓ0, subject to y = Ax.
Chen, Donoho, & Saunders (1998). “Atomic decomposition by basispursuit,” SIAM J. on Sci. Comp., 20(1), 33-61.
Candes & Tao (2007). “The Dantzig selector: Statistical estimation when pis much larger than n,” Annals of Statistics, 35, 2313-2351.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 47 / 52
関連する問題 Compressed Sensing
仮定
P0 が唯一の解を持つ条件が明らかになってきた.その準備として,重要な考え方,RIP (Restricted isometry property) を定義する.
Definition: RIP
x のうち 2S 個だけが値をもち,残りが 0 だとする.このとき次の不等式を満たす δ があるとき A は RIP(2S, δ) があると言う.
(1− δ)∥
∥x∥
∥
ℓ2≤
∥
∥Ax∥
∥
ℓ2≤ (1 + δ)
∥
∥x∥
∥
ℓ2
for all∥
∥x∥
∥
ℓ0= 2S
池田 (統計数理研究所) 関連する手法 4/Aug/2009 48 / 52
関連する問題 Compressed Sensing
仮定
ℓ0 復元定理
S ≥ 1 とする.A は RIP を持ち δ2S < 1 を満たすと仮定する.‖x‖ℓ0 ≤ S なる任意の x ∈ ℜp について y = Ax とするとき,
min∥
∥x∥
∥
ℓ0, subject to y = Ax.
は唯一の解を持つ.
しかし,この最適化は x のうちどの成分が 0 でないかを見つけなければならない.これは pCS の組み合わせを全て調べる必要がある.これは計算量的に不可能.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 49 / 52
関連する問題 Compressed Sensing
ℓ1 最適化へ.
P1: ℓ1最適化
min∥
∥x∥
∥
ℓ1, subject to y = Ax.
P1 は線形計画法 (LP) で容易に解ける.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 50 / 52
関連する問題 Compressed Sensing
ℓ1 復元定理
ℓ1 復元定理: Candes & Tao (2007)
S ≥ 1 とする.A は RIP を持ち δ2S ≤√
2− 1 を満たすと仮定する.このとき
min∥
∥x∥
∥
ℓ1, subject to y = Ax.
と
min∥
∥x∥
∥
ℓ0, subject to y = Ax.
の解は一致する.
池田 (統計数理研究所) 関連する手法 4/Aug/2009 51 / 52