Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
統計力学的アプローチによる リサンプリング手法の軽量化
小渕智之1 東工大 情報理工学院 数理計算科学系1
共同研究者 樺島祥介1
• 小渕 智之 (OBUCHI Tomoyuki) • 専門:統計物理学
• 東工大 物理学科→物性物理学専攻(2001-2010)
• アナログニューラルネットの数値的研究 (指導教員:椎野正寿)
• スピングラス平均場理論の数理的性質 (指導教員:西森秀稔)
• ポスドク(2010-2013)
• フラストレート磁性体の数値的研究 (阪大:川村光)
• 生態系の数理モデル研究 (阪大:時田惠一郎)
• 最大エントロピー法の数理的研究 (パリ高等師範学校:Remi Monasson)
• 東工大 情報理工学院 助教(2013~,樺島研究室)
• スパース推定,統計的逆問題・学習理論,量子系のダイナミクス
自己紹介
背景:機械学習と解釈性・信頼性• 問題設定:与えられたデータ入出力関数fを用いて, によくフィットするパラメータxを探す.
• 基本態度 • なるべく記述力が高くなるよう複雑なfも許す.パラメータもたくさん用意する.モデルをフィットするための労力は,計算機性能でなんとかする.
• 研究トレンド • アルゴリズム開発:最適なxをどう見つけるか.
• 従来法では不可能な大規模パラメータ探索を可能にして,大規模なデータを解析して,意味のあることを言う.
→解釈性,信頼性の議論が置き去りになりがち
DM = {(a1, y1), · · · (aM , yM )}y = f(a;x)
背景:機械学習と解釈性・信頼性• 研究トレンド
• アルゴリズム開発:最適なxをどう見つけるか.
• 従来法では不可能な大規模パラメータ探索を可能にして,大規模なデータを解析して,意味のあることを言う.
→解釈性,信頼性の議論が置き去りになりがち• 統計学を思い出す:交差検証,仮説検定,信頼区間 etc.
• まさに解釈・信頼性を議論する話が満載 • これらを現代的な機械学習モデルに適用?
• 計算量の問題 • そもそも最適化すら難しかった(だからアルゴリズム開発競争になってる) • その外側で数値的に検定とか組むのはしんどい
→ここを攻略することが次に重要になる(多分)
背景:機械学習と解釈性・信頼性• 研究トレンド
• アルゴリズム開発:最適なxをどう見つけるか.
• 従来法では不可能な大規模パラメータ探索を可能にして,大規模なデータを解析して,意味のあることを言う.
→解釈性,信頼性の議論が置き去りになりがち• 統計学を思い出す:交差検証,仮説検定,信頼区間 etc.
• まさに解釈・信頼性を議論する話が満載 • これらを現代的な機械学習モデルに適用?
• 計算量の問題 • そもそも最適化すら難しかった(だからアルゴリズム開発競争になってる) • その外側で数値的に検定とか組むのはしんどい
→ここを攻略することが次に重要になる(多分)
今日のトピック: 交差検証・ブートストラップ法で
必要な計算量を 近似で大幅に減らす
モデル:スパース線形回帰• 構造を持ったモデルだと理論解析が難しい
• 例:深層学習 • ので比較的単純だが記述力の高いモデルを考える →スパース線形回帰
• どのxiを使ってyをフィットするかの変数選択が必要(使わないxは0と置く)←スパース線形回帰
E.g. M=2, N=3
=M
(
(N
y1 = A11x1 +A12x2 +A13x3
y2 = A21x1 +A22x2 +A23x3
y = Ax
モデル:スパース線形回帰
• 正則化法による定式化( :正則化の場合)`0
: Standard form
: Lagrange form
E.g. M=2, N=3
=M
(
(N
y1 = A11x1 +A12x2 +A13x3
y2 = A21x1 +A22x2 +A23x3
y = Ax
minx
1
2||y �Ax||22 s.t. ||x||0 K = N⇢
x̂(�) = argminx
⇢1
2||y �Ax||22 + �||x||0
�
モデル:スパース線形回帰• 正則化法による定式化( :正則化の場合)`0
• 正則化は使いづらい(離散最適化が必要)→緩和法 • 代表的緩和: 緩和=LASSO
• コスト関数が凸,でも推定解はスパースになる
`0`1
: Standard form
: Lagrange form
minx
1
2||y �Ax||22 s.t. ||x||0 K = N⇢
x̂(�) = argminx
⇢1
2||y �Ax||22 + �||x||0
�
x̂(�) argmin
⇢1
2||y �Ax||22 + �||x||1
�
本日の内容1. LASSOにおける近似的交差検証法の開発
• TO and YK: J. Stat. Mech. (2016)
2. LASSOにおける近似的ブートストラップ法の開発 • TO and YK: arXiv:1802.10254
3. 余裕があれば他のモデルでの話もちょっと.
LASSO and
Approximate Cross Validation
C.f. TO and Y. Kabashima, J. Stat. Mech. (2016)
LASSOとハイパーパラメータ選択• LASSO (Lagrange form)
• 正則化項のパラメータ(λ)はどう決めるか?
• いくつかの流儀
• 情報量規準
• (経験)ベイズ法
• 交差検証法(Cross validation, (CV) )
x̂(�) = argminx
⇢1
2||y �Ax||22 + �||x||1
�H(x|y, A)⌘ :ハミルトニアン
交差検証法(CV)
Data
TestTraining
Test
Test
Test
• データをTraining setとTest setに分割 • Training Set でパラメータを訓練し • Test Setで予測能力を測る
Average
CV Error= 予測誤差の推定値
k等分に分割する方法をk-fold CV: k=10やk=M(=leave-one-out) がよく用いられる(左図はk=4) - kは大きい方が 精度はいいが計算量がかかるFold 1
Fold 2
Fold 3
Fold 4
交差検証法(CV)
Data
TestTraining
Test
Test
Test
• データをTraining setとTest setに分割 • Training Set でパラメータを訓練し • Test Setで予測能力を測る
Average
CV Error= 予測誤差の推定値
k等分に分割する方法をk-fold CV: k=10やk=M(=leave-one-out) がよく用いられる(左図はk=4) - kは大きい方が 精度はいいが計算量がかかるFold 1
Fold 2
Fold 3
Fold 4
CVを低計算量で できるようにしたい
LOOCVと線形応答近似• 1つ抜きCV(Leave-one-out CV, LOOCV)
←M回最適化 (計算量高)
H(x̂)�H(x̂� d) ⇡X
µ
h
µ(x̂) · d
x̂
\µ ⇡ x̂� �\µh
µ(x̂) �\µ =@ x̂\µ
@h,
• 線形応答近似 • 摂動の導出:コスト関数を について展開 • 応答係数(帯磁率) を計算:後述
d = x̂� x̂
\µ
�\µ
x̂
\µ(�) = argminx
8<
:1
2
X
⌫( 6=µ)
y⌫ �
X
i
A⌫ixi
!2
+ �||x||1
9=
;
✏LOO(�) =1
2M
X
µ
yµ �
X
i
Aµix̂\µi (�)
!
近似的交差検証公式• 線形近似+モデルの線形性+LOOEの定義式
++ ��1 = (�\µ)�1 + aµa>µ ✏LOO =
1
2M
MX
µ=1
yµ �
X
i
Aµix̂\µi
!2
• あとは、帯磁率が計算できるか否か • 正則化項に特異性が無ければ?
• コスト関数ヘシアンの逆: • LASSOの場合
• Active変数に関してのみの、コスト関数ヘシアンの逆 • Active変数集合は摂動で変化しないと仮定
x̂
\µ ⇡ x̂� �\µh
µ(x̂)
✏LOO ⇡ 1
2M
X
µ
0
@1�X
i,j
AµiAµj�ij
1
A�2
yµ �X
i
Aµix̂i
!2
� =⇣A>A
⌘�1
�SASA =⇣A>
⇤SAA⇤SA
⌘�1
近似的交差検証公式2つ
• Approx. 1
• Approx. 2=Approx.1 + aµのµに関する独立同分布性
1�X
i,j
AµiAµj�ij ⇡✓
↵
↵� ⇢(�)
◆�1
✏LOO ⇡ 1
2M
X
µ
0
@1�X
i,j
AµiAµj�ij
1
A�2
yµ �X
i
Aµix̂i
!2
�SASA =⇣A>
⇤SAA⇤SA
⌘�1
✏LOO ⇡ 1
2M
MX
µ=1
0
@1�X
i,j2SA
Aµi
⇣A
>⇤SA
A⇤SA
⌘�1
ijAµj
1
A�2
yµ �X
i
Aµix̂i
!2
✏LOO ⇡✓
↵
↵� ⇢
◆2 1
2M||y �Ax̂||22 =
✓↵
↵� ⇢
◆2
✏Train
↵ =M
N, ⇢(�) =
||x̂||0N
近似はいつ正しいか?• 重要な仮定:Active変数集合の不変性←実際は正しくない
• 変数の入れ替わりは 起こる(M~Nの仮定の元) • そのLOOEへの影響は ⇒N→∞では正しい
• N→∞での解析解との比較( )
O(pN)
O(pN
�1)
λ
0 0.2 0.4
LOO
(1)
, App
rox.
1
0
0.005
0.01
0.015
0.02
0.025
0.03
0.035
0.04
N=16N=32N=64N=128N=256N=512N=∞
λ
0 0.2 0.4
LOO
(1)
, App
rox.
2
0
0.005
0.01
0.015
0.02
0.025
0.03
0.035
0.04
N=16N=32N=64N=128N=256N=512N=∞
Aµi ⇠ N (0, N�1)
DEMO: Application to
SuperNovae Data Analysis
Application to SuperNovae data analysis• Type Ia supernovae produce consistent peak luminosity (absolute
magnitude at maximum) determined by “Chandrasekhar limit”. – In terms of the 0th approximation
• “Standard candle” of the Universe -> distance • “Accelerating expansion of the Universe”, Nobel prize in 2011
�Riess et al (2001)�
(red shift)�
Application to SuperNovae data analysis
Napolinano97�
(time: days)�
Light curve width�
Peak luminosity (magnitude at maximum) �
Candonau+87�
Color index�
• However, in reality, the peak luminosity varies owing to various factors.
• Two known major factors – “Light curve width” (radioactive decay) – “Color index” (interstellar extinction)
Application to SuperNovae data analysis• Calibration of the peak luminosity
http://heracles.astro.berkeley.edu/sndb/
M µ ≈ M 0 + Aµ ,1β1 + Aµ ,2β2 + Aµ ,3β3 +…+ Aµ ,276β276
µth data� const�
Color index�Light curve width�
Other candidates
• Berkeley supernova database • M=78, N=276 (cf. M. Uemura, K. S. Kawabata, S. Ikeda, K. Maeda (2015) )
-6 -5 -4 -3 -2 -10.050.1
0.15 Approx 1
-6 -5 -4 -3 -2 -1
CV e
rrors
0.050.1
0.15 Approx 2
log λ -6 -5 -4 -3 -2 -1
0.050.1
0.15 10-fold CV
Application to SuperNovae data analysis• Calibration of the peak luminosity
http://heracles.astro.berkeley.edu/sndb/
M µ ≈ M 0 + Aµ ,1β1 + Aµ ,2β2 + Aµ ,3β3 +…+ Aµ ,276β276
µth data� const�
Color index�Light curve width�
Other candidates
• Berkeley supernova database • M=78, N=276 (cf. M. Uemura, K. S. Kawabata, S. Ikeda, K. Maeda (2015) )
log λ -6 -5 -4 -3 -2 -1
CV er
rors
0.05
0.1
0.15
0.2Approx 1Approx 210-fold CV
-6 -5 -4 -3 -2 -10.050.1
0.15 Approx 1
-6 -5 -4 -3 -2 -1
CV e
rrors
0.050.1
0.15 Approx 2
log λ -6 -5 -4 -3 -2 -1
0.050.1
0.15 10-fold CV
Application to SuperNovae data analysis• Calibration of the peak luminosity
http://heracles.astro.berkeley.edu/sndb/
M µ ≈ M 0 + Aµ ,1β1 + Aµ ,2β2 + Aµ ,3β3 +…+ Aµ ,276β276
µth data� const�
Color index�Light curve width�
Other candidates
• Berkeley supernova database • M=78, N=276 (cf. M. Uemura, K. S. Kawabata, S. Ikeda, K. Maeda (2015) )
log λ -6 -5 -4 -3 -2 -1
CV er
rors
0.05
0.1
0.15
0.2Approx 1Approx 210-fold CV
Minimum+one-sigma rule gives K=6
10-fold App. 1 App. 231.6 s 3.2 s 2.85 s
Actual computational time:
まとめ1• LASSOの近似的交差検証公式の導出
• Approx1: O(N3) • Approx2: O(1)
• 人工・実データでの検証