統計力学的アプローチによるリサンプリング手法の …統計力学的アプローチによるリサンプリング手法の軽量化小渕智之1 東工大情報理工学院

統計力学的アプローチによるリサンプリング手法の軽量化

小渕智之1 東工大　情報理工学院　数理計算科学系1

共同研究者樺島祥介1

• 小渕智之 (OBUCHI Tomoyuki) • 専門：統計物理学

• 東工大物理学科→物性物理学専攻(2001-2010)

• アナログニューラルネットの数値的研究 (指導教員：椎野正寿)

• スピングラス平均場理論の数理的性質 (指導教員：西森秀稔)

• ポスドク(2010-2013)

• フラストレート磁性体の数値的研究 (阪大：川村光）

• 生態系の数理モデル研究 (阪大：時田惠一郎)

• 最大エントロピー法の数理的研究 (パリ高等師範学校：Remi Monasson)

• 東工大　情報理工学院　助教(2013～，樺島研究室)

• スパース推定，統計的逆問題・学習理論，量子系のダイナミクス

自己紹介

背景：機械学習と解釈性・信頼性• 問題設定：与えられたデータ入出力関数fを用いて，　　　　　によくフィットするパラメータxを探す．

• 基本態度 • なるべく記述力が高くなるよう複雑なfも許す．パラメータもたくさん用意する．モデルをフィットするための労力は，計算機性能でなんとかする．

• 研究トレンド • アルゴリズム開発：最適なxをどう見つけるか．

• 従来法では不可能な大規模パラメータ探索を可能にして，大規模なデータを解析して，意味のあることを言う．

　　　　　　　　　　→解釈性，信頼性の議論が置き去りになりがち

DM = {(a1, y1), · · · (aM , yM )}y = f(a;x)

背景：機械学習と解釈性・信頼性• 研究トレンド

• アルゴリズム開発：最適なxをどう見つけるか．


　　　　　　　　　　→解釈性，信頼性の議論が置き去りになりがち• 統計学を思い出す：交差検証，仮説検定，信頼区間 etc.

• まさに解釈・信頼性を議論する話が満載 • これらを現代的な機械学習モデルに適用？

• 計算量の問題 • そもそも最適化すら難しかった（だからアルゴリズム開発競争になってる) • その外側で数値的に検定とか組むのはしんどい

　　　　　　　　→ここを攻略することが次に重要になる（多分）

背景：機械学習と解釈性・信頼性• 研究トレンド

• アルゴリズム開発：最適なxをどう見つけるか．


　　　　　　　　　　→解釈性，信頼性の議論が置き去りになりがち• 統計学を思い出す：交差検証，仮説検定，信頼区間 etc.

• まさに解釈・信頼性を議論する話が満載 • これらを現代的な機械学習モデルに適用？

• 計算量の問題 • そもそも最適化すら難しかった（だからアルゴリズム開発競争になってる) • その外側で数値的に検定とか組むのはしんどい

　　　　　　　　→ここを攻略することが次に重要になる（多分）

今日のトピック：交差検証・ブートストラップ法で

必要な計算量を近似で大幅に減らす

モデル：スパース線形回帰• 構造を持ったモデルだと理論解析が難しい

• 例：深層学習 • ので比較的単純だが記述力の高いモデルを考える　　　　　　　　　　　　　　　　　　　→スパース線形回帰

• どのxiを使ってyをフィットするかの変数選択が必要（使わないxは０と置く）←スパース線形回帰

E.g. M=2, N=3

=M

(

(N

y1 = A11x1 +A12x2 +A13x3

y2 = A21x1 +A22x2 +A23x3

y = Ax

モデル：スパース線形回帰

• 正則化法による定式化( :正則化の場合)`0

: Standard form

: Lagrange form

E.g. M=2, N=3

=M

(

(N

y1 = A11x1 +A12x2 +A13x3

y2 = A21x1 +A22x2 +A23x3

y = Ax

minx

1

2||y �Ax||22 s.t. ||x||0 K = N⇢

x̂(�) = argminx

⇢1

2||y �Ax||22 + �||x||0

�

モデル：スパース線形回帰• 正則化法による定式化( :正則化の場合)`0

• 正則化は使いづらい（離散最適化が必要）→緩和法 • 代表的緩和：緩和=LASSO

• コスト関数が凸，でも推定解はスパースになる

`0`1

: Standard form

: Lagrange form

minx

1

2||y �Ax||22 s.t. ||x||0 K = N⇢

x̂(�) = argminx

⇢1

2||y �Ax||22 + �||x||0

�

x̂(�) argmin

⇢1

2||y �Ax||22 + �||x||1

�

本日の内容1. LASSOにおける近似的交差検証法の開発

• TO and YK: J. Stat. Mech. (2016)

2. LASSOにおける近似的ブートストラップ法の開発 • TO and YK: arXiv:1802.10254

3. 余裕があれば他のモデルでの話もちょっと．

LASSO and

Approximate Cross Validation

C.f. TO and Y. Kabashima, J. Stat. Mech. (2016)

LASSOとハイパーパラメータ選択• LASSO (Lagrange form)

• 正則化項のパラメータ(λ)はどう決めるか？

• いくつかの流儀

• 情報量規準

• (経験)ベイズ法

• 交差検証法(Cross validation, (CV) )

x̂(�) = argminx

⇢1

2||y �Ax||22 + �||x||1

�H(x|y, A)⌘ ：ハミルトニアン

交差検証法（CV）

Data

TestTraining

Test

Test

Test

• データをTraining setとTest setに分割 • Training Set でパラメータを訓練し • Test Setで予測能力を測る

Average

CV Error= 予測誤差の推定値

k等分に分割する方法をk-fold CV: k=10やk=M(=leave-one-out) がよく用いられる（左図はk=4） - kは大きい方が　　精度はいいが計算量がかかるFold 1

Fold 2

Fold 3

Fold 4

交差検証法（CV）

Data

TestTraining

Test

Test

Test

• データをTraining setとTest setに分割 • Training Set でパラメータを訓練し • Test Setで予測能力を測る

Average

CV Error= 予測誤差の推定値

k等分に分割する方法をk-fold CV: k=10やk=M(=leave-one-out) がよく用いられる（左図はk=4） - kは大きい方が　　精度はいいが計算量がかかるFold 1

Fold 2

Fold 3

Fold 4

CVを低計算量でできるようにしたい

LOOCVと線形応答近似• １つ抜きCV（Leave-one-out CV, LOOCV)

←M回最適化 (計算量高)

H(x̂)�H(x̂� d) ⇡X

µ

h

µ(x̂) · d

x̂

\µ ⇡ x̂� �\µh

µ(x̂) �\µ =@ x̂\µ

@h,

• 線形応答近似 • 摂動の導出：コスト関数をについて展開 • 応答係数（帯磁率）を計算：後述

d = x̂� x̂

\µ

�\µ

x̂

\µ(�) = argminx

8<

:1

2

X

⌫( 6=µ)

y⌫ �

X

i

A⌫ixi

!2

+ �||x||1

9=

;

✏LOO(�) =1

2M

X

µ

yµ �

X

i

Aµix̂\µi (�)

!

近似的交差検証公式• 線形近似＋モデルの線形性＋LOOEの定義式

++ ��1 = (�\µ)�1 + aµa>µ ✏LOO =

1

2M

MX

µ=1

yµ �

X

i

Aµix̂\µi

!2

• あとは、帯磁率が計算できるか否か • 正則化項に特異性が無ければ？

• コスト関数ヘシアンの逆: • LASSOの場合

• Active変数に関してのみの、コスト関数ヘシアンの逆 • Active変数集合は摂動で変化しないと仮定

x̂

\µ ⇡ x̂� �\µh

µ(x̂)

✏LOO ⇡ 1

2M

X

µ

0

@1�X

i,j

AµiAµj�ij

1

A�2

yµ �X

i

Aµix̂i

!2

� =⇣A>A

⌘�1

�SASA =⇣A>

⇤SAA⇤SA

⌘�1

近似的交差検証公式2つ

• Approx. 1

• Approx. 2=Approx.1 + aµのµに関する独立同分布性

1�X

i,j

AµiAµj�ij ⇡✓

↵

↵� ⇢(�)

◆�1

✏LOO ⇡ 1

2M

X

µ

0

@1�X

i,j

AµiAµj�ij

1

A�2

yµ �X

i

Aµix̂i

!2

�SASA =⇣A>

⇤SAA⇤SA

⌘�1

✏LOO ⇡ 1

2M

MX

µ=1

0

@1�X

i,j2SA

Aµi

⇣A

>⇤SA

A⇤SA

⌘�1

ijAµj

1

A�2

yµ �X

i

Aµix̂i

!2

✏LOO ⇡✓

↵

↵� ⇢

◆2 1

2M||y �Ax̂||22 =

✓↵

↵� ⇢

◆2

✏Train

↵ =M

N, ⇢(�) =

||x̂||0N

近似はいつ正しいか？• 重要な仮定：Active変数集合の不変性←実際は正しくない

• 変数の入れ替わりは起こる(M~Nの仮定の元) • そのLOOEへの影響は ⇒N→∞では正しい

• N→∞での解析解との比較( )

O(pN)

O(pN

�1)

λ

0 0.2 0.4

LOO

(1)

, App

rox.

1

0

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

N=16N=32N=64N=128N=256N=512N=∞

λ

0 0.2 0.4

LOO

(1)

, App

rox.

2

0

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

N=16N=32N=64N=128N=256N=512N=∞

Aµi ⇠ N (0, N�1)

DEMO: Application to

SuperNovae Data Analysis

Application to SuperNovae data analysis•  Type Ia supernovae produce consistent peak luminosity (absolute

magnitude at maximum) determined by “Chandrasekhar limit”. –  In terms of the 0th approximation

•  “Standard candle” of the Universe -> distance •  “Accelerating expansion of the Universe”, Nobel prize in 2011

�Riess et al (2001)�

(red shift)�

Application to SuperNovae data analysis

Napolinano97�

(time: days)�

Light curve width�

Peak luminosity (magnitude at maximum) �

Candonau+87�

Color index�

•  However, in reality, the peak luminosity varies owing to various factors.

•  Two known major factors –  “Light curve width” (radioactive decay) –  “Color index” (interstellar extinction)

Application to SuperNovae data analysis• Calibration of the peak luminosity

http://heracles.astro.berkeley.edu/sndb/

M µ ≈ M 0 + Aµ ,1β1 + Aµ ,2β2 + Aµ ,3β3 +…+ Aµ ,276β276

µth data� const�

Color index�Light curve width�

Other candidates

• Berkeley supernova database • M=78, N=276 (cf. M. Uemura, K. S. Kawabata, S. Ikeda, K. Maeda (2015) )

-6 -5 -4 -3 -2 -10.050.1

0.15 Approx 1

-6 -5 -4 -3 -2 -1

CV e

rrors

0.050.1

0.15 Approx 2

log λ -6 -5 -4 -3 -2 -1

0.050.1

0.15 10-fold CV






Other candidates


log λ -6 -5 -4 -3 -2 -1

CV er

rors

0.05

0.1

0.15

0.2Approx 1Approx 210-fold CV

-6 -5 -4 -3 -2 -10.050.1

0.15 Approx 1

-6 -5 -4 -3 -2 -1

CV e

rrors

0.050.1

0.15 Approx 2

log λ -6 -5 -4 -3 -2 -1

0.050.1

0.15 10-fold CV






Other candidates


log λ -6 -5 -4 -3 -2 -1

CV er

rors

0.05

0.1

0.15

0.2Approx 1Approx 210-fold CV

Minimum+one-sigma rule gives K=6

10-fold App. 1 App. 231.6 s 3.2 s 2.85 s

Actual computational time:

まとめ１• LASSOの近似的交差検証公式の導出

• Approx1: O(N3) • Approx2: O(1)

• 人工・実データでの検証

Documents

統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

統計力学的アプローチによるリサンプリング手法の …統計力学的アプローチによるリサンプリング手法の軽量化小渕智之1 東工大情報理工学院