24
統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之 1 東工大 情報理工学院 数理計算科学系 1 共同研究者 樺島祥介 1

統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

統計力学的アプローチによる リサンプリング手法の軽量化

小渕智之1 東工大 情報理工学院 数理計算科学系1

共同研究者 樺島祥介1

Page 2: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

• 小渕 智之 (OBUCHI Tomoyuki) • 専門:統計物理学

• 東工大 物理学科→物性物理学専攻(2001-2010)

• アナログニューラルネットの数値的研究 (指導教員:椎野正寿)

• スピングラス平均場理論の数理的性質 (指導教員:西森秀稔)

• ポスドク(2010-2013)

• フラストレート磁性体の数値的研究 (阪大:川村光)

• 生態系の数理モデル研究 (阪大:時田惠一郎)

• 最大エントロピー法の数理的研究 (パリ高等師範学校:Remi Monasson)

• 東工大 情報理工学院 助教(2013~,樺島研究室)

• スパース推定,統計的逆問題・学習理論,量子系のダイナミクス

自己紹介

Page 3: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

背景:機械学習と解釈性・信頼性• 問題設定:与えられたデータ入出力関数fを用いて,      によくフィットするパラメータxを探す.

• 基本態度 • なるべく記述力が高くなるよう複雑なfも許す.パラメータもたくさん用意する.モデルをフィットするための労力は,計算機性能でなんとかする.

• 研究トレンド • アルゴリズム開発:最適なxをどう見つけるか.

• 従来法では不可能な大規模パラメータ探索を可能にして,大規模なデータを解析して,意味のあることを言う.

          →解釈性,信頼性の議論が置き去りになりがち

DM = {(a1, y1), · · · (aM , yM )}y = f(a;x)

Page 4: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

背景:機械学習と解釈性・信頼性• 研究トレンド

• アルゴリズム開発:最適なxをどう見つけるか.

• 従来法では不可能な大規模パラメータ探索を可能にして,大規模なデータを解析して,意味のあることを言う.

          →解釈性,信頼性の議論が置き去りになりがち• 統計学を思い出す:交差検証,仮説検定,信頼区間 etc.

• まさに解釈・信頼性を議論する話が満載 • これらを現代的な機械学習モデルに適用?

• 計算量の問題 • そもそも最適化すら難しかった(だからアルゴリズム開発競争になってる) • その外側で数値的に検定とか組むのはしんどい

        →ここを攻略することが次に重要になる(多分)

Page 5: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

背景:機械学習と解釈性・信頼性• 研究トレンド

• アルゴリズム開発:最適なxをどう見つけるか.

• 従来法では不可能な大規模パラメータ探索を可能にして,大規模なデータを解析して,意味のあることを言う.

          →解釈性,信頼性の議論が置き去りになりがち• 統計学を思い出す:交差検証,仮説検定,信頼区間 etc.

• まさに解釈・信頼性を議論する話が満載 • これらを現代的な機械学習モデルに適用?

• 計算量の問題 • そもそも最適化すら難しかった(だからアルゴリズム開発競争になってる) • その外側で数値的に検定とか組むのはしんどい

        →ここを攻略することが次に重要になる(多分)

今日のトピック: 交差検証・ブートストラップ法で

必要な計算量を 近似で大幅に減らす

Page 6: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

モデル:スパース線形回帰• 構造を持ったモデルだと理論解析が難しい

• 例:深層学習 • ので比較的単純だが記述力の高いモデルを考える                   →スパース線形回帰

• どのxiを使ってyをフィットするかの変数選択が必要(使わないxは0と置く)←スパース線形回帰

E.g. M=2, N=3

=M

(

(N

y1 = A11x1 +A12x2 +A13x3

y2 = A21x1 +A22x2 +A23x3

y = Ax

Page 7: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

モデル:スパース線形回帰

• 正則化法による定式化( :正則化の場合)`0

: Standard form

: Lagrange form

E.g. M=2, N=3

=M

(

(N

y1 = A11x1 +A12x2 +A13x3

y2 = A21x1 +A22x2 +A23x3

y = Ax

minx

1

2||y �Ax||22 s.t. ||x||0 K = N⇢

x̂(�) = argminx

⇢1

2||y �Ax||22 + �||x||0

Page 8: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

モデル:スパース線形回帰• 正則化法による定式化( :正則化の場合)`0

• 正則化は使いづらい(離散最適化が必要)→緩和法 • 代表的緩和: 緩和=LASSO

• コスト関数が凸,でも推定解はスパースになる

`0`1

: Standard form

: Lagrange form

minx

1

2||y �Ax||22 s.t. ||x||0 K = N⇢

x̂(�) = argminx

⇢1

2||y �Ax||22 + �||x||0

x̂(�) argmin

⇢1

2||y �Ax||22 + �||x||1

Page 9: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

本日の内容1. LASSOにおける近似的交差検証法の開発

• TO and YK: J. Stat. Mech. (2016)

2. LASSOにおける近似的ブートストラップ法の開発 • TO and YK: arXiv:1802.10254

3. 余裕があれば他のモデルでの話もちょっと.

Page 10: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

LASSO and

Approximate Cross Validation

C.f. TO and Y. Kabashima, J. Stat. Mech. (2016)

Page 11: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

LASSOとハイパーパラメータ選択• LASSO (Lagrange form)

• 正則化項のパラメータ(λ)はどう決めるか?

• いくつかの流儀

• 情報量規準

• (経験)ベイズ法

• 交差検証法(Cross validation, (CV) )

x̂(�) = argminx

⇢1

2||y �Ax||22 + �||x||1

�H(x|y, A)⌘ :ハミルトニアン

Page 12: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

交差検証法(CV)

Data

TestTraining

Test

Test

Test

• データをTraining setとTest setに分割 • Training Set でパラメータを訓練し • Test Setで予測能力を測る

Average

CV Error= 予測誤差の推定値

k等分に分割する方法をk-fold CV: k=10やk=M(=leave-one-out) がよく用いられる(左図はk=4) - kは大きい方が   精度はいいが計算量がかかるFold 1

Fold 2

Fold 3

Fold 4

Page 13: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

交差検証法(CV)

Data

TestTraining

Test

Test

Test

• データをTraining setとTest setに分割 • Training Set でパラメータを訓練し • Test Setで予測能力を測る

Average

CV Error= 予測誤差の推定値

k等分に分割する方法をk-fold CV: k=10やk=M(=leave-one-out) がよく用いられる(左図はk=4) - kは大きい方が   精度はいいが計算量がかかるFold 1

Fold 2

Fold 3

Fold 4

CVを低計算量で できるようにしたい

Page 14: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

LOOCVと線形応答近似• 1つ抜きCV(Leave-one-out CV, LOOCV)

←M回最適化 (計算量高)

H(x̂)�H(x̂� d) ⇡X

µ

h

µ(x̂) · d

\µ ⇡ x̂� �\µh

µ(x̂) �\µ =@ x̂\µ

@h,

• 線形応答近似 • 摂動の導出:コスト関数を について展開 • 応答係数(帯磁率) を計算:後述

d = x̂� x̂

�\µ

\µ(�) = argminx

8<

:1

2

X

⌫( 6=µ)

y⌫ �

X

i

A⌫ixi

!2

+ �||x||1

9=

;

✏LOO(�) =1

2M

X

µ

yµ �

X

i

Aµix̂\µi (�)

!

Page 15: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

近似的交差検証公式• 線形近似+モデルの線形性+LOOEの定義式

++ ��1 = (�\µ)�1 + aµa>µ ✏LOO =

1

2M

MX

µ=1

yµ �

X

i

Aµix̂\µi

!2

• あとは、帯磁率が計算できるか否か • 正則化項に特異性が無ければ?

• コスト関数ヘシアンの逆: • LASSOの場合

• Active変数に関してのみの、コスト関数ヘシアンの逆 • Active変数集合は摂動で変化しないと仮定

\µ ⇡ x̂� �\µh

µ(x̂)

✏LOO ⇡ 1

2M

X

µ

0

@1�X

i,j

AµiAµj�ij

1

A�2

yµ �X

i

Aµix̂i

!2

� =⇣A>A

⌘�1

�SASA =⇣A>

⇤SAA⇤SA

⌘�1

Page 16: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

近似的交差検証公式2つ

• Approx. 1

• Approx. 2=Approx.1 + aµのµに関する独立同分布性

1�X

i,j

AµiAµj�ij ⇡✓

↵� ⇢(�)

◆�1

✏LOO ⇡ 1

2M

X

µ

0

@1�X

i,j

AµiAµj�ij

1

A�2

yµ �X

i

Aµix̂i

!2

�SASA =⇣A>

⇤SAA⇤SA

⌘�1

✏LOO ⇡ 1

2M

MX

µ=1

0

@1�X

i,j2SA

Aµi

⇣A

>⇤SA

A⇤SA

⌘�1

ijAµj

1

A�2

yµ �X

i

Aµix̂i

!2

✏LOO ⇡✓

↵� ⇢

◆2 1

2M||y �Ax̂||22 =

✓↵

↵� ⇢

◆2

✏Train

↵ =M

N, ⇢(�) =

||x̂||0N

Page 17: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

近似はいつ正しいか?• 重要な仮定:Active変数集合の不変性←実際は正しくない

• 変数の入れ替わりは 起こる(M~Nの仮定の元) • そのLOOEへの影響は ⇒N→∞では正しい

• N→∞での解析解との比較( )

O(pN)

O(pN

�1)

λ

0 0.2 0.4

LOO

(1)

, App

rox.

1

0

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

N=16N=32N=64N=128N=256N=512N=∞

λ

0 0.2 0.4

LOO

(1)

, App

rox.

2

0

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

N=16N=32N=64N=128N=256N=512N=∞

Aµi ⇠ N (0, N�1)

Page 18: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

DEMO: Application to

SuperNovae Data Analysis

Page 19: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

Application to SuperNovae data analysis•  Type Ia supernovae produce consistent peak luminosity (absolute

magnitude at maximum) determined by “Chandrasekhar limit”. –  In terms of the 0th approximation

•  “Standard candle” of the Universe -> distance •  “Accelerating expansion of the Universe”, Nobel prize in 2011

�Riess et al (2001)�

(red shift)�

Page 20: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

Application to SuperNovae data analysis

Napolinano97�

(time: days)�

Light curve width�

Peak luminosity (magnitude at maximum) �

Candonau+87�

Color index�

•  However, in reality, the peak luminosity varies owing to various factors.

•  Two known major factors –  “Light curve width” (radioactive decay) –  “Color index” (interstellar extinction)

Page 21: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

Application to SuperNovae data analysis• Calibration of the peak luminosity

http://heracles.astro.berkeley.edu/sndb/

M µ ≈ M 0 + Aµ ,1β1 + Aµ ,2β2 + Aµ ,3β3 +…+ Aµ ,276β276

µth data� const�

Color index�Light curve width�

Other candidates

• Berkeley supernova database • M=78, N=276 (cf. M. Uemura, K. S. Kawabata, S. Ikeda, K. Maeda (2015) )

Page 22: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

-6 -5 -4 -3 -2 -10.050.1

0.15 Approx 1

-6 -5 -4 -3 -2 -1

CV e

rrors

0.050.1

0.15 Approx 2

log λ -6 -5 -4 -3 -2 -1

0.050.1

0.15 10-fold CV

Application to SuperNovae data analysis• Calibration of the peak luminosity

http://heracles.astro.berkeley.edu/sndb/

M µ ≈ M 0 + Aµ ,1β1 + Aµ ,2β2 + Aµ ,3β3 +…+ Aµ ,276β276

µth data� const�

Color index�Light curve width�

Other candidates

• Berkeley supernova database • M=78, N=276 (cf. M. Uemura, K. S. Kawabata, S. Ikeda, K. Maeda (2015) )

log λ -6 -5 -4 -3 -2 -1

CV er

rors

0.05

0.1

0.15

0.2Approx 1Approx 210-fold CV

Page 23: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

-6 -5 -4 -3 -2 -10.050.1

0.15 Approx 1

-6 -5 -4 -3 -2 -1

CV e

rrors

0.050.1

0.15 Approx 2

log λ -6 -5 -4 -3 -2 -1

0.050.1

0.15 10-fold CV

Application to SuperNovae data analysis• Calibration of the peak luminosity

http://heracles.astro.berkeley.edu/sndb/

M µ ≈ M 0 + Aµ ,1β1 + Aµ ,2β2 + Aµ ,3β3 +…+ Aµ ,276β276

µth data� const�

Color index�Light curve width�

Other candidates

• Berkeley supernova database • M=78, N=276 (cf. M. Uemura, K. S. Kawabata, S. Ikeda, K. Maeda (2015) )

log λ -6 -5 -4 -3 -2 -1

CV er

rors

0.05

0.1

0.15

0.2Approx 1Approx 210-fold CV

Minimum+one-sigma rule gives K=6

10-fold App. 1 App. 231.6 s 3.2 s 2.85 s

Actual computational time:

Page 24: 統計力学的アプローチによる リサンプリング手法の …統計力学的アプローチによる リサンプリング手法の軽量化 小渕智之1 東工大 情報理工学院

まとめ1• LASSOの近似的交差検証公式の導出

• Approx1: O(N3) • Approx2: O(1)

• 人工・実データでの検証