26
論文紹介 Learning Important Features Through Propagating Activation Differences 東京大学工学系研究科 システム創成学専攻 和泉研究室 D1 伊藤友貴

20170618論文読み会 伊藤

Embed Size (px)

Citation preview

Page 1: 20170618論文読み会 伊藤

論文紹介Learning Important Features

Through Propagating Activation Differences

東京大学工学系研究科

システム創成学専攻和泉研究室

D1 伊藤友貴

Page 2: 20170618論文読み会 伊藤

自己紹介

• 東京大学工学系研究科和泉研究室所属

–金融に関するデータマイニング

–人工市場によるシミュレーション

• 普段はロイターニュースとかヤフーファイナンス掲示板とか触って遊んでます

• 今日紹介する論文、ちょいちょい正確に理解できていないです…お手柔らかにお願い致します

Page 3: 20170618論文読み会 伊藤

概要

• 紹介する論文

– Learning Important Features Through Propagating Activation Differences

(A. Shrikumar et. Al, ICML, 2017)

• 概要

– Neural Network から重要な要素は何かを抽出する方法のアプローチ(Deep Lift 法)を提案

–既存手法より色々良さそう

Page 4: 20170618論文読み会 伊藤

既存手法

• Perturbation approach

• Back propagation approach

– Gradients

• (Springenberg et. al. 2014) など

– Gradients × Input

• (Shrikumar et. al. 2016) など

Page 5: 20170618論文読み会 伊藤

問題点1

• 勾配0になると問題が起こる

Fig. 1

Page 6: 20170618論文読み会 伊藤

問題点2 (ジャンプ)

• ジャンプする(不連続)

Fig. 2

Page 7: 20170618論文読み会 伊藤

Deep Lift

• 勾配の問題やジャンプの問題を解決する方法を提案 (Deep Lift )

–個人的にはどうしてこの発想になったのかわかっていないので多分ちゃんと理解できていない

Page 8: 20170618論文読み会 伊藤

Deep Lift Philosophyある層の値:

出力:

reference activation:

difference-from-reference:

← 基準値みたいなもの(後で定義)

Contribution Scores:

• 各入力値 (xi) の出力値(t) への影響度(後で定義)

• これをどう計算するかが肝

← 基準値からどれくらい外れるか

Page 9: 20170618論文読み会 伊藤

Multipliers and the Chain RuleMultipliers を以下のように定義

CHAIN RULE で を計算 (式(3))

Page 10: 20170618論文読み会 伊藤

Defining the reference

i1

i2

入力:

出力:

Reference activation:

より以下のように Reference activation を計算

Page 11: 20170618論文読み会 伊藤

Separating positive and negative

• ポジティブ項とネガティブ項を別々に考える

Linear Rule, Rescale Rule, or Reveal cancel Rule により計算(後で定義)

Page 12: 20170618論文読み会 伊藤

Contribution Scoresの計算

• 線形な変換→ Linear Ruleで計算

–例: 結合層・たたみ込み層

• 非線形な変換

→ Rescale Rule or Reveal cancel Rule で計算

–例: tanh, ReLU

Page 13: 20170618論文読み会 伊藤

The Linear Rule• 線形な部分 (結合・畳み込み)では以下のようにContribution Scoresを計算

に対して

Page 14: 20170618論文読み会 伊藤

The Linear Rule

このとき, 以下が成立

Page 15: 20170618論文読み会 伊藤

THE RESCALE RULE

• 非線形部分(ReLU, tanhなど)では以下のように Contribution Scoresを計算

• このとき以下が成立

Page 16: 20170618論文読み会 伊藤

具体例: Rescale Rule

i10 = i2

0 = 0, i1 + i2 > 1 の場合 Rescale Rule だと

Page 17: 20170618論文読み会 伊藤

具体例: Rescale Rule2

x0 = y0 = 0, x = 10 + εの場合 Rescale Rule だと

不自然なジャンプ

連続

Page 18: 20170618論文読み会 伊藤

The Reveal Cancel Rule

Page 19: 20170618論文読み会 伊藤

具体例3

Fig. 3

これについて i1 > i2 , i10 = i2

0 = 0 という条件で

と を計算

Rescale Rule を使う場合:

Reveal Cancel Ruleを使う場合:

Page 20: 20170618論文読み会 伊藤

その他の工夫

• 最終層の活性化後の値に対する入力値のContribution Score ではなく活性化前のContribution Score を計算

• 最終層が Softmaxのときは全体の平均を引いたスコアで考える

Page 21: 20170618論文読み会 伊藤

数値実験1

• MNIST

– Ex.数字を8 から 3 に変える

(一部消す)

– Contribution Scoreの変化

値が消した部分に対応

するかどうか検証

– (ちゃんと把握できてません)

Page 22: 20170618論文読み会 伊藤

数値実験2

• DNA 配列の分類に関する実験

• 意図通りに Contribution Scoreがつくかどうかを検証

• (すいません、ちゃんと把握できてません。)

Page 23: 20170618論文読み会 伊藤

比較手法

• 既存手法– Guided backprop * inp ()

– Gradient * input

– Integrated gradient -5

– Integrated gradient -10

• 提案手法 (Deep LIFT)– Deep LIFT Rescale

– Deep LIFT Reveal Cancel

– Deep LIFT fc-RC-conv-RS

Page 24: 20170618論文読み会 伊藤

結果(MNIST)

Deep Lift の方がよい

Page 25: 20170618論文読み会 伊藤

結果 (DNA)

• Deep Lift の方がよい結果• Reveal Cancel 入れた方がよい結果

Page 26: 20170618論文読み会 伊藤

結論

• Deep Lift という重要な要素は何かを抽出する方法のフレームワーク(Deep Lift 法)を提案

• 既存手法 (gradientや gradient * input で起こるような不自然なジャンプや勾配が0のときに起こる問題を解決)

• RNNへの適用方法, Maxout, MaxPoolingへのベストな適用方法などが課題