Upload
tomoki-itou
View
237
Download
0
Embed Size (px)
Citation preview
論文紹介Learning Important Features
Through Propagating Activation Differences
東京大学工学系研究科
システム創成学専攻和泉研究室
D1 伊藤友貴
自己紹介
• 東京大学工学系研究科和泉研究室所属
–金融に関するデータマイニング
–人工市場によるシミュレーション
• 普段はロイターニュースとかヤフーファイナンス掲示板とか触って遊んでます
• 今日紹介する論文、ちょいちょい正確に理解できていないです…お手柔らかにお願い致します
概要
• 紹介する論文
– Learning Important Features Through Propagating Activation Differences
(A. Shrikumar et. Al, ICML, 2017)
• 概要
– Neural Network から重要な要素は何かを抽出する方法のアプローチ(Deep Lift 法)を提案
–既存手法より色々良さそう
既存手法
• Perturbation approach
• Back propagation approach
– Gradients
• (Springenberg et. al. 2014) など
– Gradients × Input
• (Shrikumar et. al. 2016) など
問題点1
• 勾配0になると問題が起こる
Fig. 1
問題点2 (ジャンプ)
• ジャンプする(不連続)
Fig. 2
Deep Lift
• 勾配の問題やジャンプの問題を解決する方法を提案 (Deep Lift )
–個人的にはどうしてこの発想になったのかわかっていないので多分ちゃんと理解できていない
Deep Lift Philosophyある層の値:
出力:
reference activation:
difference-from-reference:
← 基準値みたいなもの(後で定義)
Contribution Scores:
• 各入力値 (xi) の出力値(t) への影響度(後で定義)
• これをどう計算するかが肝
← 基準値からどれくらい外れるか
Multipliers and the Chain RuleMultipliers を以下のように定義
CHAIN RULE で を計算 (式(3))
Defining the reference
i1
i2
入力:
出力:
Reference activation:
より以下のように Reference activation を計算
Separating positive and negative
• ポジティブ項とネガティブ項を別々に考える
Linear Rule, Rescale Rule, or Reveal cancel Rule により計算(後で定義)
Contribution Scoresの計算
• 線形な変換→ Linear Ruleで計算
–例: 結合層・たたみ込み層
• 非線形な変換
→ Rescale Rule or Reveal cancel Rule で計算
–例: tanh, ReLU
The Linear Rule• 線形な部分 (結合・畳み込み)では以下のようにContribution Scoresを計算
に対して
The Linear Rule
このとき, 以下が成立
THE RESCALE RULE
• 非線形部分(ReLU, tanhなど)では以下のように Contribution Scoresを計算
• このとき以下が成立
具体例: Rescale Rule
i10 = i2
0 = 0, i1 + i2 > 1 の場合 Rescale Rule だと
具体例: Rescale Rule2
x0 = y0 = 0, x = 10 + εの場合 Rescale Rule だと
不自然なジャンプ
連続
The Reveal Cancel Rule
具体例3
Fig. 3
これについて i1 > i2 , i10 = i2
0 = 0 という条件で
と を計算
Rescale Rule を使う場合:
Reveal Cancel Ruleを使う場合:
その他の工夫
• 最終層の活性化後の値に対する入力値のContribution Score ではなく活性化前のContribution Score を計算
• 最終層が Softmaxのときは全体の平均を引いたスコアで考える
数値実験1
• MNIST
– Ex.数字を8 から 3 に変える
(一部消す)
– Contribution Scoreの変化
値が消した部分に対応
するかどうか検証
– (ちゃんと把握できてません)
数値実験2
• DNA 配列の分類に関する実験
• 意図通りに Contribution Scoreがつくかどうかを検証
• (すいません、ちゃんと把握できてません。)
比較手法
• 既存手法– Guided backprop * inp ()
– Gradient * input
– Integrated gradient -5
– Integrated gradient -10
• 提案手法 (Deep LIFT)– Deep LIFT Rescale
– Deep LIFT Reveal Cancel
– Deep LIFT fc-RC-conv-RS
結果(MNIST)
Deep Lift の方がよい
結果 (DNA)
• Deep Lift の方がよい結果• Reveal Cancel 入れた方がよい結果
結論
• Deep Lift という重要な要素は何かを抽出する方法のフレームワーク(Deep Lift 法)を提案
• 既存手法 (gradientや gradient * input で起こるような不自然なジャンプや勾配が0のときに起こる問題を解決)
• RNNへの適用方法, Maxout, MaxPoolingへのベストな適用方法などが課題