Deep Mixtures
of Factor Analysers [ICML 2012]
Yichuan Tang, Ruslan Salakhutdinov,
Geoffrey Hinton(University of Toronto)
斎藤 淳哉
間違い等ありましたらご連絡ください
junya【あっと】fugaga.info
論文紹介
2013/04/20
概要
PRMLで解説されている「Factor Analyzer(因子分析)」を
拡張した「Mixture of Factor Analyze(混合因子分析)」を
多層化した「Deep Mixtures of Factor Analyzer」の提案
因子分析の目的
2/16
次元削減 • 特徴ベクトルの次元が大きいことは一般的に非常にまずい
• 直感に反する訳のわからないことが起こったりする(次元の呪い) • 学習データも凄まじくたくさん必要になる
• 計算時間もかかる
• 統計学では、因子分析はデータ理解のためデータの中から共通因子を探り出す方法で
主成分分析が次元削減らしいけど、機械学習だと数式上の差しかない?
• まあどちらもできるけど、機械学習で扱うような高次元データの共通因子が
わかったところで、データ理解できるかというと無理な気が・・・
Factor Analyzer(FA, 因子分析) 概要
目的:次元削減
入力:ラベルなし特徴ベクトル集合 𝒙𝑛 𝑛=1𝑁
次元削減後の次元数𝑑
出力:高次元正規分布𝑝 𝒙 および
高次元正規分布𝑝 𝒙 と低次元正規分布𝑝 𝒛 の関係
入力 高次元正規分布𝑝 𝒙
𝑝 𝒛
𝒛
線形変換:𝒙 = 𝐖𝒛 + 𝝁
低次元正規分布𝑝 𝒛
(次元数𝑑 = 1)
𝑥1
𝑥2 𝑥2
𝑝 𝒙
𝑥1
FA
Factor Analyzer(FA, 因子分析) 詳細
4/16
𝝁
𝑾
𝒛 𝑾
𝑝 𝒙|𝒛
𝑥1
𝑥2
𝑝 𝒙
𝑝 𝒛
𝒛
低次元正規分布𝑝 𝒛
(次元数𝑑 = 1) 高次元正規分布𝑝 𝒙
𝑝 𝒛 = 𝒩 𝒛|𝟎, 𝐈 𝑝 𝒙|𝒛 = 𝒩 𝒙|𝐖𝒛 + 𝝁,𝚿
※𝑝 𝒛 と𝑝 𝒙|𝒛 の定義から𝑝 𝒙 と𝑝 𝒛|𝒙 も正規分布
※EMアルゴリズムでパラメータ推定できる
𝐳:次元削減空間での特徴ベクトル(潜在変数) 𝐱:特徴ベクトル(観測変数) 𝚿:対角行列
モデル:観測可能な高次元正規分布𝑝 𝒙 は、潜在的な低次元正規分布𝑝 𝒛 から発生した特徴ベクトル𝒛 の線形変換𝐖𝒛 + 𝝁からなる
𝚿
参考) 確率的主成分分析
5/16
確率的主成分分析≒因子分析
𝑝 𝒙|𝒛 = 𝒩 𝒙|𝐖𝒛 + 𝝁, 𝜎2𝐈
𝚿:対角行列
𝑝 𝒙|𝒛 = 𝒩 𝒙|𝐖𝒛 + 𝝁,𝚿
相違点)
確率的主成分分析
因子分析
Mixtures of Factor Analyzer(MFA, 混合因子分析)
6/16
FAの混合版
𝑝 𝑐 = 𝜋𝑐 s. a. 𝜋𝑐 = 1
𝐶
𝑐=1
𝑝 𝒛|𝑐 = 𝑝 𝒛 = 𝒩 𝒛|𝟎, 𝐈 𝑝 𝒙|𝒛, 𝑐 = 𝒩 𝒙|𝐖𝑐𝒛 + 𝝁𝑐 , 𝚿𝑐
※EMアルゴリズムでパラメータ推定できる
入力 高次元混合正規分布𝑝 𝒙
𝑝 𝒛
𝒛
𝒙 = 𝐖1𝒛 + 𝝁1
低次元正規分布𝑝 𝒛
(次元数𝑑 = 1)
𝑥2
𝑥1
𝑥2
𝑥1
𝑝 𝒙
𝑝 𝒛
𝒛 𝑝 𝒛
𝒛
𝒙 = 𝐖2𝒛 + 𝝁2
𝒙 = 𝐖3𝒛 + 𝝁3
𝑐 = 1
𝑐 = 2
𝑐 = 3
MFA
MFAの課題
7/16
混合数𝐶または次元数𝑑を上げると過学習
多層化
→Deep Mixtures of Factor Analyzer
Deep Mixtures of Factor Analyzer(DMFA)
8/16
𝑥1
𝑥2
入力
𝑥1
𝑥2 𝑝 𝒙
《第1層》
《第2層》 𝑥1
𝑥2 𝑝 𝒙
MFA
高次元混合正規分布𝑝 𝒙
決定的にクラス割当
クラス内でMFA
𝒛 𝑝 𝒛
𝒛 𝑝 𝒛
𝒙 = 𝐖2𝒛 + 𝝁2
𝒙 = 𝐖1𝒛 + 𝝁1
決定的にクラス割当
クラス内でMFA
MFA
𝑐 = 1
𝑐 = 2
𝑠 = 8 𝑠 = 7 𝑠 = 6
𝑠 = 3
𝑠 = 5
𝑠 = 4
𝑠 = 2 𝑠 = 1
𝑠 = 9
Deep Mixtures of Factor Analyzer(DMFA)
• 実はDMFAはMFAと等価
• DMFAをMFAとして計算可(Shallow MFA)
• しかしDMFAとして学習すると過学習を
回避できるのでDMFAのほうが有利
9/16
実験1
10/16
対数尤度[nat]
学習データ:顔画像(D= 24×24)
MFA(学習データ c=20, d=D/2=288)
MFA(テストデータ c=20, d=D/2=288)
DMFA 2層 (学習データ c=5, d=50)
DMFA 2層 (テストデータ c=5, d=50)
Shallow MFA(学習データ c=5, d=50)
Shallow MFA(テストデータ c=5, d=50)
過学習
対数尤度による評価(値が大きいほどよい)
実験2
11/16
DMFA(2層) DMFA(3層)
d=D/2
C=20
d=50
C=5
d=30
C=3
高次元特徴ベクトル
に対して有効なRBM系の従来手法
学習データに
対する対数尤度
テストデータに
対する対数尤度
カラー画像
(D= 32×32×3 )
音声
(D=1353)
対数尤度による評価(値が大きいほどよい)
まとめ
• 混合因子分析を多層化したDMFAを提案
• 混合数または次元が大きいときに有効
12/16