Download pdf - Deep Mixtures of Factor Analysers

Deep Mixtures

of Factor Analysers [ICML 2012]

Yichuan Tang, Ruslan Salakhutdinov,

Geoffrey Hinton（University of Toronto）

斎藤淳哉

間違い等ありましたらご連絡ください

junya【あっと】fugaga.info

論文紹介

2013/04/20

概要

PRMLで解説されている「Factor Analyzer（因子分析）」を

拡張した「Mixture of Factor Analyze（混合因子分析）」を

多層化した「Deep Mixtures of Factor Analyzer」の提案

因子分析の目的

2/16

次元削減 • 特徴ベクトルの次元が大きいことは一般的に非常にまずい

• 直感に反する訳のわからないことが起こったりする（次元の呪い） • 学習データも凄まじくたくさん必要になる

• 計算時間もかかる

• 統計学では、因子分析はデータ理解のためデータの中から共通因子を探り出す方法で

主成分分析が次元削減らしいけど、機械学習だと数式上の差しかない？

• まあどちらもできるけど、機械学習で扱うような高次元データの共通因子が

わかったところで、データ理解できるかというと無理な気が・・・

Factor Analyzer（FA, 因子分析）概要

目的：次元削減

入力：ラベルなし特徴ベクトル集合 𝒙𝑛 𝑛=1𝑁

次元削減後の次元数𝑑

出力：高次元正規分布𝑝 𝒙 および

高次元正規分布𝑝 𝒙 と低次元正規分布𝑝 𝒛 の関係

入力高次元正規分布𝑝 𝒙

𝑝 𝒛

𝒛

線形変換：𝒙 = 𝐖𝒛 + 𝝁

低次元正規分布𝑝 𝒛

（次元数𝑑 = 1）

𝑥1

𝑥2 𝑥2

𝑝 𝒙

𝑥1

FA

Factor Analyzer（FA, 因子分析）詳細

4/16

𝝁

𝑾

𝒛 𝑾

𝑝 𝒙|𝒛

𝑥1

𝑥2

𝑝 𝒙

𝑝 𝒛

𝒛


（次元数𝑑 = 1）高次元正規分布𝑝 𝒙

𝑝 𝒛 = 𝒩 𝒛|𝟎, 𝐈 𝑝 𝒙|𝒛 = 𝒩 𝒙|𝐖𝒛 + 𝝁,𝚿

※𝑝 𝒛 と𝑝 𝒙|𝒛 の定義から𝑝 𝒙 と𝑝 𝒛|𝒙 も正規分布

※EMアルゴリズムでパラメータ推定できる

𝐳：次元削減空間での特徴ベクトル（潜在変数） 𝐱：特徴ベクトル（観測変数） 𝚿：対角行列

モデル：観測可能な高次元正規分布𝑝 𝒙 は、潜在的な低次元正規分布𝑝 𝒛 から発生した特徴ベクトル𝒛 の線形変換𝐖𝒛 + 𝝁からなる

𝚿

参考）確率的主成分分析

5/16

確率的主成分分析≒因子分析

𝑝 𝒙|𝒛 = 𝒩 𝒙|𝐖𝒛 + 𝝁, 𝜎2𝐈

𝚿：対角行列

𝑝 𝒙|𝒛 = 𝒩 𝒙|𝐖𝒛 + 𝝁,𝚿

相違点）

確率的主成分分析

因子分析

Mixtures of Factor Analyzer（MFA, 混合因子分析）

6/16

FAの混合版

𝑝 𝑐 = 𝜋𝑐 s. a. 𝜋𝑐 = 1

𝐶

𝑐=1

𝑝 𝒛|𝑐 = 𝑝 𝒛 = 𝒩 𝒛|𝟎, 𝐈 𝑝 𝒙|𝒛, 𝑐 = 𝒩 𝒙|𝐖𝑐𝒛 + 𝝁𝑐 , 𝚿𝑐

※EMアルゴリズムでパラメータ推定できる

入力高次元混合正規分布𝑝 𝒙

𝑝 𝒛

𝒛

𝒙 = 𝐖1𝒛 + 𝝁1


（次元数𝑑 = 1）

𝑥2

𝑥1

𝑥2

𝑥1

𝑝 𝒙

𝑝 𝒛

𝒛 𝑝 𝒛

𝒛

𝒙 = 𝐖2𝒛 + 𝝁2

𝒙 = 𝐖3𝒛 + 𝝁3

𝑐 = 1

𝑐 = 2

𝑐 = 3

MFA

MFAの課題

7/16

混合数𝐶または次元数𝑑を上げると過学習

多層化

→Deep Mixtures of Factor Analyzer

Deep Mixtures of Factor Analyzer（DMFA）

8/16

𝑥1

𝑥2

入力

𝑥1

𝑥2 𝑝 𝒙

《第1層》

《第2層》 𝑥1

𝑥2 𝑝 𝒙

MFA

高次元混合正規分布𝑝 𝒙

決定的にクラス割当

クラス内でMFA

𝒛 𝑝 𝒛

𝒛 𝑝 𝒛

𝒙 = 𝐖2𝒛 + 𝝁2

𝒙 = 𝐖1𝒛 + 𝝁1

決定的にクラス割当

クラス内でMFA

MFA

𝑐 = 1

𝑐 = 2

𝑠 = 8 𝑠 = 7 𝑠 = 6

𝑠 = 3

𝑠 = 5

𝑠 = 4

𝑠 = 2 𝑠 = 1

𝑠 = 9

Deep Mixtures of Factor Analyzer（DMFA）

• 実はDMFAはMFAと等価

• DMFAをMFAとして計算可（Shallow MFA）

• しかしDMFAとして学習すると過学習を

回避できるのでDMFAのほうが有利

9/16

実験１

10/16

対数尤度[nat]

学習データ：顔画像（D= 24×24）

MFA(学習データ c=20, d=D/2=288)

MFA(テストデータ c=20, d=D/2=288)

DMFA 2層 (学習データ c=5, d=50)

DMFA 2層 (テストデータ c=5, d=50)

Shallow MFA(学習データ c=5, d=50)

Shallow MFA(テストデータ c=5, d=50)

過学習

対数尤度による評価（値が大きいほどよい）

実験２

11/16

DMFA(2層) DMFA(3層)

d=D/2

C=20

d=50

C=5

d=30

C=3

高次元特徴ベクトル

に対して有効なRBM系の従来手法

学習データに

対する対数尤度

テストデータに

対する対数尤度

カラー画像

（D= 32×32×3 ）

音声

（D=1353）

対数尤度による評価（値が大きいほどよい）

まとめ

• 混合因子分析を多層化したDMFAを提案

• 混合数または次元が大きいときに有効

12/16