Upload
yasunori-ozaki
View
766
Download
5
Embed Size (px)
DESCRIPTION
GopalanらがICCV2011で提案した「画像用の教師なしドメイン適応」(転移学習の一種)に関する論文を日本語で要約しました。一部、理解が間違っている場合もありますので、ご指摘いただければ幸いです。 元論文: http://www.umiacs.umd.edu/~raghuram/Publications/2011_ICCV_DomainAdaptation.pdf
Citation preview
勝手に要約
DOMAIN ADAPTATION
FOR OBJECT RECOGNITION:
AN UNSUPERVISED APPROACH
Raghuraman Gopalan, Ruonan Li, and Rama Chellappa, ICCV2011
要約者紹介
尾崎安範
所属:東京大学大学院情報理工学系研究科
修士2年
佐藤洋一研究室
Twitter:@alfredplpl
特徴統合による属性認識を研究していました
今は視線関係やってます
!事前の注意!
最近の数学を用いているため、
手法を細かく理解することは困難です。
手法を十分に理解したい人は他の論文を
読んでくださいみたいなことが本文に。
概念だけ理解してほしいと願っています。
転移学習に興味を持っていただければ幸いです。
一般物体認識
与えられた画像がどんな種類のものであるかを
答えてくれる処理
例:ケータイの画像をコンピュータに与えると
ケータイであると答えてくれる
Google+やPicasa Webの画像の自動タグ付けに使用されている*
画像は[1]より引用
ケータイだ!
*http://derivecv.tumblr.com/post/53021563144
背景
すべての種類の物体を画像から識別するのは
困難
認識すべきカテゴリは莫大(例:いぬ、ねこ、・・・)
学習用データにラベルをつけるのは人手では大変
新しいモノにラベルをつけるのも大変
今までの知識(ラベルなど)を未知のものに使う
ドメイン適応という新しいアイデアを使う
ドメイン適応(domain adaptation)
ドメイン適応
ある分野の知識(サンプルのラベルや生起分布)を別の分野で使う手法
日本では転移学習の一種という言い方が一般的(?)
ドメイン(定義域) ある分野のデータ集合全体のこと
例:日本語、英語
知識を持っているドメインを元ドメイン(source domain)、
知識を持っていないドメインを目標ドメイン(target domain)という
日本語 英語
ねこ いぬ cat dog
知識
ドメイン適応の区分
教師なし(unsupervised)ドメイン適応
元ドメイン:ラベルあり、目標ドメイン:ラベルなし
半教師あり(semi-supervised)ドメイン適応
元ドメイン:ラベルあり、目標ドメイン:ラベルあり(少量)
ドメイン適応の実験例
検索に使ってみたらしい クエリ画像 検索結果(クエリ画像とは別のドメイン)
順位低
[1]より引用
従来研究
自然言語処理ではコーパスを再利用するのに使われている
画像に対するものはまだ発達途中
半教師ありドメイン適応はいろいろある
各ドメインの共通要素から調べるなど
教師なしドメイン適応はほとんどない
そのため、半教師ありドメイン適応と比較
自然言語処理ではクラスタリングなどを使うらしい
今回のドメイン適応の説明する前に
グラスマン多様体
N次元ベクトル空間のd次元部分ベクトル空間すべてを包括する集合
と表現
今回の場合Nは特徴量の次元、dは実験ごとで適当に決められる
射影の仕方によるので部分空間は無限に存在する
要素(部分空間)を座標として扱えば、集合(グラスマン多様体)は空間として取り扱うことができる
dNG ,
グラスマン多様体
今回のドメイン適応の簡単な説明
おおまかな方針
グラスマン多様体へ元ドメイン・目標ドメインのデータを、途中の空間を利用して認識する
ラベル付き
元ドメイン(X)
ラベルなし
目標ドメイン(X~)
グラスマン多様体
1S2S
)'(t経路
今回のドメイン適応の実現方法
元ドメイン、目標ドメインのデータをグラスマン多様体に落としこむ(点S1,点S2)
S1からS2まで単位時間で移動する「グラスマン多様体上の速度」と経路を求める
経路上にある部分空間を1こずつ求める
求めた部分空間へデータを射影し、それらをくっつけ特徴ベクトルを作成
識別器を学習
グラスマン多様体に落としこむ方法
グラスマン多様体 に落としこむ
元ドメインXのデータに対して、主成分分析(PCA)をかけ、主成分を得る
第1主成分から第d主成分まで行列の形に並べる
この行列(部分空間)が点S1
同様に目標ドメインX~の点S2も作る
ラベル付き
元ドメイン(X)
ラベルなし
目標ドメイン(X~)
グラスマン多様体
dNG ,
1S2S
ドメイン適応のアルゴリズム(1)
一定の速度Aの求め方
S1を始点としてS2を終点とする経路を考える
S1のorthogonal completion(直訳:直交完全)であるQを計算して求める
Qは以下の条件を満たさなければならない
に対し、薄型CS分解(行列をcosとsinの対角行列Γ、Σに分解する処理)を行い、以下を得る
以上で得られた、Σの対角成分σiから を求め、
のようにまとめる
V1、V2~をつかい、 を計算
Ndiag ,,, 21
2SQT
)(sin 1
ii
Id: d×dの単位行列
ドメイン適応のアルゴリズム(2)
経路上にある部分空間の導出
Aを特異値分解し、
Θの対角成分をθiとおくと、以下のように定義される
ここから経路にt’∊[0,1]を代入し、点をN’コ求める
N’コの点がN’コの部分空間となる
)'cos(,),'cos(),'cos(' 21 tttdiagt N
)'sin(,),'sin(),'sin(' 21 tttdiagt N
識別器の学習
得られたN’コの部分空間それぞれに元ドメインのラベルありデータを射影する
1つのデータの特徴ベクトルは、得られた射影結果(d次元)をN’コ並べて、 dN’×1の行列を作成
射影結果すべてを一つの行列にし、SVMなどのような識別器を学習させる
今回使った識別器:最近傍法
次元削減:PLS (部分最小二乗)回帰
認識させる時も射影してから認識させる
今回のドメイン適応の拡張
半教師ありにする場合
学習用データに目標ドメインのデータを混ぜる
元ドメインや目標ドメインを複数にする場合
元ドメインの点S1、 S2・・・の平均S1-をKarcher mean
という方法で計算する
同様に目標ドメインの点の平均S2-を出す
S1-とS2-を使い、今までと同様にドメイン適応する
実験1 Metric Leaningとの比較
Metric Leaning[3](半教師ありドメイン適応)と比較
データセット
31カテゴリ
ドメイン
webcam:ウェブカメラで撮った画像
dslr:デジタル一眼レフで撮った画像
amazon: amazon.comからダウンロードした画像
実験条件
元ドメインのラベル付きデータ:8枚/カテゴリ 目標ドメインの:3枚/カテゴリ
元ドメインは全カテゴリ、目標ドメインは前半のカテゴリを学習。残りの半分のカテゴリをテストに使う。
特徴量
ほぼBag-of-Features
ドメイン(amazon)からランダムに画像を選ぶとこが違う
コードブックのサイズ:800
経路上の部分空間:8コ
グラスマン多様体 はN=800。dは実験ごとで違う
dNG ,
[3] Kate Saenko, Brian Kulis, Mario Fritz and Trevor Darrel. Adapting Visual Category Models to
New Domains, ECCV2010
実験結果1 Metric Leaningとの比較
半教師ありでは全体的に上回っている
[1]より引用
(目標ドメインの前半16カテゴリをラベルあり、その他をラベルなしとして取り扱う)
(全部のカテゴリを少しずつ使う)
実験結果1 複数ドメイン
複数のドメインでドメイン適応
元ドメインのラベル付きデータ:8枚/カテゴリ 目標ドメインの:3枚/
カテゴリ
[1]より引用
実験結果1 Metric Leaningとの比較
検索に使ってみたらしい クエリ画像 検索結果
順位低
[1]より引用
amazon→dslr
目標ドメイン→元
dslr→webcam
webcam→dslr
amazon→webcam
webcam→amazon
実験2 Semi-supervised SVMとの比較
一番性能がいい時のSemi-supervised SVM[4]と比較
特徴量
2625次元ベクトル(意味的な属性2625コがあるかないか)
データセット
amazon、dslr、 webcam、 Bingの画像検索結果、Caltech256
比較項目
元ドメインのデータ数
目標ドメインのデータ数(ラベルあり)
比較しない項目
学習に使う部分空間の数
[4] Alessandro Bergamo Lorenzo Torresan . Exploiting weakly-labeled Web images to improve
object classification: a domain adaptation approach , nips2010
実験結果2 Semi-supervised SVM
Semi-supervised SVMとの比較
部分空間の数の性能差
[1]より引用
ここが教師なし
部分空間の数を大きくしすぎても
ダメらしい
最後に
ドメイン適応
ある分野の知識(サンプルのラベルや生起分布)を別の分野で使う手法
日本では転移学習の一種(トランスダクティブ転移学習)という言い方が一般的(?)
日本語 英語
ねこ いぬ cat dog
知識
参考文献
[1] Raghuraman Gopalan, Ruonan Li, and Rama Chellappa. Domain Adaptation for Object Recognition: An Unsupervised Approach, ICCV2011
[2] Kyle Gallivan , Anuj Srivastava , Xiuwen Liu , Paul Van Dooren . Efficient Algorithms For Inferences On Grassmann Manifolds,SSP2003
[3] Kate Saenko, Brian Kulis, Mario Fritz and Trevor Darrel. Adapting Visual Category Models to New Domains, ECCV2010
[4] Alessandro Bergamo Lorenzo Torresan . Exploiting weakly-labeled Web images to improve
object classification: a domain adaptation approach , nips2010