Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised Approach

勝手に要約

DOMAIN ADAPTATION

FOR OBJECT RECOGNITION:

AN UNSUPERVISED APPROACH

Raghuraman Gopalan, Ruonan Li, and Rama Chellappa, ICCV2011

要約者紹介

尾崎安範

所属：東京大学大学院情報理工学系研究科

修士２年

佐藤洋一研究室

Twitter:@alfredplpl

特徴統合による属性認識を研究していました

今は視線関係やってます

！事前の注意！

最近の数学を用いているため、

手法を細かく理解することは困難です。

手法を十分に理解したい人は他の論文を

読んでくださいみたいなことが本文に。

概念だけ理解してほしいと願っています。

転移学習に興味を持っていただければ幸いです。

一般物体認識

与えられた画像がどんな種類のものであるかを

答えてくれる処理

例：ケータイの画像をコンピュータに与えると

ケータイであると答えてくれる

Google+やPicasa Webの画像の自動タグ付けに使用されている*

画像は[1]より引用

ケータイだ！

*http://derivecv.tumblr.com/post/53021563144

http://derivecv.tumblr.com/post/53021563144



背景

すべての種類の物体を画像から識別するのは

困難

認識すべきカテゴリは莫大（例：いぬ、ねこ、・・・）

学習用データにラベルをつけるのは人手では大変

新しいモノにラベルをつけるのも大変

今までの知識（ラベルなど）を未知のものに使う

ドメイン適応という新しいアイデアを使う

ドメイン適応（domain adaptation）

ドメイン適応

ある分野の知識（サンプルのラベルや生起分布）を別の分野で使う手法

日本では転移学習の一種という言い方が一般的（？）

ドメイン（定義域）ある分野のデータ集合全体のこと

例：日本語、英語

知識を持っているドメインを元ドメイン(source domain)、

知識を持っていないドメインを目標ドメイン(target domain)という

日本語英語

ねこいぬ cat dog

知識

ドメイン適応の区分

教師なし(unsupervised)ドメイン適応

元ドメイン:ラベルあり、目標ドメイン:ラベルなし

半教師あり(semi-supervised)ドメイン適応

元ドメイン:ラベルあり、目標ドメイン:ラベルあり（少量）

ドメイン適応の実験例

検索に使ってみたらしいクエリ画像検索結果（クエリ画像とは別のドメイン）

順位低

[1]より引用

従来研究

自然言語処理ではコーパスを再利用するのに使われている

画像に対するものはまだ発達途中

半教師ありドメイン適応はいろいろある

各ドメインの共通要素から調べるなど

教師なしドメイン適応はほとんどない

そのため、半教師ありドメイン適応と比較

自然言語処理ではクラスタリングなどを使うらしい

今回のドメイン適応の説明する前に

グラスマン多様体

N次元ベクトル空間のd次元部分ベクトル空間すべてを包括する集合

と表現

今回の場合Nは特徴量の次元、dは実験ごとで適当に決められる

射影の仕方によるので部分空間は無限に存在する

要素（部分空間）を座標として扱えば、集合（グラスマン多様体）は空間として取り扱うことができる

dNG ,


今回のドメイン適応の簡単な説明

おおまかな方針

グラスマン多様体へ元ドメイン・目標ドメインのデータを、途中の空間を利用して認識する

ラベル付き

元ドメイン(X)

ラベルなし

目標ドメイン(X~)


1S2S

)'(t経路

今回のドメイン適応の実現方法

元ドメイン、目標ドメインのデータをグラスマン多様体に落としこむ(点S1,点S2)

S1からS2まで単位時間で移動する「グラスマン多様体上の速度」と経路を求める

経路上にある部分空間を１こずつ求める

求めた部分空間へデータを射影し、それらをくっつけ特徴ベクトルを作成

識別器を学習

グラスマン多様体に落としこむ方法

グラスマン多様体に落としこむ

元ドメインXのデータに対して、主成分分析（PCA）をかけ、主成分を得る

第1主成分から第d主成分まで行列の形に並べる

この行列（部分空間）が点S1

同様に目標ドメインX~の点S2も作る

ラベル付き

元ドメイン(X)

ラベルなし

目標ドメイン(X~)


dNG ,

1S2S

ドメイン適応のアルゴリズム(1)

一定の速度Aの求め方

S1を始点としてS2を終点とする経路を考える

S1のorthogonal completion（直訳:直交完全）であるQを計算して求める

Qは以下の条件を満たさなければならない

に対し、薄型CS分解(行列をcosとsinの対角行列Γ、Σに分解する処理)を行い、以下を得る

以上で得られた、Σの対角成分σiからを求め、

のようにまとめる

V1、V2~をつかい、を計算

Ndiag ,,, 21

2SQT

)(sin 1

ii

Id: d×dの単位行列

ドメイン適応のアルゴリズム(2)

経路上にある部分空間の導出

Aを特異値分解し、

Θの対角成分をθiとおくと、以下のように定義される

ここから経路にt’∊[0,1]を代入し、点をN’コ求める

N’コの点がN’コの部分空間となる

)'cos(,),'cos(),'cos(' 21 tttdiagt N

)'sin(,),'sin(),'sin(' 21 tttdiagt N

識別器の学習

得られたN’コの部分空間それぞれに元ドメインのラベルありデータを射影する

１つのデータの特徴ベクトルは、得られた射影結果（d次元）をN’コ並べて、 dN’×1の行列を作成

射影結果すべてを一つの行列にし、SVMなどのような識別器を学習させる

今回使った識別器：最近傍法

次元削減：PLS (部分最小二乗)回帰

認識させる時も射影してから認識させる

今回のドメイン適応の拡張

半教師ありにする場合

学習用データに目標ドメインのデータを混ぜる

元ドメインや目標ドメインを複数にする場合

元ドメインの点S1、 S2・・・の平均S1-をKarcher mean

という方法で計算する

同様に目標ドメインの点の平均S2-を出す

S1-とS2-を使い、今までと同様にドメイン適応する

実験１ Metric Leaningとの比較

Metric Leaning[3]（半教師ありドメイン適応）と比較

データセット

３１カテゴリ

ドメイン

webcam:ウェブカメラで撮った画像

dslr:デジタル一眼レフで撮った画像

amazon: amazon.comからダウンロードした画像

実験条件

元ドメインのラベル付きデータ：８枚/カテゴリ目標ドメインの：３枚/カテゴリ

元ドメインは全カテゴリ、目標ドメインは前半のカテゴリを学習。残りの半分のカテゴリをテストに使う。

特徴量

ほぼBag-of-Features

ドメイン（amazon）からランダムに画像を選ぶとこが違う

コードブックのサイズ：800

経路上の部分空間：８コ

グラスマン多様体はN=800。dは実験ごとで違う

dNG ,

[3] Kate Saenko, Brian Kulis, Mario Fritz and Trevor Darrel. Adapting Visual Category Models to

New Domains, ECCV2010

実験結果１ Metric Leaningとの比較

半教師ありでは全体的に上回っている

[1]より引用

（目標ドメインの前半１６カテゴリをラベルあり、その他をラベルなしとして取り扱う）

（全部のカテゴリを少しずつ使う）

実験結果１複数ドメイン

複数のドメインでドメイン適応

元ドメインのラベル付きデータ：８枚/カテゴリ目標ドメインの：３枚/

カテゴリ

[1]より引用

実験結果１ Metric Leaningとの比較

検索に使ってみたらしいクエリ画像検索結果

順位低

[1]より引用

amazon→dslr

目標ドメイン→元

dslr→webcam

webcam→dslr

amazon→webcam

webcam→amazon

実験２ Semi-supervised SVMとの比較

一番性能がいい時のSemi-supervised SVM[4]と比較

特徴量

2625次元ベクトル（意味的な属性2625コがあるかないか）

データセット

amazon、dslr、 webcam、 Bingの画像検索結果、Caltech256

比較項目

元ドメインのデータ数

目標ドメインのデータ数（ラベルあり）

比較しない項目

学習に使う部分空間の数

[4] Alessandro Bergamo Lorenzo Torresan . Exploiting weakly-labeled Web images to improve

object classification: a domain adaptation approach , nips2010

実験結果２ Semi-supervised SVM

Semi-supervised SVMとの比較

部分空間の数の性能差

[1]より引用

ここが教師なし

部分空間の数を大きくしすぎても

ダメらしい

最後に

ドメイン適応

ある分野の知識（サンプルのラベルや生起分布）を別の分野で使う手法

日本では転移学習の一種（トランスダクティブ転移学習）という言い方が一般的（？）

日本語英語

ねこいぬ cat dog

知識

参考文献

[1] Raghuraman Gopalan, Ruonan Li, and Rama Chellappa. Domain Adaptation for Object Recognition: An Unsupervised Approach, ICCV2011

[2] Kyle Gallivan , Anuj Srivastava , Xiuwen Liu , Paul Van Dooren . Efficient Algorithms For Inferences On Grassmann Manifolds,SSP2003

[3] Kate Saenko, Brian Kulis, Mario Fritz and Trevor Darrel. Adapting Visual Category Models to New Domains, ECCV2010

[4] Alessandro Bergamo Lorenzo Torresan . Exploiting weakly-labeled Web images to improve

object classification: a domain adaptation approach , nips2010

Technology

Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised Approach