22
独断と偏見に満ちたICCV2011報告 2011年12月17日 名古屋CV・PRML勉強会 藤吉弘亘 中部大学工学部情報工学科

ICCV2011 report

Embed Size (px)

DESCRIPTION

ICCV2001報告@名古屋CV・PRML勉強会(2011.12.17)

Citation preview

Page 1: ICCV2011 report

独断と偏見に満ちたICCV2011報告

2011年12月17日名古屋CV・PRML勉強会

藤吉弘亘中部大学工学部情報工学科

Page 2: ICCV2011 report

藤吉弘亘(Hironobu Fujiyoshi)所属:中部大学工学部情報工学科E-mail:[email protected]

藤吉研究室ゆかいな仲間たち:研究員1人、ドクター1人、マスター5人、学部生8人、秘書1人Twitter:@FLAB

Page 3: ICCV2011 report

藤吉研究室の最新研究成果紹介

ゆかいな仲間を募集中です!

Page 4: ICCV2011 report

International Conference on Computer Vision

• 日時:2011年11月6-13日‒ 6, 7日    チュートリアル、ワークショップ‒ 8, 9, 10, 11日 メインカンファレンス‒ 12, 13日   ワークショップ

‒ 場所:バルセロナ(スペイン)

ワークショップ メインカンファレンス

Page 5: ICCV2011 report

採択率とカテゴリー

Orals:45(3.1%) Posters:294(20.5%) 投稿数:1394

Page 6: ICCV2011 report

Azriel Rosenfeld Lifetime Achievement AwardProf. Thomas Huang

Significant Researchers AwardProf. Richard HartleyProf. Katsushi Ikeuchi

Test-of-time awardDavid Lowe  Object Recognition from Local Scale-Invariant Features, ICCV1999

Yuri Boykov, Olga Veksler, and Ramin Zabih Fast Approximate Energy Minimization via Graph Cuts, ICCV1999

Vincent Caselles, Ron Kimmel, and Guillermo Sapiro Geodesic Active Contours, ICCV1995

ICCV Awards

SIFT!

GraphCuts!

Page 7: ICCV2011 report

Advice on writing a book from Prof. Richard Hartley

Page 8: ICCV2011 report

Best Student PaperHaichao Zhang, Jianchao Yang, Yanning Zhang, Nasser M. Nasrabadi and Thomas S. HuangClose the Loop: Joint Blind Image Restoration and Recognition with Sparse Representation Prior

David Marr PrizeDevi Parikh and Kristen Grauman Relative Attributes

Demo AwardDTAM: dense tracking and mapping in real time (R.Newcombe, S.Lovegrove, A.Davison)

ICCV Awards

Page 9: ICCV2011 report

Orals & Psoters

オーラルの会場 ポスターの会場

Page 10: ICCV2011 report

SIFT以降のアプローチ

ICCV2011

Page 11: ICCV2011 report

バイナリコードの利点

• バイナリコードで特徴記述‒ SIFT:128次元×8bit (unsigned char)‒ 数十~数百個程度の0と1の列から成る短いバイナリコードで表現

• メリット‒ 大幅な省メモリ化が可能‒ ハミング距離による高速な距離計算

010010000010010101000000101

XOR

ハミング距離: 2

→SSE拡張命令で高速に演算可能

Page 12: ICCV2011 report

復習:BRIEF(ECCV2010)

• アルゴリズム‒ パッチをガウシアンフィルタにより平滑化‒ ランダムに選択されたペア(2点)の画素値の大小関係からバイナリ列を生成

キーポイント

パッチ

Page 13: ICCV2011 report

復習:BRIEF(ECCV2010)

GI GⅡ GⅢ GⅣ GⅤ

GI x, y : 一様分布GII x, y : ガウシアン分布G III x : ガウシアン分布,  y : ガウシアン分布(xiが中心)GIV x, y : 同心円状のグリッドからランダムに選択GV x : 中心点 y : 同心円状のグリッドからバイナリテストの数だけ選択

→評価実験よりGIIが一番良い精度

• ペアの選び方

Page 14: ICCV2011 report

• ペアの選び方

• キーポイント検出‒ 階層型のFASTコーナー検出器を利用→スケール‒ パッチのオリエンテーションはそれぞれの工夫あり

直接的にバイナリ化:BRISK, ORB

BRISK規則的に配置

ORB学習により決定

Page 15: ICCV2011 report

間接的にバイナリ化:CARD

• 勾配情報からバイナリコードを生成‒ LUTによる勾配特徴の高速計算

‒ 特徴ベクトルのバイナリ変換を高速化

相当し,QLPQM!1P}QQが量子化レベルの変換に相当する.

(10)式は複雑に見えるが,qP2, 3Qと aがそれぞれM通

りの値しか取りえないことに着目すると,図 10に示すよ

うに,M-Mのテーブルで表現できることが分かる.し

たがって,図 9,10 に示した 2種類のテーブルを用いるこ

とで,高速に勾配特徴量を算出できるようになる.

(b)バイナリコード化

特徴ベクトルをバイナリコードに変換するというアプロ

ーチは,機械学習や web,大規模検索の分野で活発に研

究されている.これまでの研究により,多くのバイナリコ

ード化手法は次の形で書けることが分かっている.

b/sgn PfPWTd+cQQ (11)

dは D次元の特徴ベクトル,bは長さ Bビットのバイナ

リコード,cはオフセットベクトル,Wは D行 B列の変

換行列,fP}Qは任意の関数である(dの平均がゼロベクト

ルになるようにあらかじめ変換されている場合,c/0と

してオフセット成分を無視することが多い).例えば,最

も単純な random projections と呼ばれる手法では,Wを

正規分布に従う乱数で生成し,fP}Qを恒等関数としてい

る.また Spectral Hashing11)では fP}Q を非線形関数,W

を学習データの主成分ベクトルとすることで,短いバイナ

リコード生成を実現している.

CARD は random projections と同様に,fP}Q を恒等関

数としているが,Wの生成方法に工夫がある.CARD で

は,次の 2 つの条件に基づいてWを最適化により求めて

いる.

1.バイナリコードに変換前の距離(ベクトル間角度)

と変換後の距離(ハミング距離)がなるべく一致す

るようにWを最適化する.

2.Wは S個の非ゼロ要素から成る疎行列であり,各要

素が T,1, 0, 1Uのうちいずれかの値のみを取るとい

う制約のもとでWを最適化する.

条件 1 により,生成されたバイナリコードは元々の特徴量

の記述能力を維持できるようになる.また,条件 2 によ

り,(11)式によるバイナリコードへの変換を高速に行え

るようになる.

直感的にはWが疎になればなるほど性能が劣化すると

考えられるが,興味深いことにWの要素が 90%程度ゼロ

であっても,密な行列の場合と性能がほとんど変わらない

ことが実験により確かめられている.これは高速化にとっ

て非常に都合が良い性質である.

なお,バイナリコードのビット長は目的に応じて任意に

決めることができるが,著者らは精度と速度のバランスの

観点から 128 bit 程度を推奨している.

4.ま と め

本稿では,SIFT 以降のアプローチとして,キーポイン

ト検出と特徴量記述の各処理が,どのように高速化および

省メモリ化されてきたかについて述べた.表 1に各手法

のまとめを示す.

今後は,より大量な画像をリアルタイムに処理すること

ができるように,スケール推定を含むキーポイント検出処

理において,さらなる高速化が期待される.また,特徴量

記述においては,特徴量の統計的性質に基づいてビット長

を圧縮するなど,さらなる省メモリ化が期待される.

参 考 文 献

1) D.G. Lowe : Object Recognition from Local Scale-Invariant

Features, Proc. International Conference on Computer Vision,

(1999) 1150-1157.

2) H. Bay, A. Ess, T. Tuytelaars and L.V. Gool : SURF : Speeded-Up

Robust Features, Proc. European Conference on Computer

Vision, (2006) 404-417.

3) E. Rosten and T. Drummond :Machine Learning for High-speed

Corner Detection, Proc. European Conference on Computer

Vision, (2006) 430-443.

4) G. Takacs, V. Chandrasekhar, S. Tsai, D. Chen, R. Grzesczuk and

B. Girod : Unified Real-Time Tracking and Recognition with

Rotation-Invariant Fast Features, Proc. Conference on Computer

Vision and Pattern Recognition, (2010) 934-941.

5) M. Calonder, V. Lepetit, C. Strecha and P. Fua : BRIEF : Binary

Robust Independent Elementary Features, Proc. European

Conference on Computer Vision, (2010) 778-792.

6) S. Leutenegger, M. Chli and R.Y. Siegwart : BRISK : Binary

Robust Invariant Scalable Keypoints, Proc. International

Conference on Computer Vision, (2011).

7) E. Rublee, V. Rabaud, K. Konolige and G. Bradski : ORB : An

局所勾配特徴抽出技術 ―SIFT 以降のアプローチ―

精密工学会誌 Vol.77, No.12, 2011 1115

510152025303540

5 10 15 25 30 403520

図 10 回転補正および量子化レベル変換

テーブル(M=40,L=8 のとき)

表 1 特徴量記述手法

手法 DetectorDescriptor

ソフトウェアアルゴリズム データ

SIFT(2004) DoG 勾配方向ヒストグラム ベクトル OpenCV

SURF(2006)Determinant

of Hessian勾配特徴量 ベクトル OpenCV

RIFF(2010) FAST 勾配特徴量 ベクトル 非公開

BRIEF(2010) ― バイナリコード化バイナリ

コードOpenCV

BRISK(2011)スケール不変

FAST回転不変BRIEF

バイナリ

コード公開

ORB(2011) Oriented FAST 回転不変 BRIEFバイナリ

コードOpenCV

CARD(2011)Good Features

to Track

LUTによる勾配

特徴量の高速演算

バイナリコード化

バイナリ

コード公開予定

1. バイナリコードに変換前の距離(ベクトル間角度) と変換後の距離(ハミング距離)がなるべく一致するように W を最適化2. 各要素が,+1, 0, -1 のうちいずれかの値のみを取るという制約のもとでWを最適化→和演算

Page 16: ICCV2011 report

ソースコード&アプリの公開

• BRISK:Binary Robust Invariant Scalable Keypoints‒ http://www.asl.ethz.ch/people/lestefan/personal/BRISK

• ORB:Oriented FAST and Rotated BRIEF‒ OepnCV ver2.3

• CARD:Compact And Real-time Descriptors‒ http://cvlab.jp/‒ iOSアプリ:CARDesc

Page 17: ICCV2011 report

解説記事:局所勾配特徴抽出技術-SIFT以降のアプローチ-

画像技術の最前線

局所勾配特徴抽出技術*

―SIFT以降のアプローチ―Gradient-based Image Local Features

藤吉弘亘** 安倍 満***

Hironobu FUJIYOSHI and Mitsuru AMBAI

Key words image local feature, SIFT, SURF, FAST, RIFF, BRIEF, BRISK, ORB, CARD

1.は じ め に

画像のスケール変化や回転に不変な特徴量を抽出する

Scale Invariant Feature Transform(SIFT)1)は,特定物体

認識だけではなく画像合成や画像分類など多くのアプリケ

ーションに利用されている.SIFT の処理過程は,キーポ

イント検出と特徴量記述の二段階からなり,各処理は以下

の流れとなる.

キーポイント検出 !1.スケールとキーポイント検出

2.キーポイントのローカライズ

特徴量記述 !3.オリエンテーションの算出

4.特徴量の記述

キーポイント検出処理では,Difference-of-Gaussian

(DoG)処理によりキーポイントのスケールと位置を検出

する.特徴量記述では,スケール内の勾配情報からオリエ

ンテーションを求め,キーポイント周辺領域(パッチ)を

オリエンテーション方向に回転させて特徴量を記述するこ

とで,回転に対して不変な特徴量を抽出する.SIFT で

は,キーポイント検出処理における DoG 画像の生成や,

特徴量記述処理における勾配ヒストグラム算出の計算コス

トが高いという問題がある.この問題を解決する高速化の

手法として,2006 年に SURF2)が提案された.SURF で

は,各処理において積分画像を利用した Box フィルタを

用いることで,SIFT と比較して約 10 倍の高速化を実現

した.近年では,高性能な PCだけではなく携帯端末等の

小型デバイスでの利用を考慮し,キーポイント検出と特徴

量記述の各処理を高速化および省メモリ化した手法が提案

されている.図 1に,キーポイント検出と特徴量記述に

おける SIFT 以降の変遷を示す.キーポイント検出処理で

は,コーナーに特化することで高速かつ省メモリを実現し

た FAST3)が提案された.FAST は,後述の特徴量記述手

法と組み合わせて使用される.特徴量記述の処理において

は,SIFT や SURF と同様に勾配特徴量に基づく RIFF4)

が 2010 年に提案された.SIFT では 128 次元,SURF で

は 64 次元,RIFF では 100 次元のベクトルが抽出される.

高次元のベクトル特徴量は,高い識別能力をもつ反面,メ

モリ消費量が多く,2010 年以降ではベクトル特徴量の代

わりにバイナリコードで特徴量を記述する手法が提案され

ている.パッチからバイナリコードを直接生成する手法と

して BRIEF5),BRISK

6),ORB

7)が,間接的にバイナリコ

ードを生成する手法として CARD8)が提案された.このよ

うに,SIFT と SURF 以降では,キーポイント検出および

特徴量記述において,高速化と省メモリ化を同時に実現す

る手法が展開されている.

本稿では,SIFT や SURF 以降のアプローチが,キーポ

イント検出と特徴量記述の各処理おいて,どのように展開

されてきたかを各手法のアルゴリズムとともに解説する.

2.キーポイント検出

SIFT では,複数の DoG 画像からキーポイントを検出

するのと同時に,キーポイントを中心とした特徴量記述を

行う範囲を表すスケールも検出する.DoG 画像の作成は

計算コストが高い上,複数の DoG 画像を保持するための

メモリを要するという問題点がある.キーポイント検出の

高速化として,SURF では積分画像を利用した Box フィ

ルタを用い高速化を実現した.Edward らが提案した

精密工学会誌 Vol.77, No.12, 2011 1109

*原稿受付 平成 23 年 10月 3日

**中部大学工学部情報工学科(愛知県春日井市松

本町 1200)***(株)デンソーアイティーラボラトリ(東京都渋

谷区二丁目 15番 1号渋谷クロスタワー 25階)

藤吉弘亘1997年中部大学大学院博士後期課程修了.博士

(工学).1997∼2000 年米カーネギーメロン大学

ロボット工学研究所 Postdoctoral Fellow.2000

年中部大学講師,2004 年同大准教授を経て 2010 年より同大教授.

2005∼2006 年米カーネギーメロン大学ロボット工学研究所客員研究員.

2010 年計算機視覚,動画像処理,パターン認識・理解の研究に従事.2005

年度ロボカップ研究賞.2009年度情報処理学会論文誌コンピュータビジョ

ンとイメージメディア優秀論文賞.2009年度山下記念研究賞.情報処理学

会,電子情報通信学会,電気学会,IEEE各会員.

安倍 満2007年慶應義塾大学大学院博士後期課程修了.博士(工学).2007年株式

会社デンソーアイティーラボラトリシニアエンジニア.2011 年画像センシ

ングシンポジウム(SSII)オーディエンス賞.2011 年画像の認識・理解シ

ンポジウム(MIRU)インタラクティブセッション賞.パターン認識・理

解,コンピュータビジョンの研究に従事.電子情報通信学会,IEEE 各

会員.

藤吉, 安倍:”局所勾配特徴抽出 -SIFT以降のアプローチ-”精密工学会誌 2011年12月 77巻12号 pp.1109-1116

Page 18: ICCV2011 report

参加したチュートリアル1:PCL

• Point Cloud Library(PCL)

‒ http://pointclouds.org/media/iccv2011.html

PCL: Point Cloud Library

PCL is:I a large scale, open project1 for 3D point cloud processingI ...split into a collection of smaller, modular C++ libraries:

filters features keypoints registration

kdtree octree segmentation sample_consensus

surface range_image io visualization

1source code is BSD licensed, management process is completely open

Page 19: ICCV2011 report

参加したチュートリアル2:Decision Forests

• Decision Forests‒ Classification, Regression, Density Estimation, Manifold Learning and Semi-Supervised Learning

‒ http://research.microsoft.com/en-us/groups/vision/decisionforests.aspx

Page 20: ICCV2011 report

参加したワークショップ:CDC4CV

• 1st IEEE Workshop on Consumer Depth Cameras for Computer Vision

‒ Invited talk‒ Jamie Shotton, Microsoft Research, UK 「Kinect: Classification, Regression, and Beyond」

‒ Gary Bradski, Willow Garage, US 「Tools for 2D+3D Robot Object Recognition」

‒ 第1回目のWorkshopなのに32%の採択率

Page 21: ICCV2011 report

参加したワークショップ:CDC4CV

• Kinect: Classification, Regression, and Beyond1. Decision ForestsによるKINECTの姿勢推定 [CVPR2011]2. Regression Forestsによる姿勢推定の高精度化 [ICCV2011]3. KNECT Fusion 三次元情報の獲得 [SIGGRAPH2011]

[ICCV2011]

Page 22: ICCV2011 report

最後に

• トップカンファレンスはメインカンファレンスだけでなく、チュートリアルやワークショップも面白い

• 研究のスピードBREIFはECCV2010、それを受けたORBやBRISKがICCV2011で発表発表された研究は既に古い!?