39
コンピュータビジョンと イメージメディアCVIM)」分野 の最新動向 春の情報処理祭り 2015.3.16 京都大学 橋本敦史 1

春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

Embed Size (px)

Citation preview

Page 1: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

「コンピュータビジョンとイメージメディア(CVIM)」分野

の最新動向

春の情報処理祭り

2015.3.16

京都大学橋本敦史

1

Page 2: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

自己紹介• 橋本敦史

–京都大学博士(情報学)

–出身:札幌北高校

–研究分野: 画像処理,パターン認識,HCI, 食メディア…

–学会活動

• 情報処理学会 CVIM研究会運営委員

• 信学会マルチメディア・仮想環境基礎研究会専門委員

• 信学会食メディア研究会専門委員

–その他

• 経産省Vulcanus in Europe 2006 国費奨学生として独語の語学研修(4ヶ月),独・Leica Camera社にてインターン(8ヶ月)

2

Page 3: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

本日の発表について

1. 技術的な詳細は省略

–一部は資料へのリンクのみ提供

2. 皆さんのバックグラウンドとの出会いに期待

–多くのトピックを紹介

3. 技術的限界なども省略

–紹介する技術の多くは現在進行形

– コラボするなら相手(CVIMの研究者)側にとってもチャレンジングな方が良い.

3

Page 4: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

CVIMってどんな分野?

コンピュータの中の世界と実世界をつなぐ窓

イメージングデバイス

人ドライブレコード

端末ネットワーク

診察・診断 街角

計算機の中の世界実世界

4

Page 5: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

諸問題を極限まで一般化すると…

実世界の事象を計算機で扱える記号/数値に変換する

計算機の中の世界実世界

観測 y

観測対象

推定値 x

5

Page 6: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

諸問題を極限まで一般化すると…

実世界の事象を計算機で扱える記号/数値に変換する

計算機の中の世界実世界

観測 y

観測対象

推定値 x

x = argmax F(y|x)

6

Page 7: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

Computer Vision≒画像処理?

• 画像処理はComputer Visionの一部

– Computer Vision ⊃画像処理

• もちろん,最も重要な分野

–まずは画像処理について,範囲を絞って紹介

7

Page 8: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

画像処理の多様な課題

• ノイズの除去

• カメラの動き推定

• ……

• 物体認識

–画像中のどの領域が,何の物体なのか

物体認識領域分割

湯呑み

大葉

いくら

雲丹 8

Page 9: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

物体領域の推定

計算機の中の世界実世界

観測 y物体の場所+ラベル

背景差分/動き抽出/画像中の物体検索

ab

9

Page 10: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

物体モデルの学習

90’年代

00’年代

10’年代

窓探索+物体認識

特徴点抽出+投票(ISM)

おおよその時期

物体領域の推定

背景差分 動き検出

RGBの比較

HLSの比較

最適色空間の学習

PCAによるモデル化

GMMによるモデル化

増分符号相関(国産)TexCut(私の手法)

フレーム間差分

点追跡結果のクラスタリング

肌色検出(人物領域の推定)

Deformable Shape Model

10

Page 11: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

物体認識

計算機の中の世界実世界

観測 y+物体領域

商品名/人名/

物体名/ etc…

特徴抽出+識別器http://www.publicdomainpictures.net/ 他

11

Page 12: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

識別器物体特徴

90’年代

00’年代

10’年代

画素値そのもの + テンプレートマッチング

k-Nearest Neighbor

Real AdaBoost

Random Forest

Support Vector Machine

分類木

おおよその時期

Bag of Visual Words

Convolutional Neural Network

色ヒストグラム

フーリエ記述子Hu Histogram

ガボールフィルタバンク

Wavelet

Haar-Like特徴

Histgram of Oriented Gradient (HOG)

12

Page 13: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

識別器物体特徴

90’年代

00’年代

10’年代

画素値そのもの + テンプレートマッチング

k-Nearest Neighbor

Real AdaBoost

Random Forest

Support Vector Machine

分類木

おおよその時期

Bag of Visual Words

Convolutional Neural Network

色ヒストグラム

フーリエ記述子Hu Histogram

ガボールフィルタバンク/gist

Wavelet

Haar-Like特徴

Histgram of Oriented Gradient (HOG)

OpenCVから簡単に利用可能 scikit-learn および libsvm等から利用可能

Caffeから簡単に利用可能 13

Page 14: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

Convolutional Neural Network(CNN)

• いわゆる Deep Learning の画像処理版

–地理的関係を考慮している(poolingなど)

• Deep Face などの応用が特に有名

– Yann LeCan (Director of AI Research, Facebook )

“ImageNet Classification with Deep Convolutional Neural Networks”より引用

14

Page 15: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

Structure from Motion(SfM)

計算機の中の世界実世界

観測 y 観測yの各画素に対する3D世界座標

Bundle Adjustment

Building Rome in a Day

15

Page 16: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

Structure from Motion(SfM)

• Building Rome in a Day(ローマを一日で成す)

– http://grail.cs.washington.edu/rome/

• PTAM

– http://www.robots.ox.ac.uk/~gk/PTAM/

• 鍵となる技術

– Bundle Adjustment (束調整)

16

Page 17: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

勉強のための資料

• 画像処理全般– コンピュータビジョン―アルゴリズムと応用―

– “Visual Object Detection, Recognition and Tracking,” Yu Huang

• http://goo.gl/jgkgI8 (英語)

• Convolutional Neural Network

– Deep Learning 〜使いこなすために知っておきたいこと〜(中部大・山下先生)

• http://goo.gl/7hvCTR (日本語)

(共立出版)

17

Page 18: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

研究資源

• CV Datasets on the web

– http://www.cvpapers.com/datasets.html

• ImageNet (WordNetに対応した画像データセット)

– http://www.image-net.org/

• Kyoto Univ. Smart Kitchen Dataset

–調理作業のデータセット

– CookPadのレシピ20種類に対応した作業

– http://kusk.mm.media.kyoto-u.ac.jp18

Page 19: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

Toolbox

1. OpenCV (c/c++)

–画像処理全般を対象としたライブラリ

–派生 scikit-image (python)

2. Caffe (python/c++)

– CNNのライブラリ.Mac/Linuxのみサポート

3. Point Cloud Library (c/c++)

– 3Dの点群データ処理に特化

19

Page 20: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

観測できる世界はデバイスで変わる

イメージングデバイス

人ドライブレコード

端末ネットワーク

診察・診断 街角

計算機の中の世界実世界

20

Page 21: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

イメージングデバイス

2D

3D

静止画 動画

デジカメ ビデオカメラ

ハイスピードカメラ

電子顕微鏡

多視点カメラ

X線

タイムフライトカメラ

(Kinect v2)Shape from X

Femto Photography

可視光

赤外線

紫外線

ハイパースペクトル

観測対象

観測機器/プロジェクタで取れるものが大きく変わる

磁気共鳴画像

21

Page 22: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

Computational Photography

イメージングデバイス

人ドライブレコード

端末ネットワーク

診察・診断 街角

計算機の中の世界実世界

計算機による処理を前提とした特殊なデバイスの利用

22

Page 23: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

Light Field Camera

Jason C. Yang et al., “A Real-Time Distributed Light FieldCamera,” Eurographics Workshop on Rendering 2002

-少しずつ視点がずれた多数の低解像度のカメラ→ 統合すると撮影後に自由に焦点を変えられる高解像度画像が得られる(キーとなる技術: 超解像)

- Depth from Defocusによる3次元画像取得https://pictures.lytro.com/lytro

https://www.lytro.com/

23

Page 24: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

Light Field Display

Douglas Lanman David Luebke, “Near-Eye Light-Field Displays,” SIGGRAPH Asia 201324

Page 25: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

CVIMってどんな分野?

より積極的に実世界へ働きかける

イメージングデバイス

人ドライブレコード

端末ネットワーク

診察・診断 街角

計算機の中の世界実世界

25

Page 26: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

CVIMってどんな分野?

より積極的に実世界へ働きかける

イメージングデバイス

人ドライブレコード

端末ネットワーク

診察・診断 街角

計算機の中の世界実世界

プロジェクタ/照明/etc…

26

Page 27: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

三次元形状計測(Shape from X)

• 様々なものを利用した三次元形状獲得手法

照度差ステレオ法

色は三次元表面の法線方向

http://perception.csl.illinois.edu/matrix-rank/stereo.html

パターン光投影法

阿久澤ら,”ワンショットスキャン法による獲得形状を利用した様々な姿勢を表現可能な手形状モデルの構築” MIRU2012

27

Page 28: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

物体表面の光の反射の測定

Y. Mukaigawa et al. “Rapid BRDF measurement using an ellipsoidal mirror and a projector,”IPSJ Transaction on Computer Vision and Application

CGの龍の表面に実物体の材質のパラメータを設定

古いペニー

新しいペニー

28

Page 29: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

実世界への上手い働きかけを考える

多くの問題は不良設定→上手い拘束条件で可解な問題へ変換

計算機の中の世界実世界

観測 y

観測対象

推定値 x

観測対象への働きかけ拘束条件など x = argmax F(y|x)

29

Page 30: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

Xbox360 Kinect (2010)

赤外光(人には不可視)のパターン光を照射

Shooting Kinect by HDR-XR500(Nightshot mode)

http://goo.gl/dDCvjC

- Kinect v2 for windows (2014)では,この方式ではなく,Time of Flight方式に変更- SDK: http://www.microsoft.com/en-us/kinectforwindows/develop/

赤外パターン光のプロジェクタ

赤外光カメラ

RGBカメラ三角測量

(画素毎に距離計測)

https://www.youtube.com/watch?v=eCbURRDUUdI

なりきりウルトラマンセブン

30

Page 31: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

X + CV によるイノベーション

イメージングデバイス

人ドライブレコード

端末ネットワーク

診察・診断 街角

計算機の中の世界実世界

プロジェクタ/照明

31

Page 32: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

X + CV によるイノベーション

イメージングデバイス

人ドライブレコード

端末ネットワーク

診察・診断 街角

計算機の中の世界実世界

プロジェクタ/照明

他の情報システム

32

Page 33: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

技術(機械翻訳) + CV

• Translator (Microsoft)

– http://goo.gl/EU3GnB

文字候補領域の検出

領域をグループ毎に分ける

グループ毎の文認識

機械翻訳

the 1st workshop on Robust Readingin conjunction with ACCV2014 33

Page 34: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

場(キッチン)+CV

物体へのアクセスに基づいた作業者意図感知ナビゲーション 34

Page 35: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

場(キッチン)+CV

橋本他,”机上物体検出を対象とした接触理由付けによる誤検出棄却” 201235

Page 36: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

場(キッチン)+CV

• 自然言語処理

–レシピや,レシピブログの解析

• VR

–五感の錯覚による食感提示

– meta cookie++

• 医療

–認知症患者へのリハビリ

–レコーディングダイエット支援(Food Logアプリ)

36

Page 37: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

研究資源(2)• Pascal-sentence

– http://vision.cs.uiuc.edu/pascal-sentences

• Kyoto Univ. Smart Kitchen Dataset(※

–調理作業を多数のセンサで観測したデータセット

• CookPadのレシピ20種類に対応した作業

• http://kusk.mm.media.kyoto-u.ac.jp

–対応する自然言語側のデータベースも.

• http://plata.ar.media.kyoto-

u.ac.jp/mori/research/NLR/FGC/main.html

※) A. Hashimoto et al,”KUSK Dataset: Toward a Direct. Understanding of Recipe Text andHuman Cooking Activity, 2014

37

Page 38: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

この分野に関連するセッション• 初日 [3/17(火)]

– 距離画像処理: [1T会場] (9:30〜12:00, 学生)

– 画像解析・評価: [1D会場] (9:30〜12:00,一般)

– 画像特徴: [2P会場] (13:00〜15:30,学生)

• 二日目[3/18(水)]– 画像処理・認識: [3R会場] (9:30〜12:00, 学生)

– ロボットビジョン: [3ZG会場] (9:30〜12:00, 学生)

– 画像特徴抽出: [4C会場] (15:20〜17:50, 一般)

• 三日目[3/19(木)]– 画像復元・評価: [5ZG会場](9:30〜12:00, 学生)

– 画像分析: [6Q会場] (14:40〜17:10, 学生)38

Page 39: 春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

まとめ• 画像処理

–物体領域推定,物体認識,…

– Computational Photography

• 画像処理 + 実世界への働きかけ

– Shape from X

–人間に不可視な光の投影

• 画像処理 + 実世界への働きかけ + X

– CV + 技術

– CV + 場

39