春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

「コンピュータビジョンとイメージメディア（CVIM）」分野

の最新動向

春の情報処理祭り

2015.3.16

京都大学橋本敦史

1

自己紹介• 橋本敦史

–京都大学博士（情報学）

–出身：札幌北高校

–研究分野: 画像処理，パターン認識，HCI, 食メディア…

–学会活動

• 情報処理学会 CVIM研究会運営委員

• 信学会マルチメディア・仮想環境基礎研究会専門委員

• 信学会食メディア研究会専門委員

–その他

• 経産省Vulcanus in Europe 2006 国費奨学生として独語の語学研修(4ヶ月)，独・Leica Camera社にてインターン(8ヶ月)

2

本日の発表について

1. 技術的な詳細は省略

–一部は資料へのリンクのみ提供

2. 皆さんのバックグラウンドとの出会いに期待

–多くのトピックを紹介

3. 技術的限界なども省略

–紹介する技術の多くは現在進行形

– コラボするなら相手(CVIMの研究者)側にとってもチャレンジングな方が良い．

3

CVIMってどんな分野?

コンピュータの中の世界と実世界をつなぐ窓

イメージングデバイス

人ドライブレコード

端末ネットワーク

診察・診断街角

計算機の中の世界実世界

4

諸問題を極限まで一般化すると…

実世界の事象を計算機で扱える記号/数値に変換する


観測 y

観測対象

推定値 x

5

諸問題を極限まで一般化すると…

実世界の事象を計算機で扱える記号/数値に変換する


観測 y

観測対象

推定値 x

x = argmax F(y|x)

6

Computer Vision≒画像処理？

• 画像処理はComputer Visionの一部

– Computer Vision ⊃画像処理

• もちろん，最も重要な分野

–まずは画像処理について，範囲を絞って紹介

7

画像処理の多様な課題

• ノイズの除去

• カメラの動き推定

• ……

• 物体認識

–画像中のどの領域が，何の物体なのか

物体認識領域分割

湯呑み

大葉

いくら

雲丹 8

物体領域の推定


観測 y物体の場所+ラベル

背景差分/動き抽出/画像中の物体検索

ab

9

物体モデルの学習

90’年代

00’年代

10’年代

窓探索+物体認識

特徴点抽出+投票(ISM)

おおよその時期

物体領域の推定

背景差分動き検出

RGBの比較

HLSの比較

最適色空間の学習

PCAによるモデル化

GMMによるモデル化

増分符号相関(国産)TexCut(私の手法)

フレーム間差分

点追跡結果のクラスタリング

肌色検出（人物領域の推定）

Deformable Shape Model

10

物体認識


観測 y+物体領域

商品名/人名/

物体名/ etc…

特徴抽出+識別器http://www.publicdomainpictures.net/ 他

11

識別器物体特徴

90’年代

00’年代

10’年代

画素値そのもの + テンプレートマッチング

k-Nearest Neighbor

Real AdaBoost

Random Forest

Support Vector Machine

分類木


Bag of Visual Words

Convolutional Neural Network

色ヒストグラム

フーリエ記述子Hu Histogram

ガボールフィルタバンク

Wavelet

Haar-Like特徴

Histgram of Oriented Gradient (HOG)

12

識別器物体特徴

90’年代

00’年代

10’年代

画素値そのもの + テンプレートマッチング

k-Nearest Neighbor

Real AdaBoost

Random Forest

Support Vector Machine

分類木


Bag of Visual Words

Convolutional Neural Network

色ヒストグラム

フーリエ記述子Hu Histogram

ガボールフィルタバンク/gist

Wavelet

Haar-Like特徴

Histgram of Oriented Gradient (HOG)

OpenCVから簡単に利用可能 scikit-learn および libsvm等から利用可能

Caffeから簡単に利用可能 13

Convolutional Neural Network(CNN)

• いわゆる Deep Learning の画像処理版

–地理的関係を考慮している(poolingなど)

• Deep Face などの応用が特に有名

– Yann LeCan (Director of AI Research, Facebook )

“ImageNet Classification with Deep Convolutional Neural Networks”より引用

14

Structure from Motion(SfM)


観測 y 観測yの各画素に対する3D世界座標

Bundle Adjustment

Building Rome in a Day

15

Structure from Motion(SfM)

• Building Rome in a Day（ローマを一日で成す）

– http://grail.cs.washington.edu/rome/

• PTAM

– http://www.robots.ox.ac.uk/~gk/PTAM/

• 鍵となる技術

– Bundle Adjustment (束調整)

16

http://grail.cs.washington.edu/rome/

http://www.robots.ox.ac.uk/~gk/PTAM/

勉強のための資料

• 画像処理全般– コンピュータビジョン―アルゴリズムと応用―

– “Visual Object Detection, Recognition and Tracking,” Yu Huang

• http://goo.gl/jgkgI8 (英語)

• Convolutional Neural Network

– Deep Learning 〜使いこなすために知っておきたいこと〜(中部大・山下先生)

• http://goo.gl/7hvCTR (日本語)

(共立出版)

17

http://goo.gl/jgkgI8

http://goo.gl/7hvCTR

研究資源

• CV Datasets on the web

– http://www.cvpapers.com/datasets.html

• ImageNet （WordNetに対応した画像データセット）

– http://www.image-net.org/

• Kyoto Univ. Smart Kitchen Dataset

–調理作業のデータセット

– CookPadのレシピ20種類に対応した作業

– http://kusk.mm.media.kyoto-u.ac.jp18

http://www.cvpapers.com/datasets.html

http://www.image-net.org/

Toolbox

1. OpenCV (c/c++)

–画像処理全般を対象としたライブラリ

–派生 scikit-image (python)

2. Caffe (python/c++)

– CNNのライブラリ．Mac/Linuxのみサポート

3. Point Cloud Library (c/c++)

– 3Dの点群データ処理に特化

19

http://opencv.org/

http://caffe.berkeleyvision.org

http://pointclouds.org/

観測できる世界はデバイスで変わる






20


2D

3D

静止画動画

デジカメビデオカメラ

ハイスピードカメラ

電子顕微鏡

多視点カメラ

X線

タイムフライトカメラ

(Kinect v2)Shape from X

Femto Photography

可視光

赤外線

紫外線

ハイパースペクトル

観測対象

観測機器/プロジェクタで取れるものが大きく変わる

磁気共鳴画像

…

21

Computational Photography






計算機による処理を前提とした特殊なデバイスの利用

22

Light Field Camera

Jason C. Yang et al., “A Real-Time Distributed Light FieldCamera,” Eurographics Workshop on Rendering 2002

-少しずつ視点がずれた多数の低解像度のカメラ→ 統合すると撮影後に自由に焦点を変えられる高解像度画像が得られる（キーとなる技術: 超解像）

- Depth from Defocusによる3次元画像取得https://pictures.lytro.com/lytro

https://www.lytro.com/

23

https://pictures.lytro.com/lytro

Light Field Display

Douglas Lanman David Luebke, “Near-Eye Light-Field Displays,” SIGGRAPH Asia 201324


より積極的に実世界へ働きかける






25


より積極的に実世界へ働きかける






プロジェクタ/照明/etc…

26

三次元形状計測(Shape from X)

• 様々なものを利用した三次元形状獲得手法

照度差ステレオ法

色は三次元表面の法線方向

http://perception.csl.illinois.edu/matrix-rank/stereo.html

パターン光投影法

阿久澤ら，”ワンショットスキャン法による獲得形状を利用した様々な姿勢を表現可能な手形状モデルの構築” MIRU2012

27

物体表面の光の反射の測定

Y. Mukaigawa et al. “Rapid BRDF measurement using an ellipsoidal mirror and a projector,”IPSJ Transaction on Computer Vision and Application

CGの龍の表面に実物体の材質のパラメータを設定

古いペニー

新しいペニー

28

実世界への上手い働きかけを考える

多くの問題は不良設定→上手い拘束条件で可解な問題へ変換


観測 y

観測対象

推定値 x

観測対象への働きかけ拘束条件など x = argmax F(y|x)

29

Xbox360 Kinect (2010)

赤外光（人には不可視）のパターン光を照射

Shooting Kinect by HDR-XR500(Nightshot mode)

http://goo.gl/dDCvjC

- Kinect v2 for windows (2014)では，この方式ではなく，Time of Flight方式に変更- SDK: http://www.microsoft.com/en-us/kinectforwindows/develop/

赤外パターン光のプロジェクタ

赤外光カメラ

RGBカメラ三角測量

（画素毎に距離計測）

https://www.youtube.com/watch?v=eCbURRDUUdI

なりきりウルトラマンセブン

30

http://goo.gl/dDCvjC

http://www.microsoft.com/en-us/kinectforwindows/develop/

https://www.youtube.com/watch?v=eCbURRDUUdI

X + CV によるイノベーション






プロジェクタ/照明

31

X + CV によるイノベーション






プロジェクタ/照明

他の情報システム

32

技術(機械翻訳) + CV

• Translator (Microsoft)

– http://goo.gl/EU3GnB

文字候補領域の検出

領域をグループ毎に分ける

グループ毎の文認識

機械翻訳

the 1st workshop on Robust Readingin conjunction with ACCV2014 33

http://goo.gl/EU3GnB

場(キッチン)+CV

物体へのアクセスに基づいた作業者意図感知ナビゲーション 34


橋本他，”机上物体検出を対象とした接触理由付けによる誤検出棄却” 201235


• 自然言語処理

–レシピや，レシピブログの解析

• VR

–五感の錯覚による食感提示

– meta cookie++

• 医療

–認知症患者へのリハビリ

–レコーディングダイエット支援（Food Logアプリ)

36

研究資源(2)• Pascal-sentence

– http://vision.cs.uiuc.edu/pascal-sentences

• Kyoto Univ. Smart Kitchen Dataset(※

–調理作業を多数のセンサで観測したデータセット

• CookPadのレシピ20種類に対応した作業

• http://kusk.mm.media.kyoto-u.ac.jp

–対応する自然言語側のデータベースも．

• http://plata.ar.media.kyoto-

u.ac.jp/mori/research/NLR/FGC/main.html

※) A. Hashimoto et al，”KUSK Dataset: Toward a Direct. Understanding of Recipe Text andHuman Cooking Activity, 2014

37

http://vision.cs.uiuc.edu/pascal-sentences

http://kusk.mm.media.kyoto-u.ac.jp

この分野に関連するセッション• 初日 [3/17(火)]

– 距離画像処理: [1T会場］ (9:30〜12:00, 学生)

– 画像解析・評価: ［1D会場］（9:30〜12:00,一般）

– 画像特徴: ［2P会場］（13:00〜15:30,学生）

• 二日目[3/18(水)]– 画像処理・認識: ［3R会場］（9:30〜12:00, 学生）

– ロボットビジョン: [3ZG会場] （9:30〜12:00, 学生）

– 画像特徴抽出: ［4C会場］（15:20〜17:50, 一般）

• 三日目[3/19(木)]– 画像復元・評価: ［5ZG会場］（9:30〜12:00, 学生）

– 画像分析: ［6Q会場］（14:40〜17:10, 学生）38

まとめ• 画像処理

–物体領域推定，物体認識，…

– Computational Photography

• 画像処理 + 実世界への働きかけ

– Shape from X

–人間に不可視な光の投影

• 画像処理 + 実世界への働きかけ + X

– CV + 技術

– CV + 場

39

Documents

春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本