Upload
atsushi-hashimoto
View
736
Download
0
Embed Size (px)
Citation preview
「コンピュータビジョンとイメージメディア(CVIM)」分野
の最新動向
春の情報処理祭り
2015.3.16
京都大学橋本敦史
1
自己紹介• 橋本敦史
–京都大学博士(情報学)
–出身:札幌北高校
–研究分野: 画像処理,パターン認識,HCI, 食メディア…
–学会活動
• 情報処理学会 CVIM研究会運営委員
• 信学会マルチメディア・仮想環境基礎研究会専門委員
• 信学会食メディア研究会専門委員
–その他
• 経産省Vulcanus in Europe 2006 国費奨学生として独語の語学研修(4ヶ月),独・Leica Camera社にてインターン(8ヶ月)
2
本日の発表について
1. 技術的な詳細は省略
–一部は資料へのリンクのみ提供
2. 皆さんのバックグラウンドとの出会いに期待
–多くのトピックを紹介
3. 技術的限界なども省略
–紹介する技術の多くは現在進行形
– コラボするなら相手(CVIMの研究者)側にとってもチャレンジングな方が良い.
3
CVIMってどんな分野?
コンピュータの中の世界と実世界をつなぐ窓
イメージングデバイス
人ドライブレコード
端末ネットワーク
診察・診断 街角
計算機の中の世界実世界
4
諸問題を極限まで一般化すると…
実世界の事象を計算機で扱える記号/数値に変換する
計算機の中の世界実世界
観測 y
観測対象
推定値 x
5
諸問題を極限まで一般化すると…
実世界の事象を計算機で扱える記号/数値に変換する
計算機の中の世界実世界
観測 y
観測対象
推定値 x
x = argmax F(y|x)
6
Computer Vision≒画像処理?
• 画像処理はComputer Visionの一部
– Computer Vision ⊃画像処理
• もちろん,最も重要な分野
–まずは画像処理について,範囲を絞って紹介
7
画像処理の多様な課題
• ノイズの除去
• カメラの動き推定
• ……
• 物体認識
–画像中のどの領域が,何の物体なのか
物体認識領域分割
湯呑み
大葉
いくら
雲丹 8
物体領域の推定
計算機の中の世界実世界
観測 y物体の場所+ラベル
背景差分/動き抽出/画像中の物体検索
ab
9
物体モデルの学習
90’年代
00’年代
10’年代
窓探索+物体認識
特徴点抽出+投票(ISM)
おおよその時期
物体領域の推定
背景差分 動き検出
RGBの比較
HLSの比較
最適色空間の学習
PCAによるモデル化
GMMによるモデル化
増分符号相関(国産)TexCut(私の手法)
フレーム間差分
点追跡結果のクラスタリング
肌色検出(人物領域の推定)
Deformable Shape Model
10
物体認識
計算機の中の世界実世界
観測 y+物体領域
商品名/人名/
物体名/ etc…
特徴抽出+識別器http://www.publicdomainpictures.net/ 他
11
識別器物体特徴
90’年代
00’年代
10’年代
画素値そのもの + テンプレートマッチング
k-Nearest Neighbor
Real AdaBoost
Random Forest
Support Vector Machine
分類木
おおよその時期
Bag of Visual Words
Convolutional Neural Network
色ヒストグラム
フーリエ記述子Hu Histogram
ガボールフィルタバンク
Wavelet
Haar-Like特徴
Histgram of Oriented Gradient (HOG)
12
識別器物体特徴
90’年代
00’年代
10’年代
画素値そのもの + テンプレートマッチング
k-Nearest Neighbor
Real AdaBoost
Random Forest
Support Vector Machine
分類木
おおよその時期
Bag of Visual Words
Convolutional Neural Network
色ヒストグラム
フーリエ記述子Hu Histogram
ガボールフィルタバンク/gist
Wavelet
Haar-Like特徴
Histgram of Oriented Gradient (HOG)
OpenCVから簡単に利用可能 scikit-learn および libsvm等から利用可能
Caffeから簡単に利用可能 13
Convolutional Neural Network(CNN)
• いわゆる Deep Learning の画像処理版
–地理的関係を考慮している(poolingなど)
• Deep Face などの応用が特に有名
– Yann LeCan (Director of AI Research, Facebook )
“ImageNet Classification with Deep Convolutional Neural Networks”より引用
14
Structure from Motion(SfM)
計算機の中の世界実世界
観測 y 観測yの各画素に対する3D世界座標
Bundle Adjustment
Building Rome in a Day
15
Structure from Motion(SfM)
• Building Rome in a Day(ローマを一日で成す)
– http://grail.cs.washington.edu/rome/
• PTAM
– http://www.robots.ox.ac.uk/~gk/PTAM/
• 鍵となる技術
– Bundle Adjustment (束調整)
16
勉強のための資料
• 画像処理全般– コンピュータビジョン―アルゴリズムと応用―
– “Visual Object Detection, Recognition and Tracking,” Yu Huang
• http://goo.gl/jgkgI8 (英語)
• Convolutional Neural Network
– Deep Learning 〜使いこなすために知っておきたいこと〜(中部大・山下先生)
• http://goo.gl/7hvCTR (日本語)
(共立出版)
17
研究資源
• CV Datasets on the web
– http://www.cvpapers.com/datasets.html
• ImageNet (WordNetに対応した画像データセット)
– http://www.image-net.org/
• Kyoto Univ. Smart Kitchen Dataset
–調理作業のデータセット
– CookPadのレシピ20種類に対応した作業
– http://kusk.mm.media.kyoto-u.ac.jp18
Toolbox
1. OpenCV (c/c++)
–画像処理全般を対象としたライブラリ
–派生 scikit-image (python)
2. Caffe (python/c++)
– CNNのライブラリ.Mac/Linuxのみサポート
3. Point Cloud Library (c/c++)
– 3Dの点群データ処理に特化
19
観測できる世界はデバイスで変わる
イメージングデバイス
人ドライブレコード
端末ネットワーク
診察・診断 街角
計算機の中の世界実世界
20
イメージングデバイス
2D
3D
静止画 動画
デジカメ ビデオカメラ
ハイスピードカメラ
電子顕微鏡
多視点カメラ
X線
タイムフライトカメラ
(Kinect v2)Shape from X
Femto Photography
可視光
赤外線
紫外線
ハイパースペクトル
観測対象
観測機器/プロジェクタで取れるものが大きく変わる
磁気共鳴画像
…
21
Computational Photography
イメージングデバイス
人ドライブレコード
端末ネットワーク
診察・診断 街角
計算機の中の世界実世界
計算機による処理を前提とした特殊なデバイスの利用
22
Light Field Camera
Jason C. Yang et al., “A Real-Time Distributed Light FieldCamera,” Eurographics Workshop on Rendering 2002
-少しずつ視点がずれた多数の低解像度のカメラ→ 統合すると撮影後に自由に焦点を変えられる高解像度画像が得られる(キーとなる技術: 超解像)
- Depth from Defocusによる3次元画像取得https://pictures.lytro.com/lytro
https://www.lytro.com/
23
Light Field Display
Douglas Lanman David Luebke, “Near-Eye Light-Field Displays,” SIGGRAPH Asia 201324
CVIMってどんな分野?
より積極的に実世界へ働きかける
イメージングデバイス
人ドライブレコード
端末ネットワーク
診察・診断 街角
計算機の中の世界実世界
25
CVIMってどんな分野?
より積極的に実世界へ働きかける
イメージングデバイス
人ドライブレコード
端末ネットワーク
診察・診断 街角
計算機の中の世界実世界
プロジェクタ/照明/etc…
26
三次元形状計測(Shape from X)
• 様々なものを利用した三次元形状獲得手法
照度差ステレオ法
色は三次元表面の法線方向
http://perception.csl.illinois.edu/matrix-rank/stereo.html
パターン光投影法
阿久澤ら,”ワンショットスキャン法による獲得形状を利用した様々な姿勢を表現可能な手形状モデルの構築” MIRU2012
27
物体表面の光の反射の測定
Y. Mukaigawa et al. “Rapid BRDF measurement using an ellipsoidal mirror and a projector,”IPSJ Transaction on Computer Vision and Application
CGの龍の表面に実物体の材質のパラメータを設定
古いペニー
新しいペニー
28
実世界への上手い働きかけを考える
多くの問題は不良設定→上手い拘束条件で可解な問題へ変換
計算機の中の世界実世界
観測 y
観測対象
推定値 x
観測対象への働きかけ拘束条件など x = argmax F(y|x)
29
Xbox360 Kinect (2010)
赤外光(人には不可視)のパターン光を照射
Shooting Kinect by HDR-XR500(Nightshot mode)
http://goo.gl/dDCvjC
- Kinect v2 for windows (2014)では,この方式ではなく,Time of Flight方式に変更- SDK: http://www.microsoft.com/en-us/kinectforwindows/develop/
赤外パターン光のプロジェクタ
赤外光カメラ
RGBカメラ三角測量
(画素毎に距離計測)
https://www.youtube.com/watch?v=eCbURRDUUdI
なりきりウルトラマンセブン
30
X + CV によるイノベーション
イメージングデバイス
人ドライブレコード
端末ネットワーク
診察・診断 街角
計算機の中の世界実世界
プロジェクタ/照明
31
X + CV によるイノベーション
イメージングデバイス
人ドライブレコード
端末ネットワーク
診察・診断 街角
計算機の中の世界実世界
プロジェクタ/照明
他の情報システム
32
技術(機械翻訳) + CV
• Translator (Microsoft)
– http://goo.gl/EU3GnB
文字候補領域の検出
領域をグループ毎に分ける
グループ毎の文認識
機械翻訳
the 1st workshop on Robust Readingin conjunction with ACCV2014 33
場(キッチン)+CV
物体へのアクセスに基づいた作業者意図感知ナビゲーション 34
場(キッチン)+CV
橋本他,”机上物体検出を対象とした接触理由付けによる誤検出棄却” 201235
場(キッチン)+CV
• 自然言語処理
–レシピや,レシピブログの解析
• VR
–五感の錯覚による食感提示
– meta cookie++
• 医療
–認知症患者へのリハビリ
–レコーディングダイエット支援(Food Logアプリ)
36
研究資源(2)• Pascal-sentence
– http://vision.cs.uiuc.edu/pascal-sentences
• Kyoto Univ. Smart Kitchen Dataset(※
–調理作業を多数のセンサで観測したデータセット
• CookPadのレシピ20種類に対応した作業
• http://kusk.mm.media.kyoto-u.ac.jp
–対応する自然言語側のデータベースも.
• http://plata.ar.media.kyoto-
u.ac.jp/mori/research/NLR/FGC/main.html
※) A. Hashimoto et al,”KUSK Dataset: Toward a Direct. Understanding of Recipe Text andHuman Cooking Activity, 2014
37
この分野に関連するセッション• 初日 [3/17(火)]
– 距離画像処理: [1T会場] (9:30〜12:00, 学生)
– 画像解析・評価: [1D会場] (9:30〜12:00,一般)
– 画像特徴: [2P会場] (13:00〜15:30,学生)
• 二日目[3/18(水)]– 画像処理・認識: [3R会場] (9:30〜12:00, 学生)
– ロボットビジョン: [3ZG会場] (9:30〜12:00, 学生)
– 画像特徴抽出: [4C会場] (15:20〜17:50, 一般)
• 三日目[3/19(木)]– 画像復元・評価: [5ZG会場](9:30〜12:00, 学生)
– 画像分析: [6Q会場] (14:40〜17:10, 学生)38
まとめ• 画像処理
–物体領域推定,物体認識,…
– Computational Photography
• 画像処理 + 実世界への働きかけ
– Shape from X
–人間に不可視な光の投影
• 画像処理 + 実世界への働きかけ + X
– CV + 技術
– CV + 場
39