第17回関西CVPRML勉強会 (一般物体認識) 1,2節

Preview:

Citation preview

Bag-of-Features に基づく物体認識(2) 一般物体認識

関西CVPRML勉強会 2012/02/18

川西康友 (@yasutomo57jp )

1.はじめに 2.一般物体認識とは

*スライド中で適当にGoogle画像検索で拾ってきた画像を使用しています

背景

デジカメの普及・Webへのアップロード

大量の画像データがWeb上に存在

でも・・・

画像の整理は超大変

人手でタグ付け

EXIF, GPS情報を元にタグ付け

自動的にできたら嬉しい

(Picasaから引用)

一般物体認識

意味カテゴリーを画像から認識する研究

一般的なシーンの意味カテゴリー

画像に含まれる物体の意味カテゴリー

養鶏場の写真 空

鶏舎

田舎だと一般的なシーン

一般物体認識 40年以上前から研究されている 人間

数万種類の対象を認識できる

計算機 数種類でも自動的に特定することは困難 現状では…

実用化レベル:人間の正面顔認識程度

計算機にとって非常に難しい問題の一つ

何が難しいの?

同一カテゴリーに含まれる画像の範囲が広い

見た目変化の大きさ・他カテゴリーとの類似

「A」という文字認識 「ラーメン」という一般物体認識

A A A A A A

C B

意味カテゴリーをどのように定義するのかが重要

何が難しいの?

撮影した環境が統制されていない

「ラーメン」という一般物体認識

「画像の真ん中にどかんとラーメンが写っている」 という環境

環境が統制されているので

まだ認識できそうだが…

何が難しいの?

撮影した環境が統制されていない

「ラーメン」という一般物体認識

難しさ

「一般的な名称」が表すカテゴリーの広さ

特定の制約下で撮影されたものではない画像

画像処理・認識問題としては以下が困難

特徴抽出

認識モデル構築

学習データセット構築

どういう処理の流れ?

学習フェーズ カテゴリ分の認識画像セットを用意

特徴抽出

分類器の学習

認識フェーズ 未知の画像を用意

特徴抽出

分類

学習用画像セット

特徴抽出

分類器の学習

未知の画像

特徴抽出

分類

分類結果

学習フェーズ 認識フェーズ

何ができるの?

画像全体のカテゴリー分類

養鶏場の写真 田舎だと一般的なシーン

何ができるの?

画像のアノテーション

田舎だと一般的なシーン

何ができるの?

画像ラベリング

田舎だと一般的なシーン

鶏 地面

何ができるの?

カテゴリー物体検出

田舎だと一般的なシーン

鶏はどこですか?

何ができるの?

カテゴリー領域抽出

田舎だと一般的なシーン

鶏の領域は?

近年の技術的進歩 (1) 新しい画像表現・特徴量

3節

(2)機械学習手法の進歩 4,5節

(3)Webによるデータセット構築の容易化 7節

(4)計算機の高速化・大容量化 Web上での公開

ソフトウェア データセット

研究を始めやすい環境→研究が加速

詳細は…以降の発表で明らかに! 今回の私の発表はここまでです