立命館大学 AMLコロキウム 2011.10.20

映像認識/理解への認知発達的アプローチ(Cognitive developmental approach towards the realization of sophisticated visual scene understanding)

木村木村昭悟昭悟 ((AkisatoAkisato Kimura)Kimura)木村木村昭悟昭悟 ((AkisatoAkisato Kimura)Kimura)日本電信電話（株）コミュニケーション科学基礎研究所[ E-mail ] akisato@ieee org [ Twitter ] @ akisato[ E mail ] [email protected] [ Twitter ] @_akisato[Web] “Akisato Kimura” を goo で検索！ (^_^;)

akisato

長方形

今日のおしながき今日のおしながき

1. 人間が映像を理解できるのはなぜか？

2. 計算機が映像を理解できていないのはなぜか？

3 そもそも「映像を理解する」とはどういうことか？3. そもそも「映像を理解する」とはどういうことか？

4. 計算機は「映像を理解」できるようになるのか？

5 できるとするならばどうすれば良いのか？5. できるとするならば、どうすれば良いのか？

Keywords:Keywords:【認知発達】人間の発達過程に学ぶ【知識獲得】知識は与えられるものではない【知識獲得】知識は与えられるものではない【発達段階】計算機だって成長できる【動的遷移】成長すればできることが増えてくる

October 20, 2011"Mission incomplete, but not impossible"2

【動的遷移】成長すればできることが増えてくる

この映像理解できますか？この映像，理解できますか？

人間は，特に意識せずに映像を認識・理解できる．

現状では，計算機に人間と同程度の映像認識・理解をさせることは難しい．


akisato

長方形

この映像乳幼児が理解できますか？この映像，乳幼児が理解できますか？

大人にはわかるけど、乳幼児にはちょっと・・・？

人間は，特に意識せずに映像を理解できる．

現状では，計算機に人間と同程度の映像理解をさせることは難しい．

人間とて，理解能力が生まれつきあるわけではない．


akisato

長方形

ではこの映像は理解できますか？では，この映像は理解できますか？

知っていればわかるけど、でもねぇ・・・

人間は，特に意識せずに映像を理解できる．

でもねぇ

現状では，計算機に人間と同程度の映像理解をさせることは難しい．

人間とて，理解能力が生まれつきあるわけではない．

成人であっても知らないことは理解できない


成人であっても，知らないことは理解できない．

akisato

長方形

akisato

長方形

「映像を理解する」とはどういうことか？「映像を理解する」とはどういうことか？

人間とて理解能力が産まれつきあるわけではない。

成人であっても、知らないことは理解できない。

これを踏まえると、「映像を理解する」とは

× 与えられた映像から最も尤もらしい意味を抽出

○ 与えられた映像と自身の持つ知識とから、その知識を組み合わせ変換をすることで、その知識を組み合わせ変換をすることで、最も尤もらしい意味を抽出

高度な映像の認識や映像の理解には，人間と同様の【発達】と【知識獲得】が不可欠！

October 20, 20116 "Mission incomplete, but not impossible"

発達を考慮する：認知発達ロボティクス発達を考慮する：認知発達ロボティクス

Existing approach 獲得すべき行動手順なり知識獲得戦略なりを、ロボットの脳に設計者が直接書き込む

認知発達ロボティクス他者を含む環境を介して［社会性］他者を含む環境を介して［社会性］

ロボット自身が自らの身体を通じて［身体性］

情報を取得し［適応性］情報を取得し［適応性］

情報を解釈していく［自律性］

その挙動からヒトの発達モデルの新たな理解を目指すその挙動から、ヒトの発達モデルの新たな理解を目指す。

音声言語処理を介した言語獲得にも大きな影響を与える(ex ACORNS)


(ex. ACORNS)

では人間と同じようにすれば良いのか？では，人間と同じようにすれば良いのか？

それはＮｏでしょう。２度のニューロブームにおける失敗の教訓：

神経細胞レベルの模擬と高次機能の模擬との間に大きなギャップ

計算機優れた特性活用計算機の優れた特性の活用：人間をはるかに凌ぐ高速並列演算や大量・確実な記憶

発達過程の完全記述の非現実性：発達過程の完全記述の非現実性：機能そのものの自然発生や発達を記述することはほぼ不可能

人間は人間、計算機は計算機：算機算機「身体性」なき計算機に、人間と同じようなことをさせることはできない。

理解をより高度化する上で重要となる要素を抽出し理解をより高度化する上で重要となる要素を抽出し、計算機が得意とする特性と融合させる方向性が現実的


重要となる要素とは何か？重要となる要素，とは何か？

認知発達ロボティクス独自の思想を生かす［社会性］［適応性］［自律性］の確保：他者を含む環境を介して情報を取得し解釈

内部構造と外部環境の分離：設計者の思い込み・作為を排除

外部環境設計外部環境設計

内部構造設計内部構造設計

• 必要な知識の能動的・自律的獲得

– 知識は自分から取りに行くことも必要– 知識は自分から取りに行くことも必要

• 発達段階に応じた知識獲得戦略の動的遷移

計算機だて成長できるできることの幅が広がる


– 計算機だって成長できる，できることの幅が広がる

発達と知識獲得を軸にした映像理解の枠組発達と知識獲得を軸にした映像理解の枠組

大まかに初期・中期・後期の３つの発達段階を想定

各発達段階に対応する主要機能を想定

［［初期段階初期段階］］

Innate behavior

［［中期段階中期段階］］

Knowledge-based

［［後期段階後期段階］］

Innate/knowledge(Bottom-up)

Fully supervised

g(Top-down)

Reinforcement

ghybrid

Semi-supervised

• 感覚器相当の機能から重要信号要素を抽出

• 蓄えた知識がどの程度信頼できるか能動的に検証

• 自身の知識を統合して自律的に映像を解釈重要信号要素を抽出

• その信号要素に対する知識を外部から順次蓄積

信頼できるか能動的に検証自律的に映像を解釈

• 真に必要なときのみ外部から知識を要求


発達と知識獲得を軸にした映像理解の枠組発達と知識獲得を軸にした映像理解の枠組

大まかに初期・中期・後期の３つの発達段階を想定

各発達段階に対応する主要機能を想定

［［初期段階初期段階］］

Innate behavior

［［中期段階中期段階］］

Knowledge-based

［［後期段階後期段階］］

Innate/knowledge(Bottom-up)

Fully supervised

g(Top-down)

Reinforcement

ghybrid

Semi-supervised

• 感覚器相当の機能から重要信号要素を抽出

• 蓄えた知識がどの程度信頼できるか能動的に検証

• 自身の知識を統合して自律的に映像を解釈

• 本枠組＝映像認識理解のための知識獲得に関するメカニズム［素質］の提供重要信号要素を抽出

• その信号要素に対する知識を外部から順次蓄積

信頼できるか能動的に検証自律的に映像を解釈

• 真に必要なときのみ外部から知識を要求

知識獲得に関するメカニズム［素質］の提供• どのように教示情報を与えるかに関する戦略［教育］については枠組の外


戦略［教育］については枠組の外

発達段階に応じた知識獲得戦略の動的遷移発達段階に応じた知識獲得戦略の動的遷移

主要機能の発達が進むに従い機能もより高次に推移利用比

•• Innate/knowledgeInnate/knowledgeh b idh b id

発達が進むに従い、機能もより高次に推移

K l dK l d b db d

hybridhybrid•• SemiSemi--supervisedsupervised

•• KnowledgeKnowledge--basedbased•• TopTop--downdown•• ReinforcementReinforcement

•• Innate behaviorInnate behavior•• BottomBottom--upup

低次処理も一定程度の割合で用いられる

達階

•• Fully supervisedFully supervised


初期段階初期段階中期段階中期段階後期段階後期段階発達段階

構想実現のためのアプローチ構想実現のためのアプローチ

Kimura et al. "Media Scene Learning: A framework for extracting meaningful


parts from audio and video signals,“ NTT Technical Review, November 2010.

これからお話しすることこれからお話しすること

Cognitive Developmental Approach 自ら発達し成長する素養を計算機に与えたい

Video Language Processing 「自然言語処理」が映像を理解するためのヒント自然言語処理」映像を理解するたン

Video Morphological Analysis 映像版「形態素解析」が全ての始まり映像版「形態素解析」が全ての始まり

Dynamical Learning Strategy 概念を順を追ってかつ自力で獲得する必然性概念を，順を追って，かつ自力で獲得する必然性


機能実現へ：自然言語処理にヒント？機能実現へ：自然言語処理にヒント？Text semantic

descriptionExplicit/implicit i f ti f

Semantic

description information of the text can be

derived.

analysisKnowledge dictionary

A/ woman/ is/ riding/ on/ a/ horse. Parsing

Parsing di ti

A/ woman/ is/ riding/ on/ a/ horse.n. v. mv. prep. a.a. n.

Morphological analysis

Morpheme

dictionary

A woman is riding on a horse.

p p

Text

Morphemedictionary


「映像言語処理」を考えてみよう「映像言語処理」を考えてみよう

Meaning:Video semantic d i ti

Explicit/implicit

Person

A person is riding on a horse.

Video semantic

descriptionp p

information of the video can be

derived.

Person

Riding

Video semantic analysis

Video knowledge dictionary

Person

H

Riding Video parsing

Video parsing

y

HorseVideo morphological

analysis

dictionary

Horse

Video clip

Video morphemedictionary


p

映像言語処理の実現には何が必要か？映像言語処理の実現には何が必要か？

映像の「言語体系」をがび築

Video semantic d i ti

Explicit/implicit

計算機自身が学び構築する「形態素」「構文」「意味」の候補を探り当てるVideo semantic

descriptionp p


derived.

の候補を探り当てる

「形態素」「構文」「意味」の候補に適切な知識を与える


Video knowledge dictionary の候補に適切な知識を与える

保有知識の水準に合わせて

Video parsing

Video parsing

y

保有知識の水準に合わせて学び方を動的に変化させる「形態素解析」「構文解析」

Video morphological analysis

dictionary

形態素解析」構文解析」「意味解析」を、成熟度に合わせて順を追って構築


Video clip


p

映像形態素の候補を取り出す映像形態素の候補を取り出す

1. 福地ほか “グラフコストの逐次更新を用いた映像顕著領域の自動抽出”、電子情報通信学会論文誌、Vol.J93-D, No.8, pp.1523-1532, 2010年8月

2. Akamine et al. "Fully automatic extraction of salient objects in near real-time,"


the Computer Journal, DOI:10.1093/comjnl/bxq075, November 2010.

発達初期段階発達初期段階

全てのスタート地点Video semantic d i ti

Explicit/implicit

保有する事前知識がまったくない状態で何ができるか？

Video semantic

descriptionp p


derived.

基礎的な事前知識を蓄える



本来的に備わっている機能から重要な部分を抽出

Video parsing

Video parsing

y

言語処理的に考えると，Video morphological

analysis

dictionary

「映像形態素候補の抽出」

Video clip



p

発達初期段階の実現方針発達初期段階の実現方針

事前知識なくして，与えられた映像のどの部分が重要であるか？を判断することは困難．

では，ヒトはどうしているのか？，うまーたー（当時8-10ヶ月）を観察してみることにしました

目立つ「もの」に目を向ける外観から「もの」を学習する目立つ「もの」に目を向ける外観も」を学習する

「もの」の名前を聞いて覚える


「もの」の名前を聞いて覚える

特に注目すべきは「顕著性」特に注目すべきは「顕著性」

Task learning with bottom-up attention [Nagai 2009]

乳児（8～12ヶ月）にその親がタスク教示を行った際の動作をsaliency mapを用いて解析

October 20, 2011"Mission incomplete, but not impossible"21赤丸： saliency mapから推定された注視位置

発達初期段階を模したプロトタイプ発達初期段階を模したプロトタイプ

映像顕著性に基づく視覚情報フィルタリングにより、事前知識を仮定せずに重要領域を自動的に抽出

入力映像注目位置推定注目位置推定重要領域抽出重要領域抽出

視覚特性に基づく処理で

［Pang 2008］［宮里 2009］［福地 2009］［Akamine 2010］

視覚特性に基づく処理で人間が目を向けそうな箇所を自動的に推定（その付近に「もの」があるだろうという仮説）

「もの」のありそうな箇所から、「もの」

らしい領域を自動的に抽出

特徴抽出特徴抽出 –– 画像認識画像認識モデル学習モデル学習教示情報

［Kimura 2010］［木村 2010］［Takagi 2011］

特徴抽出特徴抽出画像認識画像認識モデル学習モデル学習「もの」らしい領域から画像特徴量を抽出、その特徴量と蓄えた知識から「もの」が何であるか？

「もの」に関する教示情報と「もの」の画像特徴量とから、それらの関係性を学習し知識として蓄積


に関する情報を提示学習し、知識として蓄積

映像形態素候補の抽出と選択映像形態素候補の抽出と選択

２．その領域が「形態素」であるかどうか＝２．その領域が形態素」であるかどうか取り出した領域に意味を持たせるかどうかは、教育者たる人間が判断する

１．目立つ領域は「形態素」である可能性が高いはず


なぜ顕著性が必要なのか？なぜ顕著性が必要なのか？

計算機はどこに何があるかをまだ理解できていない．

知識を使わずに「もの」らしいものを検出できる．

入力映像注目位置推定結果

We can easily find an

入力映像注目位置推定結果

We can easily find an object without any prior knowledge by using the saliency onlysaliency only.

Saliency map


顕著性も万能ではない顕著性も万能ではない

ある程度知識を駆使しないと，どうしようもならない部分が，実世界にはたくさんある．

We can distinguish black objects and backgroundsobjects and backgrounds since we know some prior knowledge (table, keyboard mouse curtainkeyboard, mouse, curtain etc.).


映像形態素の意味を獲得する映像形態素の意味を獲得する

Sekhon et al. "Action planning for interactive visual scene understanding based on knowledge confidence defined on latent spaces,“ 電子情報通信学会技術報告、


PRMU2010-83、福岡県福岡市、2010年9月

発達中期段階発達中期段階

獲得した知識がどの程度Video semantic d i ti

Explicit/implicit

信頼できるのか？初期段階は基本「受け売り」Video semantic

descriptionp p


derived.

知識の「質」を評価する術を持ち合わせていない



ではどうする？

計算機側から能動的に知識Video parsing

Video parsing

y

の信頼性を確認し高める，強化学習的アプローチ

考


dictionary

言語処理的に考えると，映像形態素辞書を精緻化Video clip



p

発達中期段階の実現方針発達中期段階の実現方針

能動的に知識の信頼性を確認…って何？まーたー（当時（たぶん）2歳）を観察してみることにしました

自分の知識がどの程度正しいかを検証している（ように感じる）

確かに「てーぶる」と言っている「とんねる」…どこがやねん！！

自分の知識がどの程度正しいかを検証している（ように感じる）

量だけかき集めた知識から，質の悪いモノを捨て，

質の良いモノをさらに強化する作業をしている（と思いたい）


質の良いモノをさらに強化する作業をしている（と思いたい）

でも強化学習なんて本当にしているの？でも，強化学習なんて，本当にしているの？

@tanichu 先生の著書をご精読下さい… 潜在意識下でも行われている [Pessiglione 2009]

報酬がもらえるかＯＮ＋￡１￡０￡１

報酬がもらえるかどうかの手掛かり

ＯＮ：＋￡１ or ￡０ or －￡１ＯＦＦ：常に￡０

手がかり刺激が短時間過ぎて，意識に上らない．[msec]

にも関わらず多くの人が徐々に儲けていく（+￡7/120試行）

でも，報酬が実際にもらえない場合は，chance level．


皆さんならどんな「意味」を与えますか？皆さんならどんな「意味」を与えますか？

壁、窓、建物

広告、釧路

回文

ジョーク、つまらない

何が問題なのか？1. 対象とする人間を固定し、2 その人に適切な質問をする何が問題なのか？

Semantic gap の存在

Semantics の個人間分散の大きさ

2. その人に適切な質問をすることで解決可能、なはず！


Semantics の個人間分散の大きさ

対話を通じた映像形態素の意味付け対話を通じた映像形態素の意味付け

対話を通した学習において、計算機が、特に、どのようにどのように質問をすれば良いか？を考える

質問の種類を選ぶ鍵＝保有知識の確信度質問の種類を選ぶ鍵＝保有知識の確信度確信度に応じて質問の対象をできるだけ絞り込む→ 有用な教師情報を多く回収＆ノイズラベルを抑制→ 有用な教師情報を多く回収＆ノイズラベルを抑制

What is this? Which is this? Is this … ? This is …

C fidOctober 20, 2011"Mission incomplete, but not impossible"33

ConfidenceLow High

議論：映像形態素解析のその先へ議論：映像形態素解析のその先へ

木村ほか “対話型映像認識理解における動的学習戦略に関する取り組み,“


電子情報通信学会技術報告、PRMU2010-***、山口県山口市、2010年12月

「映像言語処理」構想の復習「映像言語処理」構想の復習

その１：Video semantic d i ti

Explicit/implicit

映像形態素の候補を抽出

Video semantic

descriptionp p


derived.

その２：映像形態素辞書を精緻化


Video knowledge dictionary 映像素辞書を精緻

本日の議論のネタ：

Video parsing

Video parsing

y

本日の議論のネタ：映像の「構文解析」、及び各解析の相互作用を検討


dictionary

各解析の相互作用を検討

Video clip



p

「映像構文」の探索と構築「映像構文」の探索と構築

構文解析＝Video semantic d i ti

Explicit/implicit

形態素の関係を記述する

その関係に意味を与えるVideo semantic

descriptionp p


derived.

映像の場合には…


Video knowledge dictionary 映像場合

UpperPerson

Riding

共起

Video parsing

Video parsing

y

共起

位置Video morphological analysis

dictionary

LowerHorseVideo clip

Video morphemedictionary 形状


p

関連研究その１ [Siddi i CVPR2010]関連研究その１ [Siddiquie+ CVPR2010]

複数物体の関係性を考慮した対話型動的学習物体領域と不確定領域との位置関係に基づく質問生成

関係性そのものの意味を問うことはできない

Q Q M

AA

E E

MQ

EOctober 20, 2011"Mission incomplete, but not impossible"39

E

関連研究その２ [S d hi 2011]関連研究その２ [Sadeghi 2011]

物体とその関係性を同時に獲得する

1. 関係性も物体同様，１つの「クラス」と見なす．なので，真に関係性を認識しているわけではない．な，真関係性を認識るわけな

2. クラス間の位置関係を考慮して，クラス別での認識結果を修正（追加・削除）クラス別での認識結果を修正（追加削除）

1

22


構文解析と形態素解析との相互作用構文解析と形態素解析との相互作用

形態素解析の不確定性Video semantic d i ti

Explicit/implicit

部分領域の情報だけでは実体を特定できない場合も

Video semantic

descriptionp p


derived.

構文知識を援用すれば…



UpperJockey?Policeman?

Video parsing

Video parsing

yJockey

Policeman?

Horse Video morphological analysis

dictionary

LowerHorse? Tiger? Unicorn?Video clip



gp

関連研究はありますが [L di k BMVC2010]関連研究、はありますが… [Ladicky+ BMVC2010]

一般物体認識・物体領域・深度の同時推定目指すべき実現形態の1つではある

膨大なクラスを扱える構造にはなっていない

Disparity

Segmentation


Object class

まとめまとめ

計算機が映像を理解できるようになるためにはどうすれば？という根本的かつ難解な問いに対し１年前に提案した枠組を実現するための具体的なアプローチを提案〔映像言語処理〕

このアプローチに基づいて、この１年で実際に行た研究を整理して紹介〔映像形態素解析〕実際に行った研究を整理して紹介〔映像形態素解析〕

（まだ検討中）〔動的学習戦略〕

まだまだ課題は山積、でも光は見えつつあります。 “Mission incomplete, but not impossible.”


Thank you for your kind attentionThank you for your kind attentionAcknowledgment

hi lk i b d h h i i & This talk is based on the ones at PRMU research meeting in Dec 2009 & 2010. I’d like to thank all the collaborators and supporters for this research:

Framework: Y. Minami, H. Sakano, H. Sugiyama, E. Maeda (NTT CS Labs) Visual attention: D. Pang (Stanford Univ.), T. Takeuchi (Nihon Women Univ.),

J. Yamato, K. Kashino (NTT CS Labs), K. Miyazato (Okinawa National College Tech.) Object detection: K. Fukuchi (JAIST), S. Takagi (Okinawa National College Tech.),

K Ak i (Mi ki U i ) R Y i (K U i )K. Akamine (Miyazaki Univ.), R. Yonetani (Kyoto Univ.) Action planning: Gurbachan Sekhon (UBC) Supporters: H. Arai (NTT SP Labs), K. Takeuchi (NTT CS Labs), T. Suzuki (Waseda Univ.)

This work is supported by Grant-in-Aid for Scientific Researchon Innovative Areas “Founding a creative society via collaborationbetween humans and robots”.

Corresponding authorAkisato Kimura, Ph.D @ NTT CS Labs.

[ il] i @i [ i ] @ kiOctober 20, 201144 "Mission incomplete, but not impossible"

[E-mail] [email protected] [Twitter] @_akisato

akisato

長方形

Technology

立命館大学 AMLコロキウム 2011.10.20