93
2011年度 81日改訂版 長谷川修研の研究紹介 東京工業大学 像情報工学研究所 長谷川修 [email protected] http://haselab.info/

東工大長谷川修研紹介 2011 (8月1日版)

Embed Size (px)

Citation preview

Page 1: 東工大長谷川修研紹介 2011 (8月1日版)

2011年度

8月1日改訂版

長谷川修研の研究紹介

東京工業大学

像情報工学研究所

長谷川修

[email protected]

http://haselab.info/

Page 2: 東工大長谷川修研紹介 2011 (8月1日版)

現在

Future

青枠は全て 、長谷川修研独自の既存技術

画像を用いた自己位置同定 ・GPSが不要 ・人混みでも学習や認識が可能 ・携帯端末などの 低画質のカメラでも動作

自力で賢くなる転移学習 ・インターネットなどから 学習データを自ら収集し、 自力で知的に発達 ・未学習の知識にも 柔軟に対応

・屋内や地下では 利用不可

・学習した知識を未知の対象に転移して認識 ・画像や音声、多数のセンサやモータ出力など、 あらゆるベクトルデータをオンライン学習&認識

・PIRFを利用 ・屋内でも動作可能な ・人混みでも頑健に動作

頭脳

自力で知的発達する情報機器や知能ロボット ・電脳環境や人との相互作用により 自力で賢くなる自律ロボット ・不特定タスクへの柔軟な対応

・実環境で稼働 ・未知のタスクへのアプ ローチを自力で生成

他のロボットの学習結果

長谷川研の研究目標:社会的・物理的空間や電脳空間との相互作用から 自力で知的発達する実世界知能システム(情報機器やロボット)の創成

Page 3: 東工大長谷川修研紹介 2011 (8月1日版)

長谷川研の研究

• 人の生活環境で稼働する、さまざまな人工の 「知能」の構築を通じ、広く社会の発展に寄与することを目標とする。

• 上記でいう知能とは、私たちが日常的に行っているのと同じように、人工物が「見て、聞いて、 覚えて、考えて、行動する」ためのものである。

• これを確実に実現する従来技術は存在しない。そこで、長谷川らの独自技術であるSOINNを活用した実世界知能情報処理機構の構築から取り組む。

Page 4: 東工大長谷川修研紹介 2011 (8月1日版)

「実世界知能情報処理」とは?

• 私たちの「脳」が普通にやっていること。

• 私たちには簡単なことが、コンピュータや ロボットには大変難しい。

Page 5: 東工大長谷川修研紹介 2011 (8月1日版)

例えば、実は

まともにドアが開けられるロボット は世界のどこにも存在しない。

そもそもドアが分からない。

犬と猫の区別もできない。

幼児でもできることができない。

Page 6: 東工大長谷川修研紹介 2011 (8月1日版)

長谷川研の過去の研究例

Page 7: 東工大長谷川修研紹介 2011 (8月1日版)

1.「顔検出」技術 実用になったのは4~5年前

Page 8: 東工大長谷川修研紹介 2011 (8月1日版)

Google で「顔検出」と検索すると、

トップに下記の論文が表示される。

林伸治、長谷川修 : “低解像度画像からの顔検出”,

画像電子学会誌, Vol.34, No.6, pp.726-737, (2005)

つまり、この論文は度々検索され、読まれている。

この英訳は、IEEE Conference on Computer Vision and

Pattern Recognition (CVPR 2006) にも採録

長谷川研ホームページにデモビデオ有り

Page 9: 東工大長谷川修研紹介 2011 (8月1日版)

この研究では、従来困難であった

「小さい顔」の検出を実現した。

これにより、画像サイズを縮小して

からでも顔検出が可能になった。

これは画像処理量の大幅な

削減につながり、デジカメの非力な

CPUでも顔検出を可能とした。

現在、この技術は市販の多くの

デジカメやビデオに利用されている。

従来の顔検出

提案手法(小さい顔も検出)

Page 10: 東工大長谷川修研紹介 2011 (8月1日版)

• 通常、人は日頃利用する駅の、改札前の様子を思い出すことができる。

• しかし、今日、改札の前にいた人を、思い出すのは困難。

• つまり、人間は、非常に優れた画像情報処理をしており、そこにたまたま居た人のことは覚えず、改札付近の情景だけを的確に選び出して覚えている。

2.画像による場所の認識技術

Page 11: 東工大長谷川修研紹介 2011 (8月1日版)

人は、覚えるべきものと、覚えなくて良いものを

的確に判別している。(大岡山駅前の例)

Page 12: 東工大長谷川修研紹介 2011 (8月1日版)

人は、覚えるべきものと、覚えなくて良いものを

的確に判別している。(大岡山駅前の例)

覚える 覚える

覚える

覚えない 覚えない

覚えない

Page 13: 東工大長谷川修研紹介 2011 (8月1日版)

この機能は、実環境で人と共存するロボットには不可欠。

以下は、移動ロボット分野における性能評価のための世界標準データの一つ。

移動ロボットが以下の情景の中をループ状に2回周回する。2周目には、1周目のどの情景と一致するかを当てる。

1周目に居た、人や車が居なくなっても当たるか?

Page 14: 東工大長谷川修研紹介 2011 (8月1日版)

PIRF Position Invariant Robust Features

長谷川研独自の、動くカメラの映像中から

止まっているもののみを取り出す技術。

14

Page 15: 東工大長谷川修研紹介 2011 (8月1日版)

PIRF:動いているカメラから、止まっている

ものと、動いているものを見分ける技術

SIFT : 普通に処理すると、あらゆるところから画像特徴が出る。

PIRF: 提案手法の処理結果例

15

たまたま通りかかった人。 PIRFは出て いない。

Page 16: 東工大長谷川修研紹介 2011 (8月1日版)

PIRF: algorithm

16

Current image

過去の画像を参照し、 共通するSIFT特徴を 抽出して、その位置の 特徴表現とする。

Page 17: 東工大長谷川修研紹介 2011 (8月1日版)

17

PIRF は、下記画像の上下が 同じ場所だと認識できる。

上:休日の駐車場、下:平日の駐車場

上:昼間、下:夜間

Page 18: 東工大長谷川修研紹介 2011 (8月1日版)

PIRF-Nav, PIRF-Nav2.0 PIRF based Navigation

PIRF を用いた、日常生活空間に

おける自己位置推定手法

(PIRF-Nav2.0 は改良高速版)

18

Page 19: 東工大長谷川修研紹介 2011 (8月1日版)

OXFORD大学が提供するデータセット

このデータでOXFORD (FAB-MAP) と性能比較

New College

19

Page 20: 東工大長谷川修研紹介 2011 (8月1日版)

赤い点が多い方が優れた手法

さらに、提案手法は完全オンライン学習手法

FAB-MAP (Oxford Univ.) 提案手法

認識率 43.32%

Page 21: 東工大長谷川修研紹介 2011 (8月1日版)

21

さらなる実験

東工大学食での実験

エキストラでない不特定多数の人が利用

Page 22: 東工大長谷川修研紹介 2011 (8月1日版)

• 認識率:86.65%(FAB-MAP:17.80%)

• 平均処理時間:264ms / 枚(同:577ms/枚)

22

全方位カメラの画像のため,同位置の画像でも 撮影時のカメラの向きによって見え方が異なります

混雑した学食での実験

入力(テスト)画像 同位置と推定された学習画像

Page 23: 東工大長谷川修研紹介 2011 (8月1日版)

この技術を、自律移動ロボットに搭載して実験

- 認知地図(cognitive map)の獲得と利用 -

→ 場所の情景と、行動とを複合的にオンライン学習 • 私たち人間も、同じように地図獲得をしている。例えば、すずかけ台駅改札の情景から、左に曲がり、少し進むと、石の階段がある、など。

• ロボットは学習後、獲得した地図上で探索し、任意の地点間を移動できる。

左旋回

前進

左旋回

右旋回して前進

前進

Page 24: 東工大長谷川修研紹介 2011 (8月1日版)

人を案内するように、ロボットを連れて歩くと、ロボットは

入力映像中の人の影響を極力排除し、情景だけを覚え、

人に指示された任意の地点間を自律移動できる。

長谷川研ホームページにデモビデオ有り

Page 25: 東工大長谷川修研紹介 2011 (8月1日版)

実験結果 : ナビゲーションフェーズ(自律移動)

25 ゴールまで自律的に到達できている

動いている人の周辺からは抽出されていない

3D-PIRF

Page 26: 東工大長谷川修研紹介 2011 (8月1日版)

この技術は移動支援IRTへの活用を検討中

• 屋外だけでなく、GPSが利用できない地下や屋内の人混みでも自律移動

• 搭乗者、歩行者、双方の安全・安心の実現

• 移動のための地図は、患者や高齢者を含む誰もが簡単に作成可能(従来法は膨大な手間)

• まず、電動車椅子への搭載を検討。人の生活環境で活動するロボット全般に利用可能。

26

Page 27: 東工大長谷川修研紹介 2011 (8月1日版)

テスト画像 手持ちのiPhone4

のカメラで撮影

学習画像 手持ちの家庭用

ビデオカメラ

で撮影

この技術は、携帯カメラでも稼働する

下が学習画像で、上がテスト画像。人が居ても、人の影響を受けずに上下は同位置と正しく判定している。 テスト画像にはiPhone4の画像を使用。

GPSの使えない屋内や地下でも利用可能 27

Page 28: 東工大長谷川修研紹介 2011 (8月1日版)

既存技術

「いつでも、どこでも、簡単に」位置情報が利用出来れば、ニーズは大きい。

頓智ドットのセカイカメラは有名。

本研究と既存技術を融合し、屋内、屋外を問わず、シームレスに位置情報が利用可能に。

28

Page 29: 東工大長谷川修研紹介 2011 (8月1日版)

29

頓智ドット㈱ セカイカメラ

GPSを利用。屋内ではアクセスポイントの設置が必要。つまり、現状では膨大な費用と手間がかかる。提案手法により、この問題が解決できる。提案システムを 東急田園都市線 渋谷地下駅で稼働させ、性能評価実験を実施予定。

Page 30: 東工大長谷川修研紹介 2011 (8月1日版)

ここから先は、

現在進行中の研究テーマ

を紹介します。

Page 31: 東工大長谷川修研紹介 2011 (8月1日版)

挑戦状!

Page 32: 東工大長谷川修研紹介 2011 (8月1日版)

いい度胸だ!

Page 33: 東工大長谷川修研紹介 2011 (8月1日版)

コンピュータ将棋(あから2010)が

清水市代女流王将と対局し、勝利!

Page 34: 東工大長谷川修研紹介 2011 (8月1日版)

クイズでも、コンピュータの勝ち!

2011年2月、IBMのコンピュータ、Watsonがクイズ番組に参戦。

チャンピオンに圧勝!

Page 35: 東工大長谷川修研紹介 2011 (8月1日版)

コンピュータは人の知性を超えた?

とんでもない!

Page 36: 東工大長谷川修研紹介 2011 (8月1日版)

鳥の「ゆりかもめ」はどっち?

あから2010も、Watsonも、答えられない…

Page 37: 東工大長谷川修研紹介 2011 (8月1日版)

37

これまでの人工知能

ほとんどが、人間の脳の

一部(特に前頭葉)の

思考機能を工学的に模倣

したもの。

Page 38: 東工大長谷川修研紹介 2011 (8月1日版)

なので、まだロボットには使えない

ロボットは総合学であり、本来は

見て、聞いて、感じて、覚えて、考えて、動いて、

労働するもの。

“Robot” はチェコ語で強制労働を意味する

“robotnik” から作られた造語

Page 39: 東工大長谷川修研紹介 2011 (8月1日版)

ロボットに真に求められているのは

「労働」

• 日本の少子高齢化が止まらない!

• これから日本はどうやって稼ぐ?

Page 40: 東工大長谷川修研紹介 2011 (8月1日版)

すでに介護の現場では人手不足

• フィリピンとインドネシアから、今夏にも看護師と 介護士がやってくる。

• 人手不足にあえぐ病院や施設で歓迎の声が上がる一方、日本語能力への不安や日本人の労働条件悪化を懸念する声もある。

• 医療・介護の現場は労働条件の改善が進まず、 人手不足が深刻だ。

• (2008年3月11日 読売新聞)

Page 41: 東工大長谷川修研紹介 2011 (8月1日版)

本当に、こんなに稼げるの?

経産省「産業構造ビジョン2010」

Page 42: 東工大長谷川修研紹介 2011 (8月1日版)

現在のロボットの問題

• ロボットに命令するだけでも大変

–現状では、専門家が決められた手順に沿って、手間をかけてプログラムしている

–お年寄りや子供たちには、とても無理

–人間がロボットの都合にあわせるのは絶対イヤだ!

• 「人間中心の」情報処理技術の必要性

• ロボットにやって欲しいこと

–どのようなことでも、「掃除して」、「洗濯して」、 などと言うだけで、やって欲しい。

42

Page 43: 東工大長谷川修研紹介 2011 (8月1日版)

専用機 vs 汎用機 現存する人工物は、全て

特定の目的のために作られた専用機。

VS

注)PCはハードウエアは汎用だが、

ソフトウエアが専用なので、「専用機」。

注)汎用機が人の姿を

しているとは限らない。

Page 44: 東工大長谷川修研紹介 2011 (8月1日版)

これからは、「汎用機」の研究と 実用化の推進が急務

SOINN !! Self-Organizing Incremental Neural Network

Page 45: 東工大長谷川修研紹介 2011 (8月1日版)

SOINNとは? 東工大 長谷川修研で独自開発

コンピュータやロボットが 「見て、聞いて、覚えて、考えて、行動する」 ための脳をヒントにした情報処理技術 45

Page 46: 東工大長谷川修研紹介 2011 (8月1日版)

46

SOINNの機能

脳がそうであるように、

1. 視覚、聴覚、触覚、モータの時系列制御信号などのマルチモーダル・パターン情報を、超高速かつ発達的 (オンラインかつ追加的)に学習できる。

2. 学習したパターン情報から、連想・推論・転移などの高次知能情報処理が実現できる。

こうした機能を兼ね備えた学習器は、SOINNだけ。

Page 47: 東工大長谷川修研紹介 2011 (8月1日版)

47

自己増殖型ニューラルネットワーク(SOINN)

SOINNのソフトウエアは、長谷川修研ホームページから

無償でダウンロード可能。

Page 48: 東工大長谷川修研紹介 2011 (8月1日版)

最近の主要研究 (1)

コンピュータやロボットに

極めて多様な実世界を

現実的な方法で

認識させたい。

Page 49: 東工大長谷川修研紹介 2011 (8月1日版)

東京工業大学

木村大毅, Kankuekul Pichai,

Aram Kawewong, 長谷川修

画像センシングシンポジウム 2011

超高速オンライン転移学習

Page 50: 東工大長谷川修研紹介 2011 (8月1日版)

Introduction

• 実世界の物体認識は極めて困難

現在、この問題を根本的に解決する「現実的な」手法は存在しない。

実世界の難しさ ・多種多様の物体 ・高ノイズ ・新しい物が増える ・オクルージョン

など・・・

Page 51: 東工大長谷川修研紹介 2011 (8月1日版)

これまでは、Caltech 256 など

対象をクラス毎に学習・認識させる試み

Page 52: 東工大長谷川修研紹介 2011 (8月1日版)

対象毎に、沢山の学習画像を用意。

下記は「ラクダ」の例

Page 53: 東工大長谷川修研紹介 2011 (8月1日版)

しかし、私たちの身の周りには膨大な数の

モノがあり、その数は増え続けている。

Page 54: 東工大長谷川修研紹介 2011 (8月1日版)

パラダイムシフトが必要! • 「月」に行くには?

– 飛行機をどんなに改良しても「絶対」月には行けない

– 同様に、従来方式をどんなに改良しても、人の目のような 人工視覚はできないのでは…?

○ ×

Page 55: 東工大長谷川修研紹介 2011 (8月1日版)

本研究の成果と意義

• 下記を兼ね備えた、現実的な物体認識 手法を構築。

–転移学習を導入

• 実世界を少数の基本的な属性知識の組合せで認識(例:赤+球+果物=リンゴ)

–命令するだけで「自力で・直ちに」賢くなる

• 学習データはインターネットから自動収集

• 超高速にオンライン追加学習&認識

–画像以外にも多様・Noisy・曖昧な情報に対応

• 多様な曖昧情報を複合的に利用可能

55

Page 56: 東工大長谷川修研紹介 2011 (8月1日版)

きれいな「花」だな。

何という名前だろう?

つまり、人間は

初めて見る対象でも

相応に認識できる。

これに近い(と思われる)のが

転移学習(Transfer Learning)

Page 57: 東工大長谷川修研紹介 2011 (8月1日版)

Transfer Learning: 予め学習させた基本的な知識、「属性」の組み合わせにより、初めて見る対象でも認識させる技術。

Page 58: 東工大長谷川修研紹介 2011 (8月1日版)

Transfer Learning (転移学習)

• 対象について学習するのではなく、

基本的な概念(「属性」と呼ぶ)を学習

• 属性の組み合わせで未学習物体も認識

ダイヤルと窓がある箱型のもの= 電子レンジ

ボール 転移

窓 ダイヤル

電子レンジ

学習画像

人間が定義

Page 59: 東工大長谷川修研紹介 2011 (8月1日版)

Transfer learning (転移学習)

• この関係はアルファベットと辞書の関係に類似

–英語の場合、26文字の組合せで数十万の単語。

–前頁の例では「ダイヤル+箱=金庫」もわかる。

• さらに、提案手法はベクトルデータ全般を属性として超高速オンライン追加学習可能。

–画像、音声、各種センサデータ、モータの制御信号など、あらゆるパターンデータが入力可能。

Page 60: 東工大長谷川修研紹介 2011 (8月1日版)

24,295 枚の学習時間

6,180 枚の認識時間

SSII 2011:画像センシングシンポで発表

関連研究を ViEW 2011 にて基調講演

超高速オンライン・マルチモーダル転移学習手法

提案手法

Page 61: 東工大長谷川修研紹介 2011 (8月1日版)

Proposed SOINN

• AT-SOINN:1つのノード=1つのクラス

• 提案:1つのノード=複数のクラス(度合い)

61

Attr.01 : 20% Attr.02 : 80%

・ ・ ・ Attr.85 : 50%

Attr.01 : 95% Attr.02 : 10%

・ ・ ・ Attr.85 : 30%

Attr.01 : 70% Attr.02 : 30%

・ ・ ・ Attr.85 : 45% Attr.01

Attr.02

Online Learning New Input

Attr.01 : 15% Attr.02 : 80%

・ ・ ・ Attr.85 : 45%

Attr.01 : 10% Attr.02 : 85%

・ ・ ・ Attr.85 : 45%

Recognition

属性をSOINNのクラスとする

Noise Robust

Page 62: 東工大長谷川修研紹介 2011 (8月1日版)

Proposed Method (Training phase)

Images of

Training classes

Class/Attribute

Matrix

Dataset

Labeling Attributes

e.g. SIFT

・ ・ ・

Images of

Test classes

Feature-1

Proposed-SOINN

Q : Number of Features F-2 F-Q

Features Extraction

画像の特徴と属性の関連を学習

SOINNの数=特徴の数

これを利用してクラスから属性へ変換

ex) 「りんご」⇒「赤+球」

Page 63: 東工大長谷川修研紹介 2011 (8月1日版)

Proposed Method (Test phase)

Images of

Training classes

Class/Attribute

Matrix

Dataset

Labeling Attributes

e.g. SIFT

・ ・ ・

Images of

Test classes

Feature-1

Proposed-SOINN

Calculate Attributes using statistical recognition

Guess the Class according to these Attributes

Q : Number of Features

F-2 F-Q

Features Extraction

与えられた特徴から

各々の属性の度合いを算出

各々の属性からクラスへ変換

ex) 「赤+球」⇒「りんご」

未知クラスも属性のみは知っている

Page 64: 東工大長谷川修研紹介 2011 (8月1日版)

SOINN [Shen, Hasegawa, NN06]

• 自己増殖型ニューラルネットワーク –オンラインかつ追加的に学習可能 – クラス数や分布の形などの事前知識が不要 –実世界での運用を考慮したノイズ耐性 –マルチモーダルなパターン情報を学習可能

入力情報 SOINN内の情報

強力な

ノイズ耐性

Page 65: 東工大長谷川修研紹介 2011 (8月1日版)

さらに、長谷川研の提案手法は、

超高速

オンライン・マルチモーダル

転移学習手法

つまり、画像以外にも、音声や、

温度や圧力などの各種センサ情報、

多数のモータの制御情報、

なども複合的に扱える!

だから、ロボットにそのまま使える!

Page 66: 東工大長谷川修研紹介 2011 (8月1日版)

提案手法の発展例

• 従って、こんなことが出来る。

属性知識

インターネット

膨大な情報

獲得した属性知識を 未知対象に適用し認識

物理的経験 人の命令

「箱+窓+ダイヤル+チン♪」 ⇒電子レンジ

オンラインで

超高速に学習

他のロボットの学習結果

学習 データ 準備不要

楽チン!

Page 67: 東工大長谷川修研紹介 2011 (8月1日版)

Experiments

• Lampertら[1]の動物の画像で比較実験

– 50種類の動物

• ライオン、シマウマ、豚、シロクマ、イルカなど

– 85種類の属性(基本的な概念)

• 肉食動物、尻尾がある、速く走る、賢いなど

– 6種類の画像特徴

• SIFT、SURF、pHOG、rgSIFT、LSS、CQの

それぞれのヒストグラム(Bag-of-Features)

※上で挙げた従来手法以外にも多くの論文で使用されている

Page 68: 東工大長谷川修研紹介 2011 (8月1日版)

Experiments

例)未知の豚を当てる方法

ライオン コウモリ

学習動物

40 種類

肉食動物

飛べる

足が短い

飛べない

肉食動物

足が短い

足が短く飛べない草食動物 =豚?!

見たことがない 動物

10 種類

草食動物 だろう

足が短い だろう

飛べない だろう

草食動物

飛べない

足が長い

属性 を転移

未知動物も属性の組み合わせは知っている

Page 69: 東工大長谷川修研紹介 2011 (8月1日版)

Results

提案手法

AT-

SOINN[2] DAP[1] IAP[1]

認識率 26.82% 26.96% 40.51% 27.83%

学習時間 7分 6時間 >70日

認識時間 1分半 4時間 >2日

データ量 (ノード数)

1,825 347,082 -

SOINNの数 6 1020 -

バッチ学習 オンライン学習

99.47%削減

なお学習時間と認識時間は、特徴検出の時間を含めない

Page 70: 東工大長谷川修研紹介 2011 (8月1日版)

Results

提案手法

AT-

SOINN[2] DAP[1] IAP[1]

曖昧な

属性※ ○ × × ×

属性の

追加 ○ △ × ×

バッチ学習 オンライン学習

※曖昧な属性とは、連続値での属性の定義が出来るという意味である

提案手法は、

54枚/秒で学習、16ミリ秒/枚で認識 更に、曖昧な属性や柔軟な属性の追加が可能

Page 71: 東工大長谷川修研紹介 2011 (8月1日版)

更なる展開:インターネットの活用

• その場で、直ちに賢くなる

–高速性やオンライン学習性を活用

• 複雑な実環境では、有効な属性を事前に 想定するのは困難。

• 有効な属性を、人や環境とのインタラクションを通じて決定。

–ネットの情報は極めてノイジー

• SOINNのノイズ耐性を活用

–大規模評価実験の実施を予定

例)

Page 72: 東工大長谷川修研紹介 2011 (8月1日版)

主要参考文献

[1] C. H. Lampert, H. Nickisch, and S. Harmeling, “Learning to detect

unseen object classes by between-class attribute transfer”, CVPR

2009.

[2] A. Kawewong, Sirinart Tangruamsub, Pichai Kankuekool and

Osamu Hasegawa, “Fast Online Incremental Transfer Learning for

Unseen Object Classification Using Self-Organizing Incremental

Neural Networks”, The 2011 International Joint Conference on

Neural Networks (IJCNN).

[3] F. Shen, O. Hasegawa, “An Incremental Network for On-line

Unsupervised Classification and Topology Learning”, Neural

Networks 2006.

Page 73: 東工大長谷川修研紹介 2011 (8月1日版)

最近の主要研究 (2)

ネットからの学習データの自動収集に基づく

オンライン転移学習・認識実験

画像の基本的な情報(属性情報)を

ネットから高速学習して一般物体認識

Page 74: 東工大長谷川修研紹介 2011 (8月1日版)

研究の最終目標

電脳環境に日々蓄積される膨大な情報や、

実環境での物理的経験から、

複数のSOINNが自律的・自己組織的に学習し、

学習した知識を互いに教えあうことで、

極力人の手間を取らせずに、人のために働く

知的人工システム(情報機器やロボット)

を実現する。

Page 75: 東工大長谷川修研紹介 2011 (8月1日版)

現在

Future

青枠は全て 、長谷川研独自の既存技術

画像を用いた自己位置同定 ・GPSが不要 ・人混みでも学習や認識が可能 ・携帯端末などの 低画質のカメラでも動作

自力で賢くなる転移学習 ・インターネットなどから 学習データを自ら収集し、 自力で知的に発達 ・未学習の知識にも 柔軟に対応

・屋内や地下では 利用不可

・学習した知識を未知の対象に転移して認識 ・画像や音声、多数のセンサやモータ出力など、 あらゆるベクトルデータをオンライン学習&認識

・PIRFを利用 ・屋内でも動作可能な ・人混みでも頑健に動作

頭脳

自力で知的発達する情報機器や知能ロボット ・電脳環境や人との相互作用により 自力で賢くなる自律ロボット ・不特定タスクへの柔軟な対応

・実環境で稼働 ・未知のタスクへのアプ ローチを自力で生成

他のロボットの学習結果

長谷川研の研究目標:社会的・物理的空間や電脳空間との相互作用から 自力で知的発達する実世界知能システム(情報機器やロボット)の創成

この実現のための、 最初のアプローチ

Page 76: 東工大長谷川修研紹介 2011 (8月1日版)

問題点と本研究の着眼

76

従来手法

本研究 • ネット上には、ノイジーだが膨大な情報が存在する。 • ネットの情報は、世界中で日々更新・蓄積されている。 • ここから意味のある情報を取り出せれば、学習に使える! • SOINNのノイズ除去機能やオンライン学習機能を活用

• 殆どの場合、膨大な学習データの収集や教師ラベル付与は人が行う。

• 長谷川研の顔検出実験では、5万枚以上の画像から、3万枚以上の顔画像だけを人手で抽出した。

Page 77: 東工大長谷川修研紹介 2011 (8月1日版)

実験シナリオ

オンライン転移学習・認識実験に用いる学習画像は、インターネットから検索して自動収集する。

実験者は、システムに

画像収集のためのキーワード

上記から抽出する属性のキーワード

のみを与える。

この条件で、十分な性能が得られるか、を評価。

(転移学習には、オンライン学習可能な独自手法

“SGD-SOINN-SVM” を利用。)

Page 78: 東工大長谷川修研紹介 2011 (8月1日版)

実際に自動収集した画像の例

Tomato Broccoli

Banana Cinnamon

Page 79: 東工大長谷川修研紹介 2011 (8月1日版)

さらに、実験では異なる条件で2つのシステムを構成

• 野菜学習システム vs 人工物学習システム

人工物の画像を学習

Learn from:

- Fruits and Vegetables

Training object classes:

- Tomato, cinnamon, and broccoli

Testing object classes:

- cucumber, lemon and watermelon

Attributes:

- stick, sphere

Learn from:

- Human objects

Training object classes:

- soda-can, computer-keyboard,

shipping box

Testing object classes:

- Bottle, Tennis-ball, Microwave

Attributes:

- cylinder, buttons, cubic

野菜や果物の画像を学習

Page 80: 東工大長谷川修研紹介 2011 (8月1日版)

人工物学習システム

• Learn three attributes

– ‘cylinder’, ‘has buttons’ and

‘cubic’

• Classify on

– Bottle, tennis-ball and

microwave

Step Learnt Attributes Avg. Acc. (%)

1 ‘cylinder’, ‘has buttons’

and ‘cubic’

61.40

Soda-can

Computer-keyboard

Shipping-boxes

自動収集した学習画像は、各200枚程度。属性の組み合わせで認識

するので、「たったそれだけ」で上記の認識率が得られることが判明。

Page 81: 東工大長谷川修研紹介 2011 (8月1日版)

野菜学習システム 属性のオンライン追加学習により、認識率が向上することを確認。

Step Learnt Attributes Avg. Acc. (%)

1 Sphere, Stick 38.89

Step 1: Learn only ‘sphere’ and ‘stick’ attributes (from tomato,

cinnamon and broccoli)

Step 2: add color attributes

- learn 'red’, ‘green’ and ‘brown’ attributes from the same training

object classes

- learn ‘yellow’ attribute from new object class banana

Step Learnt Attributes Avg. Acc. (%)

1 Sphere, Stick 38.89

2 Sphere, Stick + Red, green,

brown, yellow

56.51

Page 82: 東工大長谷川修研紹介 2011 (8月1日版)

「システムが、システムに教える」実験 人工物システムが、野菜システムに学習済み ”cylinder” の属性データを転送し、野菜システムの認識率を向上させた。

Step Learnt Attributes Avg. Acc.

(%)

1 sphere, stick 38.89

2 sphere, stick + red, green,

brown, yellow

56.51

3 sphere, stick, red, green, brown,

yellow +cylinder

70.11

Transfer ‘cylinder’

attribute from the system II

人工物学習システム 野菜学習システム

Learn three attributes

• ‘cylinder’,

• ‘has buttons’

• and ‘cubic’

Page 83: 東工大長谷川修研紹介 2011 (8月1日版)

最近の主要研究 (3)

SOINN による

ロボットや複雑構造物の知的制御

Page 84: 東工大長谷川修研紹介 2011 (8月1日版)

現在

Future

青枠は全て 、長谷川研独自の既存技術

画像を用いた自己位置同定 ・GPSが不要 ・人混みでも学習や認識が可能 ・携帯端末などの 低画質のカメラでも動作

自力で賢くなる転移学習 ・インターネットなどから 学習データを自ら収集し、 自力で知的に発達 ・未学習の知識にも 柔軟に対応

・屋内や地下では 利用不可

・学習した知識を未知の対象に転移して認識 ・画像や音声、多数のセンサやモータ出力など、 あらゆるベクトルデータをオンライン学習&認識

・PIRFを利用 ・屋内でも動作可能な ・人混みでも頑健に動作

頭脳

自力で知的発達する情報機器や知能ロボット ・電脳環境や人との相互作用により 自力で賢くなる自律ロボット ・不特定タスクへの柔軟な対応

・実環境で稼働 ・未知のタスクへのアプ ローチを自力で生成

他のロボットの学習結果

長谷川研の研究目標:社会的・物理的空間や電脳空間との相互作用から 自力で知的発達する実世界知能システム(情報機器やロボット)の創成

この実現のための、 アプローチ

Page 85: 東工大長谷川修研紹介 2011 (8月1日版)

ロボットに応用問題を解かせる

• 現在の問題点

– ロボットは、プログラムした限定タスクしかできない。

• 提案手法:

– ロボットの腕を持って、基本的な動作(コップを持つ、コップから注ぐなど)を個別に教示する。

– ロボットは、上記の動作群を組み合わせ、指示されたタスク解決のための一連の挙動を自力で推論・生成し、達成する。(ポットから急須に湯を注ぎ、湯呑みにお茶を淹れて、指定の場所に置く、など。)

– 基本的な動作は、いつでも、ピンポイントで追加できる。

(新たな動作をオンライン追加学習でき、その結果としてロボットの

問題解決能力(知的レベル)が向上する。)

Page 86: 東工大長谷川修研紹介 2011 (8月1日版)

86

人型ロボットによる実世界版一般問題解決

巻渕有哉,申富饒,長谷川修:"実世界における一般問題解決システムの提案とそのヒューマノイドロボットへの実装",電子情報通信学会論文誌D,Vol.J93-D, No.6, pp960-977, (2010)

長谷川研ホームページに

デモビデオ有り

Page 87: 東工大長谷川修研紹介 2011 (8月1日版)

今後、AIは人の日常経験に近づく

ネットで調べ、まず自分でやってみて、

時には他のロボットや、人にも教えてもらうが、

極力人の手間を取らせずに、

自力で学習してタスクを実行する。

言いつけるだけで、勝手に賢くなるロボット! 「お茶を淹れて」というと、その意味や処理手順を極力自力で 学習・推論し、処理してくれる。

こうした機能は、実環境で、あらゆるタスクをこなして人のために働くロボットには不可欠!

87

Page 88: 東工大長谷川修研紹介 2011 (8月1日版)

SOINNの補足説明

Page 89: 東工大長谷川修研紹介 2011 (8月1日版)

学習器の評価(1):

オンライン学習と追加学習

89

追加学習(Incremental Learning)

過去の学習データを破壊することなく、新しい入力データを学習できること。動的に形状が変化する非定常な分布も学習可能である、学習器に適応性があるとも解釈できる

オンライン学習(Online Learning)

多数の学習データを一括して処理するのではなく、入力されるデータを逐次学習すること。言い換えれば、入力データを 個学習したときの学習結果を として、 個目の入力データと から を順次求める学習手法 ⇔ バッチ学習(Batch Learning)、オフライ ン学習(Offline Learnig)

N Nθ 1N

Nθ 1Nθ

※ 逐次学習(Incremental Learning)と表記される場合もあるので注意が必要。この場合、多くは本発表における「オンライン学習」を意味している

Page 90: 東工大長谷川修研紹介 2011 (8月1日版)

学習器の評価(2):

有限メモリと計算量O(1)

90

有限メモリ(Finite Memory)

各ステップの学習時に計算のために確保するメモリ量が、学習データ数が無限になった際に一定値、または有限値を取ること

計算量O(1) (Time Complexity)

各ステップの学習に要する計算量のオーダーが学習データ数 に対して 、つまり学習データ数に依らず一定であること。例えば、バッチ学習は学習の度に過去の全ての学習データを確認する必要があるため、少なくとも となる

1N

N

Page 91: 東工大長谷川修研紹介 2011 (8月1日版)

学習器の評価(3):

オープンエンド学習

91

追加学習

計算量 O(1)

GNG

・k-means ・SVM ・HMM

バッチ学習

(狭義の)オープンエンド学習

有限メモリ

SOM

・多層パーセプトロン ・SVM(SGD) ・HMM(オンラインEM) ・LVQ

(広義の)オープンエンド学習

オンライン学習

(広義の)オープンエンド学習

SOINN

Page 92: 東工大長谷川修研紹介 2011 (8月1日版)

SOINNシリーズ(1) 全て長谷川研で独自に研究開発

92

2005 2007

Original SOINN

[Shen et al. 2005]

E-SOINN [小倉ら 2007]

Adjusted SOINN

Classifier [神谷ら 2007] SSA-SOINN

[桜井ら 2007]

SOINNを用いた

ロボットの言語獲得

[Xe et al. 2007]

半教師あり

能動学習への応用

近似能力の維持と

構造・パラメータ数の

簡略化を同時に実現

高速最近傍識別器の提案

パラメータ数を削減

Page 93: 東工大長谷川修研紹介 2011 (8月1日版)

SOINNシリーズ(2) 全て長谷川研で独自に研究開発

93

2008 2010

SOINN-DP [岡田ら 2008] SOINN-PBR

[須藤ら 2008]

SOIAM [須藤ら 2008]

GAM

[Shen et al. 2010]

AT-SOINN

[Aram et al. 2010]

SOINNを用いた

ロボットの一般問題解決

[巻渕ら 2010]

時系列パターン

認識への応用

連想記憶の実現

パターンベース推論の実現

系列データを想起可能な

連想記憶システム

属性情報を用いた転移学習への応用