協調機械システム論協調のための適応・学習€¦ · 強化学習の概念障害物だ！どうやって回避すればいいんだろう？とりあえず右に

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

協調機械システム論

協調機械システム論(10.11.18，本郷）

東京大学大学院工学系研究科精密機械工学専攻淺間一

http://www.robot.t.u-tokyo.ac.jp/asamalab/


協調のための適応・学習


創発システムのモデル

Local Interaction

Emergent Macro Structure (Macro Function)

Self-organization ofdecentralized autonomous systems

Boundary conditionConstraints


自律型移動ロボットの適応技術

• タスクに対する適応• 環境に対する適応• 他のロボットに対する適応• 自己の状態に対する適応


LOCISS(Locally Communicable Infrared Sensory System)の原

理

ロボット１

ロボット２

ロボット２の ID

ロボット1の ID

障害物

ロボット１

ロボット１の ID

反射

ロボット１

ロボット２

ロボット２の移動情報

ロボット1の移動情報

ロボットの識別

障害物の検出

移動情報の取得


LOCISS外観


検出領域

12008004000-400-800-1200 [mm]

No.0No.1

No.2

No.3No.4

No.5

No.6

No.7

8 sensors equiped on a circle boardposition of a transmitter

[mm]

-1200

-800

-400

0

400

800

1200

通信可能領域

8 sensors equiped on a circle boardposition of a detected obstacle

12008004000-400-800-1200 [mm]

No.0

No.7

No.6

No.5

No.4

No.3

No.2

No.1

1200 [mm]

0

-800

-400

400

800

障害物検出可能領域


ルールマトリクス（対ロボット）

信号を受信したセンサのコード

受信した方向コード

0 1 2 3 4 5 6 7

0

1

2

3

4

5

6

7

T( r)

ST( l) S S F F F S

I I I

I I I I I I

I I I I I I

II I I I I I

I I I I I I

I I I I I I

I I I T( l)

I

I

I I

F

I

S

I

S

SI

I

I

I

I

I

F

T( r)

T( l)

S

F

I

: 右へ軌道変更

: 左へ軌道変更

: 停止

: 追従

: 無視

4

5

670

1

23

ロボット１

の移動方向

ロボット１

ロボット２

の移動方向

012

3

45

6

7

ロボット２


衝突回避実験

case1 case2 case3

case4 case5

Stop (Rule B)

Obstacle

Rule A

　↓

Rule E

Rule B　

↓

Rule C

Rule C　

Rule D　

↓

Rule C

Rule F　

↓

Rule G

Rule E

Rule A

Rule B

Rule C

Rule CRule C

Rule C

Stop

(Rule

D)

Rule C

Rule C

Rule

D

Rule GRule F

Robot

Robot

Robot

Robot

Robot

Robot

Robot

RobotRobot


強化学習の概念

障害物だ！

どうやって回避すれば

いいんだろう？とりあえず右に

行ってみよう

とりあえずまっすぐ

行ってみよう

回避できた！

次からはもっと頻繁に

この行動とろう．

ぶつかってしまった！

次からはあまりこの行動

をとるのはやめよう．

ロボットが回避行動を繰り返し実行することにより適応的な回避行動を自律的に学習


学習の流れ

学習

スコア

ベース回避行動の選択

報酬に基づく学習

回避行動の評価更新

学習の実現


行動選択のスコア・回避行動を回避方向および回避速度で表す．

・回避方向　および回避速度　に対してスコア　を導入する．

・スコアは回避行動の選択確率を決定する指標である．

sijji

0 ≦ ≦ 7 : （８方向）i

0 ≦ ≦ 3 : （ 0 , 1 0 , 2 0 , 3 0 [cm/s]）j回避速度 j

回避方向 i

取得情報 A

取得情報 B

状態表

.. .

...

回避方向 : i

回避速度 : j

. . .

...

スコア表

スコア : s ij


回避行動の選択

回避行動の選択確率

ロボットは選択確率にしたがって

ランダムに回避行動を選択する．

sij

smnΣn

rij = Σm

→　正規化

：回避速度ji ：回避方向


回避行動の報酬に基づく学習

: 負の強化

: 正の強化E(t) > 0E(t) < 0

報酬

Snew = Sold + E(t)


回避行動の評価

dg(t)

ロボット

ゴール

ロボット

障害物（壁）

: 障害物（壁）と

ロボットの距離

: ゴールとロボットの距離

d (t)w

: ロボットと

ロボットの距離

dr(t)

評価値

d : 障害物とロボットの距離(t)w

dg : ゴールとロボットの距離 (t)dr : ロボットとロボットの距離(t)

: 重み係数γα, β,

= dw - dw (t-∆t)(t)= dr - rd (t-∆t)(t) = - dg(t-∆t)dg(t)(t)

∆dw∆dr

∆dg

(t)(t)(t)

=E(t) α∆dw + β∆dr - γ∆dg(t) (t) (t)


状態認識に用いるパラメータ

ロボット ID

ロボット

回避対象物

G

移動速度移動方向

ゴールの方向

ゴール

検出した

物体の

方向

移動速度


学習の収束性

100080060040020000.0

0.2

0.4

0.6

0.8

Learning steps

Rat

io

[times]

30

[cm/s]

ロボット１ロボット２

30

[cm/s]

G G

ロボット１

のゴール

ロボット２

のゴール

認識状態

10 [cm /s]

10 [cm /s]

10 [cm /s]

Go straight at 10 [cm/s]Turn left 45 [deg] at 10 [cm/s]Turn right 45 [deg] at 10 [cm/s]Go straight at 20 [cm/s]Turn left 45 [deg] at 20 [cm/s]Turn right 45 [deg] at 20 [cm/s]Go straight at 30 [cm/s]Turn left 45 [deg] at 30 [cm/s]Turn right 45 [deg] at 30 [cm/s]


シミュレーション実験

ロボット１のスタート

ロボット１の軌跡

ロボット１の移動方向

ロボット２の移動方向

ロボット２のゴール

ロボット２の軌跡

ロボット１のゴール

ロボット３のゴール

ロボット３の軌跡

ロボット２の移動方向

ロボット２のスタート

ロボット３のスタート


行動選択の階層化

: ゴールへ向かうための行動選択Cg: １つの物体を回避するための行動選択 ( i = 0 ～ 7 )

Coi

: センサグループごとの複数物体回避のための行動選択( j = A, B, C)

Csj

: 複数物体回避のための行動選択Cf

CsA

CsB

CsC

移動速度ゴールの方向

回避行動

回避行動

物体の方向

移動方向移動速度

物体がロボットなら

Co5

Co3

Co0

Co6

Co1

Co4

Co2

Co7

Cf

回避行動

回避行動

Cg

ロボットの

移動方向

B

C

B

BA

A

C

A C

: トランスミッタ

　／レシーバ

: センサグループ AA: センサグループ BB: センサグループ CC


一つの物体を回避するための行動選択

物体の識別

ロボット ID

ロボット

障害物

物体なし

Cg からの回避行動

Coio

回避行動Coir

回避行動

- ロボットの移動方向

- ロボットの移動速度

- Cg からの回避行動

- Cg からの回避行動

: １つの障害物を回避するための行動選択Coio

: １台のロボットを回避するための行動選択Coir


各階層の学習ロボット

のスタート

ロボット

のゴール

ロボット

の移動方向

ロボット

のスタート

ロボット

のゴール

ロボット

の移動方向

障害物

ロボット１

のスタート

ロボット１

のゴール

ロボット１

の移動方向

ロボット２

のスタートロボット２

のゴール

ロボット２

の移動方向

ロボット１

のゴール

ロボット２

の移動方向

障害物ロボット２

のゴール

ロボット２

のスタート

ロボット１

の移動方向

ロボット１

のスタート

(a)ゴールへ向かうための行動選択

(b) 一つの障害物を回避するための行動選択

(c) 一台のロボットを回避するための行動選択

(d) センサグループごとの複数物体回避のための行動選択


強化学習を用いた衝突回避行動の獲得

ロボット１

の移動方向

ロボット２のスタート &

ロボット１のゴールロボット２

の移動方向

ロボット４のスタート &

ロボット３のゴールロボット４

の移動方向

ロボット１のスタート &

ロボット２のゴール

ロボット３

の移動方向

ロボット３のスタート &

ロボット４のゴール


コミュニケーションとは

有線／無線による電気信号の受渡（ロボティクス）通信を使わない協調？センシング

個体間のインタラクション（発達心理学）コミュニケーションが前提

コミュニケーションが成り立つ条件

• 共通のプロトコルが存在すること（先天的・後天的）• 意図の伝達（感情，知識，ジェスチャ，言語）


発達心理学

おとなははじめから親なのではなく、赤ちゃんと触れ合うことによって親になっていくという部分もある。

泣くこと、ことばにならぬ声を発すること、微笑することなどは、乳児の側から発せられるシグナルであり、それを受けて少なくとも乳児のまわりにいるおとなは赤ちゃんが何を要求しているのか読み取り、それに応えようとして行動する。自分に関心を持ってもらい、自分に話しかけてもらう、そしてできるだけ長く、多様なパターンが話されるように仕向けているのではないか。

発達心理学の招待


群システムにおけるコミュニケーション

共通のプロトコルが存在すること

（先天的・後天的）

単なる信号の授受ではない

意図

意味

●意図の伝達（感情，知識，ジェスチャ，言語）

行動と知覚によって可能

コミュニケーションが成り立つ条件

c.f. 情報理論，ノンバーバルコミュニケーション，言語学


コミュニケーションの意義個体と群の本質的相違

制御という観点から考える

従来のシステムの考え方入力（知覚の手段：センサ）環境の状態

出力（動作の手段：アクチュエータ）自己の身体

自己制約

本研究での考え方（コミュニケーションを陽に扱う）入力：環境の状態＋他のロボットの意図

出力：自己および他の身体

自由度の拡大・オープン化

身体を動かすのみならず他者への発話（送信）も行動と考える

拡自行動


コミュニケーションの創発

• コミュニケーションも含めた行動学習

• 意図の伝達メカニズムはいかに獲得され得るか

• 意図伝達の枠組みを用意し，学習によりそれをどのように使うようになるかを見る

（１）プロトコルを与え，使い方を学習

（２）プロトコルの獲得

課題：ロボット間協調情報の授受（意図，意志の伝達を含む）機能必要どのような状況でどのように行動（通信，制御）し，

競合を回避すべきかの事前プログラムは不可能


強化学習

・環境から報酬が選択行動に与えられるため，自身や環境についての先見的知識はほぼ不必要

・試行錯誤を通じて環境に適応

複数ロボット環境：・状態遷移確率と報酬が既知でない・同じ物理的動作が異なった状態変化を引き起こし，学習が進行しない

イベント発生毎に意志決定（離散時間系）

セミマルコフ決定過程(SMDP)環境に対応したQ学習


確率過程(Stochastic process)• 古典力学における微分方程式現在が決まると未来が決定

• マルコフ過程確率事象の系列で，各事象の発生が直前の結果のみに依存することを仮定する確率過程

• マルコフ決定過程(Markov Decision Process)離散時間系，１ステップダイナミクス（状態遷移確率は現在の状態（知覚行動対）のみに依存），定常性（状態遷移確率が時間的に定常）

• セミマルコフ決定過程(Semi-Markov Decision Process)意思決定の時間間隔任意（状態変化が生じるまで一定），離散遷移での報酬を積分で与える


SMDP環境に対応したQ学習

（１）環境の状態を観測

（２）行動選択方法に従って行動を実行

（３）イベント（状態遷移）が発生するまで環境から報酬ｒ

を受け取り続け，割引報酬合計を計算

（４）イベント（状態遷移）発生後の状態を観測

（５）以下の更新式によりQ値を更新：

αは学習率，γは割引率（）

（６）時間ステップ t を t+N へ進め，（１）へ戻る

tS

ta

sumR

NtS +

11

22

1 −+−

++ +⋅⋅⋅+++= NtN

tttsum rrrrR γγγ

[ ])',(max),()1(),('

asQRasQasQ Nta

Nsumtttt +++−← γαα

10 <≤ γ

学習アルゴリズム


設定（ケース1）

概要・300[cm]×300[cm]内に移動ロボット2台・全方向移動ロボット，直径30[cm]の円筒形・全方位視覚センサ搭載・学習するロボット(A)に目標地を与える

・学習しないロボット(B)は自律移動

・ロボットBはAからの発話に必ず従う

・各初期位置とAの目標地はランダムに配置

終了条件・ロボット同士が衝突・ロボットAが壁に衝突・ロボットAが目標地に到達・3000ステップに到達

シミュレーション環境（初期位置ランダム）

共通プロトコルを与えて学習結果を観察

20000試行学習


状態空間（ケース1）

センサ情報（画像ベースを想定）・相手の大きさ (3)：距離から換算・相手のいる方向(6)・ゴールの方向 (6)・障害物の方向 (4) ：壁

定常通信による情報・相手の速度 (3)：高・中・低・相手から見える自己の方向(4)

その他・自己速度 (3)：高・中・低

Robot on the image plane

状態数：19440


行動選択法と報酬Boltzmann選択:

∑∈

=

actionspossiblebTxQ

TaxQxap)/)b,(exp(

)/),(exp()|(

状態 x のとき行動 aを選択する確率 p(a|x):

評価関数 r=E(t)：

目標地

)(td w障害物（壁）

ロボット

ロボット )(tdr

)(tdg

)()()}/{exp()()/exp()( tdtdKrtdKrtE grj

rrwww jj∆−∆−+∆−= ∑ μλκ

T: 温度定数大：ランダム，小：決定的


行動(ケース1)

1. 直進移動2. +45度軌道変更3. - 45度軌道変更4. 減速(‐0.2[cm/sec])5. 加速(+0.2[cm/sec])6. 発話・+45度方向に軌道変更し，減速・+45度方向に軌道変更し，加速・- 45度方向に軌道変更し，減速・- 45度方向に軌道変更し，加速

ロボット間の共通プロトコルとして発話

行動(9)


結果(ケース1)

ロボット間距離による行動選択率

・60cm未満

発話 57.98%

・60cm以上120cm未満

発話 31.04%

・120cm以上

発話 33.83%

（－：発話有り，－：発話なし）

ゴール到達率：100試行中の成功回数

ロボット間の距離が

短い際に積極的に発話


結果(ケース1)

発話有り発話なし

発話有りは相手に指示することで目標地に到達

共通プロトコル上での意図伝達法を学習により獲得


シミュレーション実験


選択行動(ケース1)

Slow down9

2Move forward10

Slow down8

Slow down7

Speak (turn(+ [rad]),Slow down)6

Slow down5

Slow down4

Speed up3

Speed up2

Speed up1

1Move Forward0

4π

numberActionStep


Move forward52

Turn(- [rad])56

4Turn(+ [rad])55

Speed up54

Speak(turn(- [rad]),Slow down)53

Speed up51

Speed up50

3Speak(turn(- [rad]),Speed up)49

Speed up48

Speed up47

・・・

・・・

・・・

・・・

4π

4π

4π

4π


6Move forward154

Speak(turn(- [rad],Speed up)131

Speak(turn(+ [rad],Speed up)130

Speak(turn(+ [rad],Speed up)129



5Speak(turn(+ [rad],Speed up)126


Speak(turn(+ [rad]),Speed up)124

Speak(turn(+ [rad]),Speed up)123

Speak(turn(- [rad]),Slow down)122

・・・

・・・

・・・

・・・

4π

4π

4π

4π

4π

4π

4π

4π

4π

4π


例2(ケース1)

発話有り発話なし


設定（ケース2）

シミュレーション環境（固定）

概要・300[cm]×300[cm]内に移動ロボット2台・全方向移動ロボット，直径30[cm]の円筒形・全方位視覚センサ搭載・各ロボットそれぞれに目標地（固定）を設定（交差するように初期動作設定）

終了条件・ロボット同士が衝突・ロボットが壁に衝突・各ロボットが目標地に到達・3000ステップに到達


行動と状態空間（ケース2）

1. 直進移動2. +45度軌道変更3. - 45度軌道変更4. 減速(- 0.2[cm/sec])5. 加速(+0.2[cm/sec])6. 発話

－．Ａ－．Ｂ－．Ｃ－．Ｄ

状態数：97200

相手からの発話(5)Ａ，Ｂ，Ｃ，Ｄ，無

×

内容変更

・意図伝達の手段を与える（特定の為，記号化）

・相手からの発話を状態として持つ

行動(9) 状態空間

ケース1と同様

共通プロトコルを獲得可能か観察

20000試行学習


結果(ケース2)

ゴール到達率：100試行ごとの成功回数

移動軌跡


例(ケース2)

Turn(- [rad])Turn(- [rad])24Turn(- [rad])Turn(- [rad])25Turn(+ [rad])Turn(+ [rad])26

Turn(+ [rad])Speak C23Turn(+ [rad])Speak C22Turn(+ [rad])Speak C21

2Turn(+ [rad])Speak C20Turn(+ [rad])Move forward19Turn(+ [rad])Move forward18Speak ASpeed up17

1Move forwardMove forward1・・・

・・・

・・・

4π

4π

4π

4π

4π

4π

4π

4π

4π

4π

4π

4π

numberAgent BAgent AStep


Turn(+ [rad])Turn(+ [rad])27

4Speed upSpeak C40Speed upSpeak C39Speak CSpeak D38Speak CSpeak D37Speak CSpeak D36Speak CSpeak D35Speak CSpeak B34Speak CSpeak B33Speak CSpeak B32Speak CTurn(+ [rad])31

3Speak CTurn(+ [rad])30Speak CTurn(- [rad])29Speak CTurn(- [rad])28

4π

4π

4π

4π

4π

4π


6Slow downMove forward185

Speak CTurn(- [rad])50Speak CTurn(- [rad])49

5Turn(- [rad])Turn(+ [rad])48Turn(- [rad])Turn(+ [rad])47Turn(+ [rad])Turn(+ [rad])46Turn(+ [rad])Turn(+ [rad])45

Slow downTurn(- [rad])44Slow downTurn(- [rad])43

Turn(- [rad])Speak C42Turn(- [rad])Speak C41

・・・

4π

4π

4π

4π

4π

4π

4π

4π

4π

4π

4π

4π

4π

4π

・・・・・・


0 20 40 60 80 100 120 140 160 180

Number of Steps Robot A Robot B

Speak D

Speak C

Speak B

Speek A

Turn(-π/4)

Turn(+π/4)

Speed up

Slow down

Move Forward


シミュレーションによる通信学習結果

プロトコル定義、一方的学習－通信がある場合のほうが到達率が高い－距離が近距離の方が、通信を積極的に使う（有効）■行動としての通信による意図の伝達（各自行動）の有効性

プロトコル未定義、双方学習－受信した発話ごとの行動選択率が同じ（プロトコル獲得）■プロトコル獲得の可能性


自由からの逃走（エーリッヒ・フロム）

• ファシズム批判、デモクラシー批判

• 自由の獲得と同様な熱心さで自由を捨てる

• 自由の２面性

• 古い権威や束縛から解放される「自由」の拡大は、個人に独立と自律をもたらしたが、同時に「孤独と無力」の感情をもたらす

• 「孤独と無力」がもたらす重荷

• 「匿名の権威」の支配：世論・常識

• 他人の期待に一致するように注意を払う。期待に外れることを非常に恐れる

• 「自己の喪失」への逃避


レポート課題

• 拡自行動とは何かについて説明するとともに，協調におけるコミュニケーションの意義について論ぜよ．–締め切り：2010年11月29日（月）23:59–提出先：[email protected]– Subjectには，「協調機械レポート１：学生証番号（半角）氏名（全角）」と記すこと

–レポートのファイル名は，「学生証番号（半角）氏名（全角）」とすること．

Documents

協調機械システム論 協調のための適応・学習€¦ · 強化学習の概念 障害物だ！ どうやって回避すれば いいんだろう？ とりあえず右に

協調機械システム論協調のための適応・学習€¦ · 強化学習の概念障害物だ！どうやって回避すればいいんだろう？とりあえず右に