13
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010 協調機械システム論 協調機械システム論 (10.11.18,本郷) 東京大学大学院工学系研究科 精密機械工学専攻 淺間 http://www.robot.t.u-tokyo.ac.jp/asamalab/ Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010 協調のための適応・学習 Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010 創発システムのモデル Local Interaction Emergent Macro Structure (Macro Function) Self-organization of decentralized autonomous systems Boundary condition Constraints Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010 自律型移動ロボットの適応技術 タスクに対する適応 環境に対する適応 他のロボットに対する適応 自己の状態に対する適応

協調機械システム論 協調のための適応・学習€¦ · 強化学習の概念 障害物だ! どうやって回避すれば いいんだろう? とりあえず右に

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 協調機械システム論 協調のための適応・学習€¦ · 強化学習の概念 障害物だ! どうやって回避すれば いいんだろう? とりあえず右に

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

協調機械システム論

協調機械システム論(10.11.18,本郷)

東京大学大学院工学系研究科精密機械工学専攻淺間 一

http://www.robot.t.u-tokyo.ac.jp/asamalab/

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

協調のための適応・学習

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

創発システムのモデル

Local Interaction

Emergent Macro Structure (Macro Function)

Self-organization ofdecentralized autonomous systems

Boundary conditionConstraints

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

自律型移動ロボットの適応技術

• タスクに対する適応• 環境に対する適応• 他のロボットに対する適応• 自己の状態に対する適応

Page 2: 協調機械システム論 協調のための適応・学習€¦ · 強化学習の概念 障害物だ! どうやって回避すれば いいんだろう? とりあえず右に

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

LOCISS(Locally Communicable Infrared Sensory System)の原

ロボット 1

ロボット 2

ロボット2 の ID

ロボット1の ID

障害物

ロボット 1

ロボット1 の ID

反射

ロボット 1

ロボット 2

ロボット2 の移動情報

ロボット1の移動情報

ロボットの識別

障害物の検出

移動情報の取得

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

LOCISS外観

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

検出領域

12008004000-400-800-1200 [mm]

No.0No.1

No.2

No.3No.4

No.5

No.6

No.7

8 sensors equiped on a circle boardposition of a transmitter

[mm]

-1200

-800

-400

0

400

800

1200

通信可能領域

8 sensors equiped on a circle boardposition of a detected obstacle

12008004000-400-800-1200 [mm]

No.0

No.7

No.6

No.5

No.4

No.3

No.2

No.1

1200 [mm]

0

-800

-400

400

800

障害物検出可能領域

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

ルールマトリクス(対ロボット)

信号を受信したセンサのコード

受信した方向コード

0 1 2 3 4 5 6 7

0

1

2

3

4

5

6

7

T( r)

ST( l) S S F F F S

I I I

I I I I I I

I I I I I I

II I I I I I

I I I I I I

I I I I I I

I I I T( l)

I

I

I I

F

I

S

I

S

SI

I

I

I

I

I

F

T( r)

T( l)

S

F

I

: 右へ軌道変更

: 左へ軌道変更

: 停止

: 追従

: 無視

4

5

670

1

23

ロボッ ト 1

の移動方向

ロボッ ト 1

ロボッ ト 2

の移動方向

012

3

45

6

7

ロボッ ト 2

Page 3: 協調機械システム論 協調のための適応・学習€¦ · 強化学習の概念 障害物だ! どうやって回避すれば いいんだろう? とりあえず右に

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

衝突回避実験

case1 case2 case3

case4 case5

Stop (Rule B)

Obstacle

Rule A

 ↓

Rule E

Rule B 

Rule C

Rule C 

Rule D 

Rule C

Rule F 

Rule G

Rule E

Rule A

Rule B

Rule C

Rule CRule C

Rule C

Stop

(Rule

D)

Rule C

Rule C

Rule

D

Rule GRule F

Robot

Robot

Robot

Robot

Robot

Robot

Robot

RobotRobot

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

強化学習の概念

障害物だ!

どう やって回避すれば

いいんだろう ? とりあえず右に

行ってみよう

と りあえずまっすぐ

行ってみよう

回避できた!

次からはもっと頻繁に

この行動とろう .

ぶつかってしまった!

次からはあまり この行動

をとるのはやめよう .

ロボットが回避行動を繰り返し実行することにより適応的な回避行動を自律的に学習

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

学習の流れ

学習

スコア

ベース回避行動の選択

報酬に基づく 学習

回避行動の評価更新

学習の実現

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

行動選択のスコア・ 回避行動を回避方向および回避速度で表す.

・ 回避方向  および回避速度  に対してスコア  を導入する.

・ スコアは回避行動の選択確率を決定する指標である.

sijji

0 ≦ ≦ 7 : ( 8 方向)i

0 ≦ ≦ 3 : ( 0 , 1 0 , 2 0 , 3 0 [cm/s])j回避速度 j

回避方向 i

取得情報 A

取得情報 B

状態表

.. .

...

回避方向 : i

回避速度 : j

. . .

...

スコ ア表

スコ ア : s ij

Page 4: 協調機械システム論 協調のための適応・学習€¦ · 強化学習の概念 障害物だ! どうやって回避すれば いいんだろう? とりあえず右に

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

回避行動の選択

回避行動の選択確率

ロボッ ト は選択確率にしたがって

ランダムに回避行動を選択する.

sij

smnΣn

rij = Σm

→  正規化

: 回避速度ji : 回避方向

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

回避行動の報酬に基づく学習

: 負の強化

: 正の強化E(t) > 0E(t) < 0

報酬

Snew = Sold + E(t)

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

回避行動の評価

dg(t)

ロボット

ゴール

ロボッ ト

障害物( 壁)

: 障害物( 壁) と

ロボッ ト の距離

: ゴールとロボッ ト の距離

d (t)w

: ロボッ ト と

ロボッ ト の距離

dr(t)

評価値

d : 障害物とロボッ ト の距離(t)w

dg : ゴールとロボッ ト の距離 (t)dr : ロボッ ト とロボッ ト の距離(t)

: 重み係数γα, β,

= dw - dw (t-∆t)(t)= dr - rd (t-∆t)(t) = - dg(t-∆t)dg(t)(t)

∆dw∆dr

∆dg

(t)(t)(t)

=E(t) α∆dw + β∆dr - γ∆dg(t) (t) (t)

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

状態認識に用いるパラメータ

ロボッ ト ID

ロボッ ト

回避対象物

G

移動速度移動方向

ゴールの方向

ゴール

検出した

物体の

方向

移動速度

Page 5: 協調機械システム論 協調のための適応・学習€¦ · 強化学習の概念 障害物だ! どうやって回避すれば いいんだろう? とりあえず右に

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

学習の収束性

100080060040020000.0

0.2

0.4

0.6

0.8

Learning steps

Rat

io

[times]

30

[cm/s]

ロボッ ト 1 ロボッ ト 2

30

[cm/s]

G G

ロボッ ト 1

のゴール

ロボッ ト 2

のゴール

認識状態

10 [cm /s]

10 [cm /s]

10 [cm /s]

Go straight at 10 [cm/s]Turn left 45 [deg] at 10 [cm/s]Turn right 45 [deg] at 10 [cm/s]Go straight at 20 [cm/s]Turn left 45 [deg] at 20 [cm/s]Turn right 45 [deg] at 20 [cm/s]Go straight at 30 [cm/s]Turn left 45 [deg] at 30 [cm/s]Turn right 45 [deg] at 30 [cm/s]

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

シミュレーション実験

ロボッ ト 1のスタート

ロボッ ト 1の軌跡

ロボッ ト 1 の移動方向

ロボッ ト 2 の移動方向

ロボッ ト 2のゴール

ロボッ ト 2の軌跡

ロボッ ト 1のゴール

ロボッ ト 3のゴール

ロボッ ト 3の軌跡

ロボッ ト 2 の移動方向

ロボッ ト 2のスタート

ロボッ ト 3のスタート

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

行動選択の階層化

: ゴールへ向かう ための行動選択Cg: 1 つの物体を回避するための行動選択 ( i = 0 ~ 7 )

Coi

: センサグループごとの複数物体回避のため の行動選択( j = A, B, C)

Csj

: 複数物体回避のための行動選択Cf

CsA

CsB

CsC

移動速度ゴールの方向

回避行動

回避行動

物体の方向

移動方向移動速度

物体がロボッ ト なら

Co5

Co3

Co0

Co6

Co1

Co4

Co2

Co7

Cf

回避行動

回避行動

Cg

ロボッ ト の

移動方向

B

C

B

BA

A

C

A C

: ト ランスミ ッ タ

  /レシーバ

: センサグループ AA: センサグループ BB: センサグループ CC

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

一つの物体を回避するための行動選択

物体の識別

ロボッ ト ID

ロボッ ト

障害物

物体なし

Cg からの回避行動

Coio

回避行動Coir

回避行動

- ロボッ ト の移動方向

- ロボッ ト の移動速度

- Cg からの回避行動

- Cg からの回避行動

: 1 つの障害物を回避するための行動選択Coio

: 1 台のロボッ ト を回避するための行動選択Coir

Page 6: 協調機械システム論 協調のための適応・学習€¦ · 強化学習の概念 障害物だ! どうやって回避すれば いいんだろう? とりあえず右に

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

各階層の学習ロボット

のスタート

ロボッ ト

のゴール

ロボッ ト

の移動方向

ロボッ ト

のスタート

ロボッ ト

のゴール

ロボッ ト

の移動方向

障害物

ロボッ ト 1

のスタート

ロボッ ト 1

のゴール

ロボッ ト 1

の移動方向

ロボッ ト 2

のスタートロボッ ト 2

のゴール

ロボッ ト 2

の移動方向

ロボッ ト 1

のゴール

ロボッ ト 2

の移動方向

障害物ロボッ ト 2

のゴール

ロボッ ト 2

のスタート

ロボッ ト 1

の移動方向

ロボッ ト 1

のスタート

(a)ゴールへ向かうための行動選択

(b) 一つの障害物を回避するための行動選択

(c) 一台のロボットを回避するための行動選択

(d) センサグループごとの複数物体回避のための行動選択

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

強化学習を用いた衝突回避行動の獲得

ロボット1

の移動方向

ロボッ ト 2 のスタート &

ロボッ ト 1 のゴール ロボット2

の移動方向

ロボッ ト 4 のスタート &

ロボッ ト 3 のゴールロボット4

の移動方向

ロボッ ト 1 のスタート &

ロボッ ト 2 のゴール

ロボット3

の移動方向

ロボッ ト 3 のスタート &

ロボッ ト 4 のゴール

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

コミュニケーションとは

有線/無線による電気信号の受渡(ロボティクス)通信を使わない協調? センシング

個体間のインタラクション(発達心理学)コミュニケーションが前提

コミュニケーションが成り立つ条件

• 共通のプロトコルが存在すること(先天的・後天的)• 意図の伝達(感情,知識,ジェスチャ,言語)

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

発達心理学

おとなははじめから親なのではなく、赤ちゃんと触れ合うことによって親になっていくという部分もある。

泣くこと、ことばにならぬ声を発すること、微笑することなどは、乳児の側から発せられるシグナルであり、それを受けて少なくとも乳児のまわりにいるおとなは赤ちゃんが何を要求しているのか読み取り、それに応えようとして行動する。自分に関心を持ってもらい、自分に話しかけてもらう、そしてできるだけ長く、多様なパターンが話されるように仕向けているのではないか。

発達心理学の招待

Page 7: 協調機械システム論 協調のための適応・学習€¦ · 強化学習の概念 障害物だ! どうやって回避すれば いいんだろう? とりあえず右に

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

群システムにおけるコミュニケーション

共通のプロトコルが存在すること

(先天的・後天的)

単なる信号の授受ではない

意図

意味

●意図の伝達(感情,知識,ジェスチャ,言語)

行動と知覚によって可能

コミュニケーションが成り立つ条件

c.f. 情報理論,ノンバーバルコミュニケーション,言語学

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

コミュニケーションの意義個体と群の本質的相違

制御という観点から考える

従来のシステムの考え方入力(知覚の手段:センサ) 環境の状態

出力(動作の手段:アクチュエータ)自己の身体

自己制約

本研究での考え方(コミュニケーションを陽に扱う)入力:環境の状態+他のロボットの意図

出力:自己および他の身体

自由度の拡大・オープン化

身体を動かすのみならず他者への発話(送信)も行動と考える

拡自行動

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

コミュニケーションの創発

• コミュニケーションも含めた行動学習

• 意図の伝達メカニズムはいかに獲得され得るか

• 意図伝達の枠組みを用意し,学習によりそれをどのように使うようになるかを見る

(1)プロトコルを与え,使い方を学習

(2)プロトコルの獲得

課題:ロボット間協調 情報の授受(意図,意志の伝達を含む)機能必要どのような状況でどのように行動(通信,制御)し,

競合を回避すべきかの事前プログラムは不可能

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

強化学習

・環境から報酬が選択行動に与えられるため,自身や環境についての先見的知識はほぼ不必要

・試行錯誤を通じて環境に適応

複数ロボット環境:・状態遷移確率と報酬が既知でない・同じ物理的動作が異なった状態変化を引き起こし,学習が進行しない

イベント発生毎に意志決定(離散時間系)

セミマルコフ決定過程(SMDP)環境に対応したQ学習

Page 8: 協調機械システム論 協調のための適応・学習€¦ · 強化学習の概念 障害物だ! どうやって回避すれば いいんだろう? とりあえず右に

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

確率過程(Stochastic process)• 古典力学における微分方程式現在が決まると未来が決定

• マルコフ過程確率事象の系列で,各事象の発生が直前の結果のみに依存することを仮定する確率過程

• マルコフ決定過程(Markov Decision Process)離散時間系,1ステップダイナミクス(状態遷移確率は現在の状態(知覚行動対)のみに依存),定常性(状態遷移確率が時間的に定常)

• セミマルコフ決定過程(Semi-Markov Decision Process)意思決定の時間間隔任意(状態変化が生じるまで一定),離散遷移での報酬を積分で与える

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

SMDP環境に対応したQ学習

(1) 環境の状態 を観測

(2) 行動選択方法に従って行動 を実行

(3)イベント(状態遷移)が発生するまで環境から報酬r

を受け取り続け,割引報酬合計 を計算

(4)イベント(状態遷移)発生後の状態 を観測

(5)以下の更新式によりQ値を更新:

αは学習率,γは割引率( )

(6)時間ステップ t を t+N へ進め,(1)へ戻る

tS

ta

sumR

NtS +

11

22

1 −+−

++ +⋅⋅⋅+++= NtN

tttsum rrrrR γγγ

[ ])',(max),()1(),('

asQRasQasQ Nta

Nsumtttt +++−← γαα

10 <≤ γ

学習アルゴリズム

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

設定(ケース1)

概要・300[cm]×300[cm]内に移動ロボット2台・全方向移動ロボット,直径30[cm]の円筒形・全方位視覚センサ搭載・学習するロボット(A)に目標地を与える

・学習しないロボット(B)は自律移動

・ロボットBはAからの発話に必ず従う

・各初期位置とAの目標地はランダムに配置

終了条件・ロボット同士が衝突 ・ロボットAが壁に衝突・ロボットAが目標地に到達・3000ステップに到達

シミュレーション環境(初期位置ランダム)

共通プロトコルを与えて学習結果を観察

20000試行学習

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

状態空間(ケース1)

センサ情報(画像ベースを想定)・相手の大きさ (3):距離から換算・相手のいる方向(6)・ゴールの方向 (6)・障害物の方向 (4) :壁

定常通信による情報・相手の速度 (3):高・中・低・相手から見える自己の方向(4)

その他・自己速度 (3):高・中・低

Robot on the image plane

状態数:19440

Page 9: 協調機械システム論 協調のための適応・学習€¦ · 強化学習の概念 障害物だ! どうやって回避すれば いいんだろう? とりあえず右に

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

行動選択法と報酬Boltzmann選択:

∑∈

=

actionspossiblebTxQ

TaxQxap)/)b,(exp(

)/),(exp()|(

状態 x のとき行動 aを選択する確率 p(a|x):

評価関数 r=E(t):

目標地

)(td w障害物(壁)

ロボット

ロボット )(tdr

)(tdg

)()()}/{exp()()/exp()( tdtdKrtdKrtE grj

rrwww jj∆−∆−+∆−= ∑ μλκ

T: 温度定数大:ランダム,小:決定的

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

行動(ケース1)

1. 直進移動2. +45度軌道変更3. - 45度軌道変更4. 減速(‐0.2[cm/sec])5. 加速(+0.2[cm/sec])6. 発話・+45度方向に軌道変更し,減速・+45度方向に軌道変更し,加速・- 45度方向に軌道変更し,減速・- 45度方向に軌道変更し,加速

ロボット間の共通プロトコルとして発話

行動(9)

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

結果(ケース1)

ロボット間距離による行動選択率

・60cm未満

発話 57.98%

・60cm以上120cm未満

発話 31.04%

・120cm以上

発話 33.83%

(-:発話有り,-:発話なし)

ゴール到達率:100試行中の成功回数

ロボット間の距離が

短い際に積極的に発話

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

結果(ケース1)

発話有り 発話なし

発話有りは相手に指示することで目標地に到達

共通プロトコル上での意図伝達法を学習により獲得

Page 10: 協調機械システム論 協調のための適応・学習€¦ · 強化学習の概念 障害物だ! どうやって回避すれば いいんだろう? とりあえず右に

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

シミュレーション実験

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

選択行動(ケース1)

Slow down9

2Move forward10

Slow down8

Slow down7

Speak (turn(+ [rad]),Slow down)6

Slow down5

Slow down4

Speed up3

Speed up2

Speed up1

1Move Forward0

numberActionStep

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

Move forward52

Turn(- [rad])56

4Turn(+ [rad])55

Speed up54

Speak(turn(- [rad]),Slow down)53

Speed up51

Speed up50

3Speak(turn(- [rad]),Speed up)49

Speed up48

Speed up47

・・・

・・・

・・・

・・・

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

6Move forward154

Speak(turn(- [rad],Speed up)131

Speak(turn(+ [rad],Speed up)130

Speak(turn(+ [rad],Speed up)129

Speak(turn(- [rad],Speed up)128

Speak(turn(- [rad],Speed up)127

5Speak(turn(+ [rad],Speed up)126

Speak(turn(- [rad],Speed up)125

Speak(turn(+ [rad]),Speed up)124

Speak(turn(+ [rad]),Speed up)123

Speak(turn(- [rad]),Slow down)122

・・・

・・・

・・・

・・・

Page 11: 協調機械システム論 協調のための適応・学習€¦ · 強化学習の概念 障害物だ! どうやって回避すれば いいんだろう? とりあえず右に

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

例2(ケース1)

発話有り 発話なし

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

設定(ケース2)

シミュレーション環境(固定)

概要・300[cm]×300[cm]内に移動ロボット2台・全方向移動ロボット,直径30[cm]の円筒形・全方位視覚センサ搭載・各ロボットそれぞれに目標地(固定)を設定(交差するように初期動作設定)

終了条件・ロボット同士が衝突 ・ロボットが壁に衝突・各ロボットが目標地に到達・3000ステップに到達

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

行動と状態空間(ケース2)

1. 直進移動2. +45度軌道変更3. - 45度軌道変更4. 減速(- 0.2[cm/sec])5. 加速(+0.2[cm/sec])6. 発話

-.A-.B-.C-.D

状態数:97200

相手からの発話(5)A,B,C,D,無

×

内容変更

・意図伝達の手段を与える(特定の為,記号化)

・相手からの発話を状態として持つ

行動(9) 状態空間

ケース1と同様

共通プロトコルを獲得可能か観察

20000試行学習

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

結果(ケース2)

ゴール到達率:100試行ごとの成功回数

移動軌跡

Page 12: 協調機械システム論 協調のための適応・学習€¦ · 強化学習の概念 障害物だ! どうやって回避すれば いいんだろう? とりあえず右に

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

例(ケース2)

Turn(- [rad])Turn(- [rad])24Turn(- [rad])Turn(- [rad])25Turn(+ [rad])Turn(+ [rad])26

Turn(+ [rad])Speak C23Turn(+ [rad])Speak C22Turn(+ [rad])Speak C21

2Turn(+ [rad])Speak C20Turn(+ [rad])Move forward19Turn(+ [rad])Move forward18Speak ASpeed up17

1Move forwardMove forward1・・・

・・・

・・・

numberAgent BAgent AStep

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

Turn(+ [rad])Turn(+ [rad])27

4Speed upSpeak C40Speed upSpeak C39Speak CSpeak D38Speak CSpeak D37Speak CSpeak D36Speak CSpeak D35Speak CSpeak B34Speak CSpeak B33Speak CSpeak B32Speak CTurn(+ [rad])31

3Speak CTurn(+ [rad])30Speak CTurn(- [rad])29Speak CTurn(- [rad])28

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

6Slow downMove forward185

Speak CTurn(- [rad])50Speak CTurn(- [rad])49

5Turn(- [rad])Turn(+ [rad])48Turn(- [rad])Turn(+ [rad])47Turn(+ [rad])Turn(+ [rad])46Turn(+ [rad])Turn(+ [rad])45

Slow downTurn(- [rad])44Slow downTurn(- [rad])43

Turn(- [rad])Speak C42Turn(- [rad])Speak C41

・・・

・・・・・・

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

0 20 40 60 80 100 120 140 160 180

Number of Steps Robot A Robot B

Speak D

Speak C

Speak B

Speek A

Turn(-π/4)

Turn(+π/4)

Speed up

Slow down

Move Forward

Page 13: 協調機械システム論 協調のための適応・学習€¦ · 強化学習の概念 障害物だ! どうやって回避すれば いいんだろう? とりあえず右に

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

シミュレーションによる通信学習結果

プロトコル定義、一方的学習-通信がある場合のほうが到達率が高い-距離が近距離の方が、通信を積極的に使う(有効)■行動としての通信による意図の伝達(各自行動)の有効性

プロトコル未定義、双方学習-受信した発話ごとの行動選択率が同じ(プロトコル獲得)■プロトコル獲得の可能性

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

自由からの逃走(エーリッヒ・フロム)

• ファシズム批判、デモクラシー批判

• 自由の獲得と同様な熱心さで自由を捨てる

• 自由の2面性

• 古い権威や束縛から解放される「自由」の拡大は、個人に独立と自律をもたらしたが、同時に「孤独と無力」の感情をもたらす

• 「孤独と無力」がもたらす重荷

• 「匿名の権威」の支配:世論・常識

• 他人の期待に一致するように注意を払う。期待に外れることを非常に恐れる

• 「自己の喪失」への逃避

Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010

レポート課題

• 拡自行動とは何かについて説明するとともに,協調におけるコミュニケーションの意義について論ぜよ.–締め切り:2010年11月29日(月)23:59–提出先:[email protected]– Subjectには,「協調機械レポート1:学生証番号(半角)氏名(全角) 」と記すこと

–レポートのファイル名は,「学生証番号(半角)氏名(全角)」とすること.