Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
協調機械システム論
協調機械システム論(10.11.18,本郷)
東京大学大学院工学系研究科精密機械工学専攻淺間 一
http://www.robot.t.u-tokyo.ac.jp/asamalab/
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
協調のための適応・学習
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
創発システムのモデル
Local Interaction
Emergent Macro Structure (Macro Function)
Self-organization ofdecentralized autonomous systems
Boundary conditionConstraints
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
自律型移動ロボットの適応技術
• タスクに対する適応• 環境に対する適応• 他のロボットに対する適応• 自己の状態に対する適応
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
LOCISS(Locally Communicable Infrared Sensory System)の原
理
ロボット 1
ロボット 2
ロボット2 の ID
ロボット1の ID
障害物
ロボット 1
ロボット1 の ID
反射
ロボット 1
ロボット 2
ロボット2 の移動情報
ロボット1の移動情報
ロボットの識別
障害物の検出
移動情報の取得
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
LOCISS外観
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
検出領域
12008004000-400-800-1200 [mm]
No.0No.1
No.2
No.3No.4
No.5
No.6
No.7
8 sensors equiped on a circle boardposition of a transmitter
[mm]
-1200
-800
-400
0
400
800
1200
通信可能領域
8 sensors equiped on a circle boardposition of a detected obstacle
12008004000-400-800-1200 [mm]
No.0
No.7
No.6
No.5
No.4
No.3
No.2
No.1
1200 [mm]
0
-800
-400
400
800
障害物検出可能領域
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
ルールマトリクス(対ロボット)
信号を受信したセンサのコード
受信した方向コード
0 1 2 3 4 5 6 7
0
1
2
3
4
5
6
7
T( r)
ST( l) S S F F F S
I I I
I I I I I I
I I I I I I
II I I I I I
I I I I I I
I I I I I I
I I I T( l)
I
I
I I
F
I
S
I
S
SI
I
I
I
I
I
F
T( r)
T( l)
S
F
I
: 右へ軌道変更
: 左へ軌道変更
: 停止
: 追従
: 無視
4
5
670
1
23
ロボッ ト 1
の移動方向
ロボッ ト 1
ロボッ ト 2
の移動方向
012
3
45
6
7
ロボッ ト 2
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
衝突回避実験
case1 case2 case3
case4 case5
Stop (Rule B)
Obstacle
Rule A
↓
Rule E
Rule B
↓
Rule C
Rule C
Rule D
↓
Rule C
Rule F
↓
Rule G
Rule E
Rule A
Rule B
Rule C
Rule CRule C
Rule C
Stop
(Rule
D)
Rule C
Rule C
Rule
D
Rule GRule F
Robot
Robot
Robot
Robot
Robot
Robot
Robot
RobotRobot
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
強化学習の概念
障害物だ!
どう やって回避すれば
いいんだろう ? とりあえず右に
行ってみよう
と りあえずまっすぐ
行ってみよう
回避できた!
次からはもっと頻繁に
この行動とろう .
ぶつかってしまった!
次からはあまり この行動
をとるのはやめよう .
ロボットが回避行動を繰り返し実行することにより適応的な回避行動を自律的に学習
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
学習の流れ
学習
スコア
ベース回避行動の選択
報酬に基づく 学習
回避行動の評価更新
学習の実現
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
行動選択のスコア・ 回避行動を回避方向および回避速度で表す.
・ 回避方向 および回避速度 に対してスコア を導入する.
・ スコアは回避行動の選択確率を決定する指標である.
sijji
0 ≦ ≦ 7 : ( 8 方向)i
0 ≦ ≦ 3 : ( 0 , 1 0 , 2 0 , 3 0 [cm/s])j回避速度 j
回避方向 i
取得情報 A
取得情報 B
状態表
.. .
...
回避方向 : i
回避速度 : j
. . .
...
スコ ア表
スコ ア : s ij
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
回避行動の選択
回避行動の選択確率
ロボッ ト は選択確率にしたがって
ランダムに回避行動を選択する.
sij
smnΣn
rij = Σm
→ 正規化
: 回避速度ji : 回避方向
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
回避行動の報酬に基づく学習
: 負の強化
: 正の強化E(t) > 0E(t) < 0
報酬
Snew = Sold + E(t)
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
回避行動の評価
dg(t)
ロボット
ゴール
ロボッ ト
障害物( 壁)
: 障害物( 壁) と
ロボッ ト の距離
: ゴールとロボッ ト の距離
d (t)w
: ロボッ ト と
ロボッ ト の距離
dr(t)
評価値
d : 障害物とロボッ ト の距離(t)w
dg : ゴールとロボッ ト の距離 (t)dr : ロボッ ト とロボッ ト の距離(t)
: 重み係数γα, β,
= dw - dw (t-∆t)(t)= dr - rd (t-∆t)(t) = - dg(t-∆t)dg(t)(t)
∆dw∆dr
∆dg
(t)(t)(t)
=E(t) α∆dw + β∆dr - γ∆dg(t) (t) (t)
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
状態認識に用いるパラメータ
ロボッ ト ID
ロボッ ト
回避対象物
G
移動速度移動方向
ゴールの方向
ゴール
検出した
物体の
方向
移動速度
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
学習の収束性
100080060040020000.0
0.2
0.4
0.6
0.8
Learning steps
Rat
io
[times]
30
[cm/s]
ロボッ ト 1 ロボッ ト 2
30
[cm/s]
G G
ロボッ ト 1
のゴール
ロボッ ト 2
のゴール
認識状態
10 [cm /s]
10 [cm /s]
10 [cm /s]
Go straight at 10 [cm/s]Turn left 45 [deg] at 10 [cm/s]Turn right 45 [deg] at 10 [cm/s]Go straight at 20 [cm/s]Turn left 45 [deg] at 20 [cm/s]Turn right 45 [deg] at 20 [cm/s]Go straight at 30 [cm/s]Turn left 45 [deg] at 30 [cm/s]Turn right 45 [deg] at 30 [cm/s]
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
シミュレーション実験
ロボッ ト 1のスタート
ロボッ ト 1の軌跡
ロボッ ト 1 の移動方向
ロボッ ト 2 の移動方向
ロボッ ト 2のゴール
ロボッ ト 2の軌跡
ロボッ ト 1のゴール
ロボッ ト 3のゴール
ロボッ ト 3の軌跡
ロボッ ト 2 の移動方向
ロボッ ト 2のスタート
ロボッ ト 3のスタート
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
行動選択の階層化
: ゴールへ向かう ための行動選択Cg: 1 つの物体を回避するための行動選択 ( i = 0 ~ 7 )
Coi
: センサグループごとの複数物体回避のため の行動選択( j = A, B, C)
Csj
: 複数物体回避のための行動選択Cf
CsA
CsB
CsC
移動速度ゴールの方向
回避行動
回避行動
物体の方向
移動方向移動速度
物体がロボッ ト なら
Co5
Co3
Co0
Co6
Co1
Co4
Co2
Co7
Cf
回避行動
回避行動
Cg
ロボッ ト の
移動方向
B
C
B
BA
A
C
A C
: ト ランスミ ッ タ
/レシーバ
: センサグループ AA: センサグループ BB: センサグループ CC
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
一つの物体を回避するための行動選択
物体の識別
ロボッ ト ID
ロボッ ト
障害物
物体なし
Cg からの回避行動
Coio
回避行動Coir
回避行動
- ロボッ ト の移動方向
- ロボッ ト の移動速度
- Cg からの回避行動
- Cg からの回避行動
: 1 つの障害物を回避するための行動選択Coio
: 1 台のロボッ ト を回避するための行動選択Coir
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
各階層の学習ロボット
のスタート
ロボッ ト
のゴール
ロボッ ト
の移動方向
ロボッ ト
のスタート
ロボッ ト
のゴール
ロボッ ト
の移動方向
障害物
ロボッ ト 1
のスタート
ロボッ ト 1
のゴール
ロボッ ト 1
の移動方向
ロボッ ト 2
のスタートロボッ ト 2
のゴール
ロボッ ト 2
の移動方向
ロボッ ト 1
のゴール
ロボッ ト 2
の移動方向
障害物ロボッ ト 2
のゴール
ロボッ ト 2
のスタート
ロボッ ト 1
の移動方向
ロボッ ト 1
のスタート
(a)ゴールへ向かうための行動選択
(b) 一つの障害物を回避するための行動選択
(c) 一台のロボットを回避するための行動選択
(d) センサグループごとの複数物体回避のための行動選択
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
強化学習を用いた衝突回避行動の獲得
ロボット1
の移動方向
ロボッ ト 2 のスタート &
ロボッ ト 1 のゴール ロボット2
の移動方向
ロボッ ト 4 のスタート &
ロボッ ト 3 のゴールロボット4
の移動方向
ロボッ ト 1 のスタート &
ロボッ ト 2 のゴール
ロボット3
の移動方向
ロボッ ト 3 のスタート &
ロボッ ト 4 のゴール
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
コミュニケーションとは
有線/無線による電気信号の受渡(ロボティクス)通信を使わない協調? センシング
個体間のインタラクション(発達心理学)コミュニケーションが前提
コミュニケーションが成り立つ条件
• 共通のプロトコルが存在すること(先天的・後天的)• 意図の伝達(感情,知識,ジェスチャ,言語)
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
発達心理学
おとなははじめから親なのではなく、赤ちゃんと触れ合うことによって親になっていくという部分もある。
泣くこと、ことばにならぬ声を発すること、微笑することなどは、乳児の側から発せられるシグナルであり、それを受けて少なくとも乳児のまわりにいるおとなは赤ちゃんが何を要求しているのか読み取り、それに応えようとして行動する。自分に関心を持ってもらい、自分に話しかけてもらう、そしてできるだけ長く、多様なパターンが話されるように仕向けているのではないか。
発達心理学の招待
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
群システムにおけるコミュニケーション
共通のプロトコルが存在すること
(先天的・後天的)
単なる信号の授受ではない
意図
意味
●意図の伝達(感情,知識,ジェスチャ,言語)
行動と知覚によって可能
コミュニケーションが成り立つ条件
c.f. 情報理論,ノンバーバルコミュニケーション,言語学
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
コミュニケーションの意義個体と群の本質的相違
制御という観点から考える
従来のシステムの考え方入力(知覚の手段:センサ) 環境の状態
出力(動作の手段:アクチュエータ)自己の身体
自己制約
本研究での考え方(コミュニケーションを陽に扱う)入力:環境の状態+他のロボットの意図
出力:自己および他の身体
自由度の拡大・オープン化
身体を動かすのみならず他者への発話(送信)も行動と考える
拡自行動
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
コミュニケーションの創発
• コミュニケーションも含めた行動学習
• 意図の伝達メカニズムはいかに獲得され得るか
• 意図伝達の枠組みを用意し,学習によりそれをどのように使うようになるかを見る
(1)プロトコルを与え,使い方を学習
(2)プロトコルの獲得
課題:ロボット間協調 情報の授受(意図,意志の伝達を含む)機能必要どのような状況でどのように行動(通信,制御)し,
競合を回避すべきかの事前プログラムは不可能
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
強化学習
・環境から報酬が選択行動に与えられるため,自身や環境についての先見的知識はほぼ不必要
・試行錯誤を通じて環境に適応
複数ロボット環境:・状態遷移確率と報酬が既知でない・同じ物理的動作が異なった状態変化を引き起こし,学習が進行しない
イベント発生毎に意志決定(離散時間系)
セミマルコフ決定過程(SMDP)環境に対応したQ学習
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
確率過程(Stochastic process)• 古典力学における微分方程式現在が決まると未来が決定
• マルコフ過程確率事象の系列で,各事象の発生が直前の結果のみに依存することを仮定する確率過程
• マルコフ決定過程(Markov Decision Process)離散時間系,1ステップダイナミクス(状態遷移確率は現在の状態(知覚行動対)のみに依存),定常性(状態遷移確率が時間的に定常)
• セミマルコフ決定過程(Semi-Markov Decision Process)意思決定の時間間隔任意(状態変化が生じるまで一定),離散遷移での報酬を積分で与える
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
SMDP環境に対応したQ学習
(1) 環境の状態 を観測
(2) 行動選択方法に従って行動 を実行
(3)イベント(状態遷移)が発生するまで環境から報酬r
を受け取り続け,割引報酬合計 を計算
(4)イベント(状態遷移)発生後の状態 を観測
(5)以下の更新式によりQ値を更新:
αは学習率,γは割引率( )
(6)時間ステップ t を t+N へ進め,(1)へ戻る
tS
ta
sumR
NtS +
11
22
1 −+−
++ +⋅⋅⋅+++= NtN
tttsum rrrrR γγγ
[ ])',(max),()1(),('
asQRasQasQ Nta
Nsumtttt +++−← γαα
10 <≤ γ
学習アルゴリズム
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
設定(ケース1)
概要・300[cm]×300[cm]内に移動ロボット2台・全方向移動ロボット,直径30[cm]の円筒形・全方位視覚センサ搭載・学習するロボット(A)に目標地を与える
・学習しないロボット(B)は自律移動
・ロボットBはAからの発話に必ず従う
・各初期位置とAの目標地はランダムに配置
終了条件・ロボット同士が衝突 ・ロボットAが壁に衝突・ロボットAが目標地に到達・3000ステップに到達
シミュレーション環境(初期位置ランダム)
共通プロトコルを与えて学習結果を観察
20000試行学習
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
状態空間(ケース1)
センサ情報(画像ベースを想定)・相手の大きさ (3):距離から換算・相手のいる方向(6)・ゴールの方向 (6)・障害物の方向 (4) :壁
定常通信による情報・相手の速度 (3):高・中・低・相手から見える自己の方向(4)
その他・自己速度 (3):高・中・低
Robot on the image plane
状態数:19440
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
行動選択法と報酬Boltzmann選択:
∑∈
=
actionspossiblebTxQ
TaxQxap)/)b,(exp(
)/),(exp()|(
状態 x のとき行動 aを選択する確率 p(a|x):
評価関数 r=E(t):
目標地
)(td w障害物(壁)
ロボット
ロボット )(tdr
)(tdg
)()()}/{exp()()/exp()( tdtdKrtdKrtE grj
rrwww jj∆−∆−+∆−= ∑ μλκ
T: 温度定数大:ランダム,小:決定的
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
行動(ケース1)
1. 直進移動2. +45度軌道変更3. - 45度軌道変更4. 減速(‐0.2[cm/sec])5. 加速(+0.2[cm/sec])6. 発話・+45度方向に軌道変更し,減速・+45度方向に軌道変更し,加速・- 45度方向に軌道変更し,減速・- 45度方向に軌道変更し,加速
ロボット間の共通プロトコルとして発話
行動(9)
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
結果(ケース1)
ロボット間距離による行動選択率
・60cm未満
発話 57.98%
・60cm以上120cm未満
発話 31.04%
・120cm以上
発話 33.83%
(-:発話有り,-:発話なし)
ゴール到達率:100試行中の成功回数
ロボット間の距離が
短い際に積極的に発話
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
結果(ケース1)
発話有り 発話なし
発話有りは相手に指示することで目標地に到達
共通プロトコル上での意図伝達法を学習により獲得
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
シミュレーション実験
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
選択行動(ケース1)
Slow down9
2Move forward10
Slow down8
Slow down7
Speak (turn(+ [rad]),Slow down)6
Slow down5
Slow down4
Speed up3
Speed up2
Speed up1
1Move Forward0
4π
numberActionStep
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
Move forward52
Turn(- [rad])56
4Turn(+ [rad])55
Speed up54
Speak(turn(- [rad]),Slow down)53
Speed up51
Speed up50
3Speak(turn(- [rad]),Speed up)49
Speed up48
Speed up47
・・・
・・・
・・・
・・・
4π
4π
4π
4π
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
6Move forward154
Speak(turn(- [rad],Speed up)131
Speak(turn(+ [rad],Speed up)130
Speak(turn(+ [rad],Speed up)129
Speak(turn(- [rad],Speed up)128
Speak(turn(- [rad],Speed up)127
5Speak(turn(+ [rad],Speed up)126
Speak(turn(- [rad],Speed up)125
Speak(turn(+ [rad]),Speed up)124
Speak(turn(+ [rad]),Speed up)123
Speak(turn(- [rad]),Slow down)122
・・・
・・・
・・・
・・・
4π
4π
4π
4π
4π
4π
4π
4π
4π
4π
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
例2(ケース1)
発話有り 発話なし
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
設定(ケース2)
シミュレーション環境(固定)
概要・300[cm]×300[cm]内に移動ロボット2台・全方向移動ロボット,直径30[cm]の円筒形・全方位視覚センサ搭載・各ロボットそれぞれに目標地(固定)を設定(交差するように初期動作設定)
終了条件・ロボット同士が衝突 ・ロボットが壁に衝突・各ロボットが目標地に到達・3000ステップに到達
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
行動と状態空間(ケース2)
1. 直進移動2. +45度軌道変更3. - 45度軌道変更4. 減速(- 0.2[cm/sec])5. 加速(+0.2[cm/sec])6. 発話
-.A-.B-.C-.D
状態数:97200
相手からの発話(5)A,B,C,D,無
×
内容変更
・意図伝達の手段を与える(特定の為,記号化)
・相手からの発話を状態として持つ
行動(9) 状態空間
ケース1と同様
共通プロトコルを獲得可能か観察
20000試行学習
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
結果(ケース2)
ゴール到達率:100試行ごとの成功回数
移動軌跡
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
例(ケース2)
Turn(- [rad])Turn(- [rad])24Turn(- [rad])Turn(- [rad])25Turn(+ [rad])Turn(+ [rad])26
Turn(+ [rad])Speak C23Turn(+ [rad])Speak C22Turn(+ [rad])Speak C21
2Turn(+ [rad])Speak C20Turn(+ [rad])Move forward19Turn(+ [rad])Move forward18Speak ASpeed up17
1Move forwardMove forward1・・・
・・・
・・・
4π
4π
4π
4π
4π
4π
4π
4π
4π
4π
4π
4π
numberAgent BAgent AStep
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
Turn(+ [rad])Turn(+ [rad])27
4Speed upSpeak C40Speed upSpeak C39Speak CSpeak D38Speak CSpeak D37Speak CSpeak D36Speak CSpeak D35Speak CSpeak B34Speak CSpeak B33Speak CSpeak B32Speak CTurn(+ [rad])31
3Speak CTurn(+ [rad])30Speak CTurn(- [rad])29Speak CTurn(- [rad])28
4π
4π
4π
4π
4π
4π
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
6Slow downMove forward185
Speak CTurn(- [rad])50Speak CTurn(- [rad])49
5Turn(- [rad])Turn(+ [rad])48Turn(- [rad])Turn(+ [rad])47Turn(+ [rad])Turn(+ [rad])46Turn(+ [rad])Turn(+ [rad])45
Slow downTurn(- [rad])44Slow downTurn(- [rad])43
Turn(- [rad])Speak C42Turn(- [rad])Speak C41
・・・
4π
4π
4π
4π
4π
4π
4π
4π
4π
4π
4π
4π
4π
4π
・・・・・・
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
0 20 40 60 80 100 120 140 160 180
Number of Steps Robot A Robot B
Speak D
Speak C
Speak B
Speek A
Turn(-π/4)
Turn(+π/4)
Speed up
Slow down
Move Forward
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
シミュレーションによる通信学習結果
プロトコル定義、一方的学習-通信がある場合のほうが到達率が高い-距離が近距離の方が、通信を積極的に使う(有効)■行動としての通信による意図の伝達(各自行動)の有効性
プロトコル未定義、双方学習-受信した発話ごとの行動選択率が同じ(プロトコル獲得)■プロトコル獲得の可能性
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
自由からの逃走(エーリッヒ・フロム)
• ファシズム批判、デモクラシー批判
• 自由の獲得と同様な熱心さで自由を捨てる
• 自由の2面性
• 古い権威や束縛から解放される「自由」の拡大は、個人に独立と自律をもたらしたが、同時に「孤独と無力」の感情をもたらす
• 「孤独と無力」がもたらす重荷
• 「匿名の権威」の支配:世論・常識
• 他人の期待に一致するように注意を払う。期待に外れることを非常に恐れる
• 「自己の喪失」への逃避
Copyright (c) Hajime Asama, Univ. of Tokyo. All rights reserved 2010
レポート課題
• 拡自行動とは何かについて説明するとともに,協調におけるコミュニケーションの意義について論ぜよ.–締め切り:2010年11月29日(月)23:59–提出先:[email protected]– Subjectには,「協調機械レポート1:学生証番号(半角)氏名(全角) 」と記すこと
–レポートのファイル名は,「学生証番号(半角)氏名(全角)」とすること.