Upload
others
View
8
Download
0
Embed Size (px)
Citation preview
1
マルチエージェント強化学習による
自律移動ロボットの行動獲得
東北学院大学工学部
機械知能工学科 11412220
林 幸星
2
もくじ
1. 序論・・・P3
2. 強化学習・・・P4
2-1. 強化学習とは 2-2. Q 学習とその式 2-3. 行動決定方法・・・P5
3. 実験方法・・・P7
3-1. 実験装置 3-2. 実験設定 3-3. 実験内容・・・P8
3-4. 情報共有方法・・・P9
4. 情報共有間隔の選定(事前実験)・・・P10
4-1. 事前実験内容
4-2. 事前実験結果・・・P11
5. 実験結果・・・P12
5-1. 結果
5-2. 考察
6. 今後の課題・・・P13
3
1. 序論
近年、身近な場所で様々なロボットが活躍しているが、それらのロボットは、
人間が、そのロボットを使用する環境を想定し、その環境で正常に動作するよ
うに設計を行っている。
しかし、宇宙や深海といったような未知環境では、人間側がその環境を想定
すること自体が困難であるため、適切なロボットを設計することも困難とされ
ている。 そこで今日、ロボット自身が環境内で試行錯誤することにより、最適な行動
を自動で学習する手法が注目されている。 本研究では、環境内に複数のロボット(以下、エージェントと呼ぶ)が存在する
場合を想定し、それらが互いに情報を共有しながら学習を行うことで、単一の
ロボットでは学習が困難な問題にも対応できることを示し、問題解決能力の更
なる向上を図る。
4
2. 強化学習
2-1. 強化学習とは
本研究ではロボットの学習に強化学習を用いる。強化学習とは機械学習の一
つあり、エージェントに適用することで、試行錯誤による制御規則の獲得が可
能となる。 強化学習ではエージェントが自らの状態を観測し、観測した状態を元に行動
を選択する。選択した行動により変化した状態を観測し、適切な行動を取れて
いれば報酬を得る。そして、得られた報酬に基づいて状態と行動の関係を修正
していき、これを繰り返すことで目的を達成する行動を学習するという手法で
ある。
2-2. Q 学習とその式
本研究では、強化学習の一手法である Q 学習と呼ばれる手法を適用した。Q
学習では、Q 値と呼ばれる状態 における行動 の価値を報酬 によって更新して
いく。その結果、エージェントは各状態で最も価値の高い(最も報酬を得るこ
とのできる)行動をとるようになる。
図 1 Q 学習の一例
5
例えば、図 1 のような環境があった場合、エージェントがいる状態を 、行動
を 、良い・悪いといったような報酬を とすると、エージェントは、
1. 自らの状態の観測 2. 観測した状態に基づき行動 3. 新しい状態を観測し報酬を獲得
4. 報酬に基づき状態と行動の関係(Q 値)を修正
この 4 つの手順を繰り返していくうちに、より多くの報酬が得られるように状
態と行動の関係、すなわち Q 値が修正されていく。目標となる状態に到達した
際に報酬を得られるように設定しておけば、その目標を達成するための行動を
学習していく。 また、これを実現するための式が以下の通りになっている。
, ← , max́
, ́ ,
この式で、時刻tのときの状態を 、行動を 、時刻t 1において最も Q 値が
高くなる行動を ́として、学習率を0 1、割引率を0 γ 1とする。 本実験では、複数のエージェントが同時に学習を行い、一定時間ごとに互い
の Q 値の情報を共有するものとした。
2-3. 行動決定方法
強化学習では、エージェントが試行錯誤しながら、徐々に学習(Q 値の修正)
が行われる。初期段階では、エージェントはどこにゴール(目的)があるのか
ということもわからない状態であるため、はじめは色々な行動をとってゴール
にたどり着かなければならない。そして、Q値の修正が行われると、その情報を
もとに行動することが求められる。
このような行動を実現するための一般式は以下のようになっている。
π ,, /
∑ , ́ /́
上の式でπ , は、状態 のとき行動 をする確率である。この式より、 が大
きければ大きいほど得られる確率の差が小さくなり、ランダムな行動を選択す
6
るようになる。逆に が小さければ小さいほど、得られる確率の差が大きくなり、
Q 値が高い行動を選択するようになる。
7
3. 実験方法
3-1. 実験装置
Microsoft Visual Studio 2010 Express (Microsoft 社製)を使用する。 プログラム作成に必要な個々のソフトウェアをひとまとめにした統合開発環
境と呼ばれるソフトウェアである。
3-2. 実験設定
実験は、二次元グリッド上のシミュレーション環境で行った。環境内には複
数のエージェントが存在し、それらは、別々のセンサを有しているとする。こ
の様な問題設定のもと、2 つのエージェントを強化学習で学習させ、図 2 のよう
な単一のエージェントでは感知することができない障害物を、情報共有を行う
ことで、回避し目的地に到達することができるかということを検証した(同図の
○、△で示したエージェントは点線で示した障害物が検出できない)。
図 2 実験のねらい
8
3-3. 実験内容
図 3 実験環境の簡略図
実験は図 3 のような環境で行った。実験条件は、 行動回数は 5000 回とし、3000 回までランダム行動をするように設定 100 回を 1 サイクルとして、報酬をリセットしスタート地点に戻る
情報共有の間隔は 5 回毎に設定(事前実験より設定) 報酬設定は、ゴール地点に着いたら+1、障害物のマスに入ったら-10 とする 以上の実験を 10 回行い、それらを平均してグラフを作成する とした。
また、このような環境で実験を行った場合、障害物にぶつからず、最短ルー
トでゴールに到達すれば、エージェントがとりうる最大報酬の値は、
行動可能回数(100)-ゴールまでの移動(12)=最大報酬(88)
となり、最大報酬が 88 に収束すれば実験は成功といえる。
9
3-4. 情報共有方法
具体的にどのような情報を共有し障害物を回避するのかというと、図 4 のよ
うに、障害物のマスに入った回数をカウントし、その Q 値をそれぞれ相手の Q値に上書きすることで実現した。
つまり、間違った行動を共有しあうことで障害物のマスに入らなくなるとい
うものである。
図 4 情報共有の方法
10
4. 情報共有間隔の選定(事前実験)
4-1. 事前実験内容
情報共有を行う際、1 マス 1 マス行動する毎に情報共有を行うのではなく、あ
る程度行動してから共有を行う。しかし、適切なタイミングというものが不透
明であったため、事前実験として調査した。 事前実験での条件は、 ○ 行動回数は 5000 回とし、300 回までランダム行動をするように設定
○ 100 回を 1 サイクルとして、報酬をリセットしスタート地点に戻る ○ 情報共有の間隔は 5、10、20 回として比較する ○ 実験環境を 3 つ用意し、総合的に判断する ○ 報酬設定は、ゴール地点に着いたら+1、障害物のマスに入ったら-1 とする
○ 事前実験では Q 値を更新した回数をカウントし、その回数が最も多い値を
最も信頼できる Q 値として共有する ○ 事前実験では各エージェントはすべての障害物を感知可能とする ○ 以上の実験を 10 回行い、それらを平均してグラフを作成する
とした。 また、このような事前実験の環境で実験を行った場合、障害物にぶつからず、
最短ルートでゴールに到達すれば、エージェントがとりうる最大報酬の値は、
行動可能回数(100)-ゴールまでの移動(6)=最大報酬(94)
となり、最大報酬が 94 に収束すれば事前実験は成功といえる。
11
4-2. 事前実験結果
図 5 事前実験の結果
以上の条件で実験を行ったところ、図 5 より、道順が少ない時のグラフでは、
間隔が 5 回の場合が最も早く学習が完了し、最大報酬に収束しているという結
果が得られた。しかし、ゴールまでの道順が多くなるにつれ間隔による違いが
無くなる。したがって、5 回が一番妥当であると考え、本実験では、情報共有の
間隔は 5 回に設定することにした。
12
5. 実験結果
5-1. 結果
図 6 実験結果
実験結果は図 4 のようになり、3000 回までランダム行動し、学習が完了して、
最大報酬が 88 に収束しているため、それぞれのエージェントは互いが見えない
障害物も回避しながら、最短ルートでゴールに到達できたといえる。
5-2. 考察
実験結果より二つのエージェントは、ランダム行動中の獲得報酬に違いがで
た。具体的には、A のエージェント(●のエージェント)の方が B のエージェ
ント(▲のエージェント)と比べ、獲得報酬が小さいという結果が得られた。 これは、ランダム行動中は必然的に遠くのマスより近くのマスを通る確率の
方が高く、A のエージェントはスタート地点のすぐ横にある障害物を感知する
ことができるため、B のエージェントと比べ負の報酬を獲得しやすいためだと
考えられる。
13
6. 今後の課題
本実験では Q 値の共有の間隔は 5 回に設定しているが、障害物の配置や割引
率によって適切な間隔が様々であった。 また、ゴールまでのルートが多くなってしまうと、それぞれのエージェント
が別々のルートを学習してしまい、お互いの良い部分を共有しあい、結果とし
て各エージェントの学習が阻害されてしまう傾向もあるということがわかった。
したがって、
Q 値の共有間隔の最適化に関する詳しいメカニズムの調査 ルートが複数ある場合の対処方法
以上の二つの解決が今後の課題となるのではないかと考えられる。