卒業研究発表スライド平林大輝

強化学習を用いた移動方策の獲得

生命情報工学科大橋研究室

14238209 　平林大輝

研究背景

ロボットを動かすには・・・

用意されたプログラム

コントローラーによる操作

ロボットが自ら学習する強化学習でアプローチ

2

・新しい機能・新しいアプリケーション

対応させたい

手間がかかり煩雑

プログラムの書き換えなど…

3

強化学習

ロボット

環境

行動状態報酬

環境の状態を見て行動を選択　　　

行動すると環境から報酬が得られる

正の報酬負の報酬

報酬を利用し , 自律的に方策を最適化

⇒ 　ロボットが環境に対応

Q-Learning状態 s で行動 a を選択したときの評価値 Q(s,a) を学習する手法⇒ ある状態におけるある行動の価値を決める

4

前進はダメそう

Q(, 前進 ) を小さい値に更新

後進は良さそう

Q(, 後進 ) を大きい値に更新

𝑠𝑡 𝑎1𝑠𝑡+1 𝑠𝑡 𝑎2

𝑠 ′𝑡+1

前進衝突現在後進衝突しなかった

現在

Q(, 前進 )

Q(, 後進 )

Q-Learning 更新の流れ

𝑠𝑡Q(, ) γ max𝑄 (𝑠𝑡+1 ,𝑎)

𝑠𝑡+1

max𝑄 (𝑠𝑡+1 ,𝑎)

r tα の割合で更新

遷移先の状態の行動で最大の Q 値を探す

別の行動

状態遷移

α ：学習率 (0~1)γ ：割引率 (0~1)

5

行動選択法

Q-Learning ⇒ Q 値の更新のみ

“ 戦略” の設定が必要

状態 s においてどの行動 a を取るべきか

ε-greedy 法

ε-greedy 法

行動選択時

ランダム

確率 1-ε で選択

確率 ε で選択

ε=0.1 に設定

90% 10%

Q 値 MAX

6

7

学習経過による行動最適化のイメージ

学習初期⇒ ランダムに行動

行動が最適化⇒ 無駄な行動を行わない

研究概要

強化学習を用いて , ロボットが未知の環境でも最良の移動方策を獲得できるようにする目的

8

ロボット⇒実機を簡略化未知の環境⇒簡単な迷路をモデ

ル

経路探索による検証

問題設定

差動二輪ロボット G

S

壁のみある 5×4 マップをモデル

壁

前進・後進　　　　　　右回転・左回転　

Q-Learning で用いる報酬値 -0.1 -2.0

-0.3 10.0壁への衝突ゴール到達

行動と報酬値のみ

壁情報一切なし

9

ROS （ Robot Operating System ）

qlearner myroomgridworld

－ロボットのためのミドルウェア rl-texplore-ros-pkg

rl_agent

rl_env

qlearner

myroom

gridworld・・・

ロボットの振舞い

マップの構成

10

オープンソース　⇒

RLAgent と RLEnvironment,2 つのプログラムを同時に実行⇒ 相互作用により学習

0 0 0 0 0 0 0 0 - 0.6 0 0 0 0 0 0 1.890 0 0 0 0 0 0 - 0.03 0 0 0 0 0 0 0 00 - 0.09 0 0 0 0 0 0 0 0 0 0 0 0 0 0

- 0.15 0 - 0.09 - 0.6 0 0 - 0.09 - 1.02 0 0 0 0 0 9.176 0 0

- 0.26 - 0.27 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0- 0.3 - 0.26 0 0 - 0.09 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 - 0.09 0 - 0.09 - 0.03 - 0.09 0 0 0 0 0 - 0.09 0 0 - 0.03 0 0 - 0.090 0 0 0 0 0 0 0 0 0 0 - 0.03 0 0 0 - 0.03 0 0 0 0

- 0.03 0 0 0 - 0.03 0 - 0.03 0 0 0 0 0 0 0 0 0 0 0 0 00 - 0.03 0 0 0 - 1.02 0 0 0 0 0 0 - 0.09 - 0.03 - 0.09 0 0 0 0 - 0.030 0 - 0.03 0 0 - 0.09 0 0 - 0.03 0 - 1.02 0 0 0 0 0 0 0 - 0.03 00 0 0 - 0.03 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 - 1.02 - 0.09 - 0.03 - 0.09 0 - 0.09 0 0 0 - 0.09 0 0 0 0 - 1.02 00 0 0 - 0.6 0 - 0.6 - 0.09 0 0 0 0 - 0.03 0 - 0.6 - 0.09 0 0 0 0 00 0 0 - 0.09 0 - 0.09 - 0.6 - 0.09 0 0 0 - 0.09 0 0 - 0.6 - 0.09 0 0 - 0.6 00 0 0 0 0 0 0 0 0 0 0 - 0.6 0 0 0 0 - 0.09 - 1.02 - 0.09 0

学習初期における各座標アクション毎の Q 値

低い高いQ 値

11

結果　～学習初期～

スタート位置・座標(0,0)・上向き

上向き右向き左向き下向き前進

後進右回転

左回転

座標内部

前進後進右回転

左回転

・マップ内の Q 値がほとんど 0 ⇒ 全体を通過できていない・ゴール直前の行動のみ Q 値が高い

ゴール位置・座標 (4,3)・到達時の向きは問わない

0

0

1

1

2

2

3

3

4

（学習回数： 55回）

学習終盤における各座標アクション毎の Q 値

6.922 9.012 9.406 8.622 4.321 9.206 9.602 8.814 7.227 9.402 9.8 9.008 7.504 9.6 10 9.2049.012 8.634 8.622 7.312 3.606 7.943 8.814 9.212 9.4 8.625 9.008 9.406 9.6 9.21 9.204 9.6027.312 8.622 8.634 9.012 9.212 8.814 8.824 9.206 9.406 9.008 9.016 9.402 9.602 9.204 9.21 9.68.622 9.406 9.012 6.922 8.814 9.602 9.206 7.114 9.008 9.8 9.402 7.308 9.204 10 9.6 7.504

8.822 8.053 8.438 8.434 9.014 7.867 6.538 8.624 9.208 7.442 3.111 8.812 9.404 8.473 2.821 9.007 10 9.204 7.275 9.68.053 8.447 8.434 6.353 8.238 8.636 8.624 8.253 5.678 6.344 - 0.18 - 1.36 8.393 9.001 2.637 3.195 9.2 9.602 8.639 8.4636.353 8.434 8.444 8.053 8.253 8.624 8.636 8.238 - 0.6 - 0.25 8.796 7.874 - 0.6 2.576 8.44 6.756 7.881 8.812 9.577 9.28.434 8.438 8.046 8.822 8.624 6.538 8.238 9.014 8.362 - 1.05 8.236 9.208 9.006 2.737 7.708 9.404 9.6 6.302 9.204 10

8.634 8.251 8.637 8.247 8.824 7.218 8.826 8.436 9.016 3.888 9.016 8.626 9.21 7.711 9.208 8.428 9.8 9.008 7.308 9.4028.251 8.263 8.247 6.551 7.085 6.628 8.436 8.451 6.896 5.395 8.626 8.637 7.074 8.813 8.818 8.826 9.008 9.406 9.402 9.0166.551 8.247 7.764 6.448 8.451 8.436 5.873 3.883 8.637 8.626 6.917 8.607 8.826 8.818 - 0.11 8.816 9.016 9.402 9.398 9.0088.247 8.637 0.391 8.634 8.436 8.826 7.32 8.824 8.213 9.016 7.842 9.016 8.818 9.208 2.339 - 0.1 9.402 7.308 9.006 9.8

8.447 8.065 8.449 8.063 5.626 6.141 8.636 7.867 4.823 5.487 8.824 8.051 9.018 7.412 9.014 8.238 9.602 8.814 - 0.6 9.2058.065 6.363 8.063 6.365 8.249 5.448 7.867 8.265 8.436 3.333 8.051 8.449 6.495 6.308 8.628 8.636 8.814 7.506 2.264 4.0256.365 8.063 4.502 4.237 8.265 7.867 - 0.6 - 0.32 8.449 8.051 5.303 3.908 8.636 8.628 5.69 0.744 8.824 9.206 7.28 8.8098.063 8.449 0.928 8.447 7.866 8.636 7.901 - 0.6 7.298 8.824 7.675 0.868 8.628 9.014 8.624 7.659 9.206 7.114 8.813 9.602

12

結果　～学習終盤～

低い高いQ 値


後進右回転

左回転

座標内部


左回転0

0

1

1

2

2

3

3

4

後進⇒壁に衝突選択可能な行動の中で後進の Q 値が最も低い

8.447 8.0658.065 6.363 スタート時 ,

座標 (0,0), 上向き後方に壁がある状態

前進

後進

右回転

左回転

（学習回数：約 23 万回）

学習終盤学習初期

環境が返す報酬Q値学習経過における Q 値の変化

Q 値は常に不安定　　⇒学習により Q 値の更新が行われている

Q 値は安定して正の値を保つ　　⇒学習が収束しつつある13

学習開始時からの行動選択回数の比較

学習初期（ 55 回）

学習終盤（約 23 万回）

少ない

多い

選択回数

14

・学習初期⇒スタート付近を探索 , ゴールにあまり到達できていない

・学習終盤⇒スタートからゴールまでの最短経路を獲得壁付近は近寄らない経路を獲得


後進右回転

左回転

座標内部


左回転

6.172 7.494 4.898 7.872 3.935 5.254 - 0.14 - 0.15 2.278 7.861 6.172 8.243 4.561 2.112 - 0.6 - 0.267.494 8.255 2.137 3.4 1.933 8.441 - 0.2 6.732 3.574 - 0.25 3.024 1.829 2.823 8.82 - 0.19 7.8294.259 3.876 8.255 5.066 - 0.24 - 0.27 8.441 0.308 - 0.23 0.505 8.63 3.087 0 0 8.82 - 0.217.872 0.354 2.234 4.443 - 0.26 - 0.25 - 0.17 3.82 - 0.23 - 0.21 2.633 5.643 - 0.09 - 0.6 2.923 1.473

8.072 8.439 8.828 8.055 8.257 8.628 9.018 8.241 7.682 8.818 9.21 8.43 8.543 9.009 9.404 8.62 10 9.204 7.504 9.68.439 8.072 8.055 6.739 8.628 8.257 8.241 8.639 8.818 8.443 8.43 8.828 9.01 8.586 8.62 9.018 9.204 9.602 9.6 9.216.739 8.055 8.072 8.439 8.639 8.241 8.257 8.628 8.828 8.43 8.443 8.818 9.018 8.62 8.632 9.01 9.21 9.6 9.602 9.2048.055 8.828 8.439 8.072 8.241 9.018 8.628 8.257 8.43 9.21 8.818 8.443 8.62 9.404 9.01 8.632 9.6 7.504 9.204 10

8.255 8.251 8.637 7.872 8.441 7.466 8.826 8.057 8.63 8.195 9.016 8.243 8.82 8.773 9.208 8.432 9.8 9.008 7.308 9.4028.251 7.892 7.872 6.551 7.486 6.308 8.057 8.451 8.37 6.33 8.243 8.637 8.803 8.439 8.432 8.826 9.008 9.406 9.402 9.0166.551 7.872 7.731 8.134 8.451 8.057 4.577 3.849 8.637 8.243 4.093 7.19 8.826 8.432 4.273 7.313 9.016 9.402 9.406 9.0087.872 8.637 2.764 8.255 8.057 8.826 5.887 8.441 8.243 9.016 3.992 8.63 8.432 9.208 8.423 8.82 9.402 7.308 9.008 9.8

8.072 8.065 8.449 7.684 6.096 7.167 8.636 7.867 5.481 8.436 8.824 8.051 8.632 8.116 9.014 8.245 9.602 8.814 7.114 9.2068.065 5.992 7.692 6.365 8.249 5.671 7.867 8.265 6.942 4.571 8.051 8.449 7.112 5.655 8.245 8.636 8.814 7.506 9.206 8.8246.365 7.692 5.794 6.909 8.265 7.867 2.183 8.249 8.449 8.051 4.682 4.103 8.636 8.245 - 1.03 8.624 8.824 9.206 7.268 8.7937.692 8.449 0.188 8.072 7.867 8.636 5.607 4.234 8.051 8.824 8.436 5.094 8.238 9.014 5.575 - 0.19 9.206 7.114 8.809 9.602

各座標アクション毎の Q 値

15

結果　～壁の位置を変更～

低い高いQ値


後進右回転

左回転

座標内部


左回転0

0

1

1

2

2

3

3

4

マップ上部の Q 値が低い ⇒ 壁の位置に対応

ゴール直前に壁

スタート位置の変更はしない

右回転or

左回転

右回転or

左回転

各座標アクション毎の行動選択回数

16

壁の位置変更後の行動選択回数

少ない

多い

選択回数


後進右回転

左回転

座標内部


左回転

⇒ マップ上部には , なるべく行かない経路を学習

スタートからゴールまでの最短経路を獲得

⇒ 壁位置変更にも対応

まとめ

・学習に時間がかかる

・学習時間が短いと局所解に陥る

壁に衝突しない最短経路を学習できた－壁位置を変更しても学習可能

実世界寄りの新たな制約の追加－路面の状態・速

度

課題展望

17

強化学習を用いて未知の環境下でも最良の移動方策を獲得する

実機を簡略化したロボットで迷路をモデルとしたマップ内で壁に衝突しない移動方策を獲得する

卒業研究発表スライド 平林大輝

Technology

卒業研究発表スライド平林大輝