deepmind論文(2016/6) 「unifying count-based exploration and intrinsic motivation 」...
TRANSCRIPT
1
V2 20161201
DeepMind 論文 (2016/6)「 Unifying Count-Based Exploration and Intrinsic Motivation 」記載の Pseudo-count を用いた Montezuma's Revenge の評価
飯塚孝好 ( スタッフサービスエンジニアリング、日立製作所 OB)
2
V2 20161201
Monezuma's Revenge とは
● DeepMind が DRL (Deep Reinforcement Learning) の評価に利用する Atari2600ゲーム 60 個 ( 現在 ) の 1 つ
● 平均得点が人間に対し 0% ( 〜 2016/6) 。 DRL における最難関ゲームの 1 つ
関連サイト: https://deepmind.com/blog/deep-reinforcement-learning/
3
V2 20161201
DRL で得点が取れない原因
①キャラ (*1) が直ぐに死んでしまい、先に進めない
②得点頻度が少ない → 学習機会が少なくいほぼランダムなアクションでの得点比率 (1M steps 中 )
ゲーム ゲーム回数 得点回数 得点比率
Breakout 5440 4202 77.3%
Montezuma's Revenge 2323 1 0.043%
(*1) キャラの通称は Panama Joe 。 Montezuma は地名の模様。
4
V2 20161201
単純な対策とその結果
①キャラが直ぐに死んでしまい、先に進めない【対策】危険回避に向けマイナスの得点を与えては?【結果】危険な場所に近づかず、前に進まない
②得点頻度が少ない → 学習機会が少ない【対策】学習機会を増やすため、常に得点を与えては?【結果】一箇所に留まって、前に進まない
③上記に加え、危険な場所の先に進む動機が無い【対策】上記①と②の対策を組み合わせては?【結果】一箇所に留まって、前に進まない (危険な場所の前後で得点に差が無い為)
=>学習が進むように常に得点を与えるが、 同じ場所での得点は 1 度だけにしたい
5
V2 20161201
論文との出会い
● Monezuma's Revenge 評価経過をブログと twitter で発信していたところ、評価に使っているコードの作成者である三好氏から twitter で論文「 Unifying Count-Based Exploration and Intrinsic Motivation 」を紹介頂いた
● 論文概要を見たところ、ゲーム状態の出現頻度を算出する方法案が書かれており、 Montezuma's Revengeにも適用したとのこと ( 論文自体はゲーム以外にも適用可能な一般化した内容を記載 )
● Montezuma's Revenge への適用結果は良好で、平均得点が、 Double DQN では 3439 まで上昇 (100M step) 、A3C では 273 まで上昇 (200M step)
6
V2 20161201
論文概要 ( キーアイデア )
● ゲーム状態の頻度を直接カウントする方法もあるが、全く同じ状態の頻度 / 確率はほぼ 0 となり、有効性が低い【例】下記で新データ (SUN, LATE, BUSY) の出現確率は 0 ?
● キーアイデア:・上記、 1/10*1/10*9/10 (=0.009) が適切そう (ρ )・新データ追加後は 2/11*2/11*10/11(=0.03) になる (ρ') ( 論文では ρ' を recording probability と命名 )
day# Weather Time-of-day Crowdeness-of-station1 SUN LATE QUIET2 RAIN EARY BUSY3 RAIN EARY BUSY4 RAIN EARY BUSY5 RAIN EARY BUSY6 RAIN EARY BUSY7 RAIN EARY BUSY8 RAIN EARY BUSY9 RAIN EARY BUSY
10 RAIN EARY BUSY
7
V2 20161201
論文概要 ( 定式化 )
● データが複数空間 ( 前頁例では Weather 、 Time-of-day, croudeness-of-station) の直積の場合、各空間毎の出現確率 ρ( 又は ρ') の積をデータの出現確率 ρ( 又は ρ') と考える ( キーアイデア定式化 )
● ところで、各空間で、既存データ n 個中での新データの出現回数が N 回のとき、 ρ と ρ' は、次のように表現できる
– ρ = N/n
– ρ' = (N + 1)/(n + 1)
● ρ と ρ' の式から逆に N を求めると次のようになる
– N = ρ(1 – ρ')/(ρ' – ρ) ρ/(ρ' – ρ)≒ (ρ' << 1 と仮定 )
● 直積空間でも ρ と ρ' から N を計算できる (pseudo-count と命名 )● 前頁例は、 ρ = 1/10*1/10*9/10 =0.009 、 ρ' = 2/11*2/11*10/11 =
0.03 で、 N = 0.009/(0.03 – 0.009) = 0.42 となる
( 注 ) 上記、かなり簡略化し、記号も一部省略しています。詳細は論文を参照ください
8
V2 20161201
論文概要 (DRL での活用 )
● ゲーム画面 x の各画素毎に ρ(及び ρ') を求め、全画素の ρ(及び ρ') 積を x の ρ(及び ρ') とする
● ρ と ρ' から、 pseudo-count N(x) を求め、 N(x) から計算した下記を画面 x の得点として学習を進める
– R+(x) = β(N(x) + 0.01)-1/2
● N(x) が大きいほど小さい => 頻度が高い画面では小さい● 0.01 は 0割防止が目的で、値に意味はない● β は実際にゲームで試して最適な値を算出
– Double DQN では 0.05 、 A3C では 0.01 とした
– 上記、学習に用いるが、ゲーム総得点には計上しない– 上記以外の式も試行 (-1/2 を -1 にするなど ) 、上記が最良
9
V2 20161201
論文概要 (Double DQN での効果 )
● 5 ゲームで評価し、下記 2 つで特に効果が高かった
● Montezuma's Revenge での到達部屋が大幅拡大
10
V2 20161201
論文概要 (A3C での効果 )
● 全 60 ゲームで評価し、 Random アクションによる得点の 150% 以下しか取れないゲームが 5 個減った
● 報告者集計では、人間の得点の 75% 以下のゲームが多数残り、得点も低く、 A3C での効果は限定的
Score<150%Random Stochastic-ALE Deterministic-ALE Stochastic-ALE Deterministic-ALEA3C A3C+ DQN A3C A3C+ A3C A3C+ Random Human A3C A3C+ DQN A3C A3C+ DQN
1ASTEROIDS X 2680.7 2257.9 3946.2 2406.6 719.1 47388.7 4% 3% 0% 7% 4% 0%2BATTLE-ZONE X 3143.0 7429.0 3393.8 7969.1 2360.0 37187.5 2% 15% 41% 3% 16% 45%3BOWLING X 32.9 68.7 35.0 76.0 23.1 160.7 7% 33% 4% 9% 38% 5%4DOUBLE-DUNK X X 0.5 -8.9 0.2 -7.8 -18.6 -16.4 870% 442% 320% 854% 489% 210%5ENDURO X 0.0 749.1 0.0 694.8 0.0 860.5 0% 87% 40% 0% 81% 51%6FREEWAY X 0.0 27.3 0.0 30.5 0.0 29.6 0% 92% 103% 0% 103% 102%7GRAVITAR X X X 204.7 246.0 201.3 238.7 173.0 3351.4 1% 2% -4% 1% 2% 1%8 ICE-HOCKEY X X -5.2 -7.1 -5.1 -6.5 -11.2 0.9 49% 34% 12% 50% 39% 7%9KANGAROO X 47.2 5475.7 46.6 4883.5 52.0 3035.0 0% 182% 138% 0% 162% 198%10MONTEZUMA'S-REVENGE X 0.1 142.5 0.2 273.7 0.0 4753.3 0% 3% 0% 0% 6% 0%11PITFALL X X X -8.8 -156.0 -7.0 -259.1 -229.4 6463.7 3% 1% 2% 3% 0% 2%12ROBOTANK X 2.1 6.7 2.2 7.7 2.2 11.9 -1% 46% 501% 0% 56% 395%13SKIING X X X -23670.0 -20066.7 -20959.0 -22177.5 -17098.1 -4336.9 -51% -23% -73% -30% -40% -85%14SOLARIS X X 2157.0 2175.7 2102.1 2270.2 1236.3 12326.7 8% 8% -4% 8% 9% 5%15SURROUND X X X -7.8 -7.0 -7.1 -7.2 -10.0 6.5 13% 18% 7% 18% 17% 11%16TENNIS X X X -12.4 -20.5 -16.2 -23.1 -23.8 -8.9 76% 22% 73% 51% 5% 106%17TIME-PILOT X X X 7417.1 3816.4 9000.9 4103.0 3568.0 5925.0 163% 11% -32% 231% 23% 21%18VENTURE X X 0.0 0.0 0.0 0.0 0.0 1188.0 0% 0% 5% 0% 0% 0%
14X 10X 10X 15X 14X 14X 16X 14X 13X
11
V2 20161201
A3C での試行 (A3C にした理由 )
● 論文の理解不十分で、 Montezuma's Revenge の得点が A3C で十分上がらないことに気付かなかった
● この論文の前に、 A3C で Montezuma's Revenge を評価しており、手近に A3C の評価環境があった
● 同 A3C 評価環境は、学習速度 (steps/秒 ) が高速であり、短時間で pseudo-coun 効果が分かると考えた– 論文で Double DQN の評価結果が少ないのは、おそらく、
評価に時間が掛かり結果を出せなかったか、他のゲームでは悪い結果になるためと思われる
12
V2 20161201
A3C での試行 ( とりあえず評価 )
● 既存 A3C 評価環境に、 pseudo-count を組込み、テスト実行の結果、論文を超える平均得点が出た
13
V2 20161201
A3C での試行 ( 評価内容見直し )
● ちゃんと評価するために、独自に入れていたコードをOFF にして再評価したところ、点数が伸びず、途中からこれを ON にすると、点数が上がることが分かった
独自コード ON
14
V2 20161201
A3C での試行 (独自コード概要 )
● 独自コードは、得点 (pseudo-count での得点以外 ) を得る度に、得点を得るまでの 150 ステップの履歴で学習するというもの ( 一応、 On-Highscore-Leaning:OHL と命名 )
● 上記に加え下記も入っていたが、上記影響が最大– ライフが減る度にマイナスの得点 (-1.0) を与える
– 無得点期間が長いとアクションのランダム性を高める● 現在、上記の履歴の長さ、ライフ減のマイナス得点の値、 ALE での repeat-action-probability の値など、種々のパラメータに対し、最適なものを探すべく試行中– DeepMind は Google Cloud Platform (GCP) 上の豊富なリソー
スを用いて同時に多数の評価を行い、最適パラメーターを得ているが、個人ではリソースに限界があり、山勘に頼る状況
15
V2 20161201
A3C での試行 ( 最新状況 (2016/10/6))
● ALE環境で平均得点が 2000 点に迫る
● しかし、到達部屋・最高得点は当初と変わらず、進歩なし– 探索範囲拡大のためアクション選択のランダム性を調整し評価中
16
V2 20161201
A3C での試行 ( 最新状況 (2016/12/1))● OpenAI Gym の環境で平均得点が 1400 点に迫る
● DeepMind 論文未記載の部屋に到達 ( 下記でピンクの部屋 )
部屋 3, 8, 9到達動画 https://youtu.be/qOyFLCK8Umw 部屋 18, 19到達動画 https://youtu.be/jMDhb-Toii8 部屋 19, 20到達動画 https://youtu.be/vwkIg1Un7JA
17
V2 20161201
まとめ
● Pseudo-count は、得点機会が僅少のゲームに有効● On-Highscore-Leaning (OHL) も、同様のゲームに有効● 上記 2 つでは探索範囲拡大に不十分、更なる改善要
● DeepMind 論文未記載の部屋に到達
補足– 本発表に関連した情報
● ブログ: http://itsukara.hateblo.jp/● コード: https://github.com/Itsukara/async_deep_reinforce
– 謝辞● 高速な A3C コードを提供頂いた三好氏に感謝します
18
V2 20161201
付録 (Montezuma' Revenge Map)到達範囲 (2016/12/5)
OpenAI Gym での実験結果一覧: http://52.193.119.202/
19
V2 20161201
付録 (Montezuma' Revenge Map)50M steps の学習での到達範囲 (2016/12/1)
各部屋が個別に pseudo-count を持つオプションで学習
実験結果: http://52.193.119.202/montezuma-v3/00index.html
20
V2 20161201
付録 (pseudo-count映像化 )● 3M step
● 45M step頻度 No.1画素値 頻度 No.2画素値 頻度 No.3画素値
頻度 No.1画素値 頻度 No.2画素値 頻度 No.3画素値
複数の部屋が混在し、キャラクターの軌跡が十分
に見えない。部屋ごとに別々の pseudo-count を持った
ほうが良さそう。
=>p.19 に試行結果
記載
頻度 No.2 以降の画像は、キャラクターの軌跡が含まれるように見える。つまり、キャラクターの場所ごとの頻度が得
られている。
21
V2 20161201
付録 (DeepMind News&Blog 内 DRL サイト )● 次頁記載の各論文を中心に引用
① DQN
② DQN (Nature)
③ Double DQN (DDQN)
④ Prioritised DQN
⑤ Dueling Network
⑥ Bootstrapped DQN
⑦ DDQN with Pop-Art
⑧ Univeral Value Function
⑨ Multi-Dist-KL
⑩ Gorila
⑪ A3C
⑫ Pseudo-count
⑬ STRAW
⑭ EC-VAE
⑮ AlphaGO ( 次頁未記載 )
22
V2 20161201
付録 (DeepMind ゲーム評価論文 )Paper# Title v1 latest content
1310.8499v2 Deep AutoRegressive Networks 2013-10-31 2014-05-20 Karol Gregor Ivo Danihelka Andriy Mnih Daan Wierstra
1312.5602v1 Playing Atari with Deep Reinforcement Learning 2013-12-19 2013-12-19 DQN① David Silver Alex Graves
1411.5326v1 Compress and Control 2014-11-19 2014-11-19 Joel Veness Marcus Hutter Alvin Chua
schaul15 Universal Value Function Approximators 2015-07-06 2015-07-06 Universal Value Function⑧ Tom Schaul Dan Horgan Karol Gregor David Silver
1507.04296v2 2015-07-15 2015-07-16 Gorila⑩ Arun Nair … … David Silver
1509.06461v3 2015-09-22 2015-12-08 Double DQN (DDQN)③ Arthur Guez David Silver
1511.05952v4 Prioritized Experience Replay 2015-11-18 2016-02-25 Prioritized DQN④ Tom Schaul John Quan David Silver
1511.06295v2 Policy Distillation 2015-11-19 2016-01-07 Multi-Disk-KL⑨ …
1511.06581v3 2015-11-20 2016-04-05 Dueling Network⑤ Ziyu Wang Tom Schaul Marc Lanctot
2015-02-15 2015-02-15 DQN (Nature)② David Silver Alex Graves Daan Wierstra
1512.04860v1 2015-12-15 2015-12-15 Arthur Guez Remi Munos
1602.01783v2 2016-02-04 2016-06-16 A3C⑪ Mehdi Mrza … David Silver
1602.04621v3 Deep Exploration via Bootstrapped DQN 2016-02-15 2016-06-04 Bootstrapped DQN⑥ Ian Osband
1602.07714v2 Learning values across many orders of magnitude 2016-02-24 2016-08-16 DDQN with Pop-Art⑦ Arthur Guez David Silver
1606.01868v1 2016-06-06 2016-06-06 Pseudo-count⑫ Tom Schaul Remi Munos David Saxton
1606.02647v1 2016-06-08 2016-06-08 Remi Munos
1606.04460v1 Model-Free Episodic Control 2016-06-14 2016-06-14 EC-VAE⑭ Daan Wierstra
1606.04671v3 Progressive Neural Networks 2016-06-15 2016-09-07 Hubert Soyer
1606.04695v1 Strategic Attentive Writer for Learning Macro-Actions 2016-06-15 2016-06-15 STRAW⑬ John Agapiou Alex Graves Oriol Vinyals
Charles Blundell
Volodymyr Mnih
Koray Kavukcuoglu
Ioannis Antonoglou
Marc G.Bellemare
Guillaume Desjardins
Massively Parallel Methods for Deep Reinforcement Learning
Volodymyr Mnih
Koray Kavukcuoglu
Deep Reinforcement Learning with Double Q-learning
Hado van Hasselt
Ioannis Antonoglou
Andrei A. Rusu
Volodymyr Mnih
Koray Kavukcuoglu
Dueling Network Architecture for Deep Reinforcement Learning
Matteo Hessel
Hado van Hasselt
Nando de Freitas
Nature14236Paper
Human Level Control Through Deep Reinforcement Learning
Volodymyr Mnih
Koray Kavukcuoglu
Marc G.Bellemare
Ioannis Antonoglou
Demis Hassabis
Increasing the Action Gap: New Operators for Reinforcement Learning
Marc G.Bellemare
Georg Ostrovski
Philip S. Thomas
Asynchronous Methods for Deep Reinforcement Learning
Volodymyr Mnih
Adria Puigdomenech Badia
Koray Kavukcuoglu
Charles Blundell
Alexander Pritzel
Benjamin Van Roy
Hado van Hasselt
Volodymyr Mnih
Unifying Count-Based Exploration and Intrinsic Motivation
Marc G.Bellemare
Georg Ostrovski
Sriram Srinivasan
Safe and Efficient Off-Policy Reinforcement Learning
Tom Stepleton
Anna Harutyunyan
Marc G.Bellemare
Charles Blundell
Alexander Pritzel
Demis Hassabis
Andrei A. Rusu
Guillaume Desjardins
Koray Kavukcuoglu
Neil C. Rabinowiz
Gullaume Desjardins
Alexander Vezhnevets
Volodymyr Mnih
Simon Osindero
Koray Kavukcuoglu