deepmind論文(2016/6) 「unifying count-based exploration and intrinsic motivation 」...

1

V2 20161201

DeepMind 論文 (2016/6)「 Unifying Count-Based Exploration and Intrinsic Motivation 」記載の Pseudo-count を用いた Montezuma's Revenge の評価

飯塚孝好 ( スタッフサービスエンジニアリング、日立製作所 OB)

2

V2 20161201

Monezuma's Revenge とは

● DeepMind が DRL (Deep Reinforcement Learning) の評価に利用する Atari2600ゲーム 60 個 ( 現在 ) の 1 つ

● 平均得点が人間に対し 0% ( 〜 2016/6) 。 DRL における最難関ゲームの 1 つ

関連サイト： https://deepmind.com/blog/deep-reinforcement-learning/

3

V2 20161201

DRL で得点が取れない原因

①キャラ (*1) が直ぐに死んでしまい、先に進めない

②得点頻度が少ない → 学習機会が少なくいほぼランダムなアクションでの得点比率 (1M steps 中 )

ゲームゲーム回数得点回数得点比率

Breakout 5440 4202 77.3%

Montezuma's Revenge 2323 1 0.043%

(*1) キャラの通称は Panama Joe 。 Montezuma は地名の模様。

4

V2 20161201

単純な対策とその結果

①キャラが直ぐに死んでしまい、先に進めない【対策】危険回避に向けマイナスの得点を与えては？【結果】危険な場所に近づかず、前に進まない

②得点頻度が少ない → 学習機会が少ない【対策】学習機会を増やすため、常に得点を与えては？【結果】一箇所に留まって、前に進まない

③上記に加え、危険な場所の先に進む動機が無い【対策】上記①と②の対策を組み合わせては？【結果】一箇所に留まって、前に進まない　　　（危険な場所の前後で得点に差が無い為）

＝＞学習が進むように常に得点を与えるが、　　同じ場所での得点は 1 度だけにしたい

5

V2 20161201

論文との出会い

● Monezuma's Revenge 評価経過をブログと twitter で発信していたところ、評価に使っているコードの作成者である三好氏から twitter で論文「 Unifying Count-Based Exploration and Intrinsic Motivation 」を紹介頂いた

● 論文概要を見たところ、ゲーム状態の出現頻度を算出する方法案が書かれており、 Montezuma's Revengeにも適用したとのこと ( 論文自体はゲーム以外にも適用可能な一般化した内容を記載 )

● Montezuma's Revenge への適用結果は良好で、平均得点が、 Double DQN では 3439 まで上昇 (100M step) 、A3C では 273 まで上昇 (200M step)

6

V2 20161201

論文概要 ( キーアイデア )

● ゲーム状態の頻度を直接カウントする方法もあるが、全く同じ状態の頻度 / 確率はほぼ 0 となり、有効性が低い【例】下記で新データ (SUN, LATE, BUSY) の出現確率は 0 ？

● キーアイデア：・上記、 1/10*1/10*9/10 (=0.009) が適切そう (ρ )・新データ追加後は 2/11*2/11*10/11(=0.03) になる (ρ')　 ( 論文では ρ' を recording probability と命名 )

day# Weather Time-of-day Crowdeness-of-station1 SUN LATE QUIET2 RAIN EARY BUSY3 RAIN EARY BUSY4 RAIN EARY BUSY5 RAIN EARY BUSY6 RAIN EARY BUSY7 RAIN EARY BUSY8 RAIN EARY BUSY9 RAIN EARY BUSY

10 RAIN EARY BUSY

7

V2 20161201

論文概要 ( 定式化 )

● データが複数空間 ( 前頁例では Weather 、 Time-of-day, croudeness-of-station) の直積の場合、各空間毎の出現確率 ρ( 又は ρ') の積をデータの出現確率 ρ( 又は ρ') と考える ( キーアイデア定式化 )

● ところで、各空間で、既存データ n 個中での新データの出現回数が N 回のとき、 ρ と ρ' は、次のように表現できる

– ρ = N/n

– ρ' = (N + 1)/(n + 1)

● ρ と ρ' の式から逆に N を求めると次のようになる

– N = ρ(1 – ρ')/(ρ' – ρ) ρ/(ρ' – ρ)≒ 　 (ρ' << 1 と仮定 )

● 直積空間でも ρ と ρ' から N を計算できる (pseudo-count と命名 )● 前頁例は、 ρ = 1/10*1/10*9/10 =0.009 、 ρ' = 2/11*2/11*10/11 =

0.03 で、 N = 0.009/(0.03 – 0.009) = 0.42 となる

( 注 ) 上記、かなり簡略化し、記号も一部省略しています。詳細は論文を参照ください

8

V2 20161201

論文概要 (DRL での活用 )

● ゲーム画面 x の各画素毎に ρ(及び ρ') を求め、全画素の ρ(及び ρ') 積を x の ρ(及び ρ') とする

● ρ と ρ' から、 pseudo-count N(x) を求め、 N(x) から計算した下記を画面 x の得点として学習を進める

– R+(x) = β(N(x) + 0.01)-1/2

● N(x) が大きいほど小さい => 頻度が高い画面では小さい● 0.01 は 0割防止が目的で、値に意味はない● β は実際にゲームで試して最適な値を算出

– Double DQN では 0.05 、 A3C では 0.01 とした

– 上記、学習に用いるが、ゲーム総得点には計上しない– 上記以外の式も試行 (-1/2 を -1 にするなど ) 、上記が最良

9

V2 20161201

論文概要 (Double DQN での効果 )

● 5 ゲームで評価し、下記 2 つで特に効果が高かった

● Montezuma's Revenge での到達部屋が大幅拡大

10

V2 20161201

論文概要 (A3C での効果 )

● 全 60 ゲームで評価し、 Random アクションによる得点の 150% 以下しか取れないゲームが 5 個減った

● 報告者集計では、人間の得点の 75% 以下のゲームが多数残り、得点も低く、 A3C での効果は限定的

Score<150%Random Stochastic-ALE Deterministic-ALE Stochastic-ALE Deterministic-ALEA3C A3C+ DQN A3C A3C+ A3C A3C+ Random Human A3C A3C+ DQN A3C A3C+ DQN

1ASTEROIDS X 2680.7 2257.9 3946.2 2406.6 719.1 47388.7 4% 3% 0% 7% 4% 0%2BATTLE-ZONE X 3143.0 7429.0 3393.8 7969.1 2360.0 37187.5 2% 15% 41% 3% 16% 45%3BOWLING X 32.9 68.7 35.0 76.0 23.1 160.7 7% 33% 4% 9% 38% 5%4DOUBLE-DUNK X X 0.5 -8.9 0.2 -7.8 -18.6 -16.4 870% 442% 320% 854% 489% 210%5ENDURO X 0.0 749.1 0.0 694.8 0.0 860.5 0% 87% 40% 0% 81% 51%6FREEWAY X 0.0 27.3 0.0 30.5 0.0 29.6 0% 92% 103% 0% 103% 102%7GRAVITAR X X X 204.7 246.0 201.3 238.7 173.0 3351.4 1% 2% -4% 1% 2% 1%8 ICE-HOCKEY X X -5.2 -7.1 -5.1 -6.5 -11.2 0.9 49% 34% 12% 50% 39% 7%9KANGAROO X 47.2 5475.7 46.6 4883.5 52.0 3035.0 0% 182% 138% 0% 162% 198%10MONTEZUMA'S-REVENGE X 0.1 142.5 0.2 273.7 0.0 4753.3 0% 3% 0% 0% 6% 0%11PITFALL X X X -8.8 -156.0 -7.0 -259.1 -229.4 6463.7 3% 1% 2% 3% 0% 2%12ROBOTANK X 2.1 6.7 2.2 7.7 2.2 11.9 -1% 46% 501% 0% 56% 395%13SKIING X X X -23670.0 -20066.7 -20959.0 -22177.5 -17098.1 -4336.9 -51% -23% -73% -30% -40% -85%14SOLARIS X X 2157.0 2175.7 2102.1 2270.2 1236.3 12326.7 8% 8% -4% 8% 9% 5%15SURROUND X X X -7.8 -7.0 -7.1 -7.2 -10.0 6.5 13% 18% 7% 18% 17% 11%16TENNIS X X X -12.4 -20.5 -16.2 -23.1 -23.8 -8.9 76% 22% 73% 51% 5% 106%17TIME-PILOT X X X 7417.1 3816.4 9000.9 4103.0 3568.0 5925.0 163% 11% -32% 231% 23% 21%18VENTURE X X 0.0 0.0 0.0 0.0 0.0 1188.0 0% 0% 5% 0% 0% 0%

14X 10X 10X 15X 14X 14X 16X 14X 13X

11

V2 20161201

A3C での試行 (A3C にした理由 )

● 論文の理解不十分で、 Montezuma's Revenge の得点が A3C で十分上がらないことに気付かなかった

● この論文の前に、 A3C で Montezuma's Revenge を評価しており、手近に A3C の評価環境があった

● 同 A3C 評価環境は、学習速度 (steps/秒 ) が高速であり、短時間で pseudo-coun 効果が分かると考えた– 論文で Double DQN の評価結果が少ないのは、おそらく、

評価に時間が掛かり結果を出せなかったか、他のゲームでは悪い結果になるためと思われる

12

V2 20161201

A3C での試行 ( とりあえず評価 )

● 既存 A3C 評価環境に、 pseudo-count を組込み、テスト実行の結果、論文を超える平均得点が出た

13

V2 20161201

A3C での試行 ( 評価内容見直し )

● ちゃんと評価するために、独自に入れていたコードをOFF にして再評価したところ、点数が伸びず、途中からこれを ON にすると、点数が上がることが分かった

独自コード ON

14

V2 20161201

A3C での試行 (独自コード概要 )

● 独自コードは、得点 (pseudo-count での得点以外 ) を得る度に、得点を得るまでの 150 ステップの履歴で学習するというもの ( 一応、 On-Highscore-Leaning:OHL と命名 )

● 上記に加え下記も入っていたが、上記影響が最大– ライフが減る度にマイナスの得点 (-1.0) を与える

– 無得点期間が長いとアクションのランダム性を高める● 現在、上記の履歴の長さ、ライフ減のマイナス得点の値、 ALE での repeat-action-probability の値など、種々のパラメータに対し、最適なものを探すべく試行中– DeepMind は Google Cloud Platform (GCP) 上の豊富なリソー

スを用いて同時に多数の評価を行い、最適パラメーターを得ているが、個人ではリソースに限界があり、山勘に頼る状況

15

V2 20161201

A3C での試行 ( 最新状況 (2016/10/6))

● ALE環境で平均得点が 2000 点に迫る

● しかし、到達部屋・最高得点は当初と変わらず、進歩なし– 探索範囲拡大のためアクション選択のランダム性を調整し評価中

16

V2 20161201

A3C での試行 ( 最新状況 (2016/12/1))● OpenAI Gym の環境で平均得点が 1400 点に迫る

● DeepMind 論文未記載の部屋に到達 ( 下記でピンクの部屋 )

部屋 3, 8, 9到達動画 https://youtu.be/qOyFLCK8Umw 部屋 18, 19到達動画 https://youtu.be/jMDhb-Toii8 部屋 19, 20到達動画 https://youtu.be/vwkIg1Un7JA

https://youtu.be/qOyFLCK8Umw

https://youtu.be/jMDhb-Toii8

https://youtu.be/vwkIg1Un7JA

17

V2 20161201

まとめ

● Pseudo-count は、得点機会が僅少のゲームに有効● On-Highscore-Leaning (OHL) も、同様のゲームに有効● 上記 2 つでは探索範囲拡大に不十分、更なる改善要

● DeepMind 論文未記載の部屋に到達

補足– 本発表に関連した情報

● ブログ： http://itsukara.hateblo.jp/● コード： https://github.com/Itsukara/async_deep_reinforce

– 謝辞● 高速な A3C コードを提供頂いた三好氏に感謝します

http://itsukara.hateblo.jp/

https://github.com/Itsukara/async_deep_reinforce

18

V2 20161201

付録 (Montezuma' Revenge Map)到達範囲 (2016/12/5)

OpenAI Gym での実験結果一覧： http://52.193.119.202/

http://52.193.119.202/

19

V2 20161201

付録 (Montezuma' Revenge Map)50M steps の学習での到達範囲 (2016/12/1)

各部屋が個別に pseudo-count を持つオプションで学習

実験結果： http://52.193.119.202/montezuma-v3/00index.html

http://52.193.119.202/montezuma-v3/00index.html

20

V2 20161201

付録 (pseudo-count映像化 )● 3M step

● 45M step頻度 No.1画素値頻度 No.2画素値頻度 No.3画素値

頻度 No.1画素値頻度 No.2画素値頻度 No.3画素値

複数の部屋が混在し、キャラクターの軌跡が十分

に見えない。部屋ごとに別々の pseudo-count を持った

ほうが良さそう。

=>p.19 に試行結果

記載

頻度 No.2 以降の画像は、キャラクターの軌跡が含まれるように見える。つまり、キャラクターの場所ごとの頻度が得

られている。

21

V2 20161201

付録 (DeepMind News&Blog 内 DRL サイト )● 次頁記載の各論文を中心に引用

① DQN

② DQN (Nature)

③ Double DQN (DDQN)

④ Prioritised DQN

⑤ Dueling Network

⑥ Bootstrapped DQN

⑦ DDQN with Pop-Art

⑧ Univeral Value Function

⑨ Multi-Dist-KL

⑩ Gorila

⑪ A3C

⑫ Pseudo-count

⑬ STRAW

⑭ EC-VAE

⑮ AlphaGO ( 次頁未記載 )

22

V2 20161201

付録 (DeepMind ゲーム評価論文 )Paper# Title v1 latest content

1310.8499v2 Deep AutoRegressive Networks 2013-10-31 2014-05-20 Karol Gregor Ivo Danihelka Andriy Mnih Daan Wierstra

1312.5602v1 Playing Atari with Deep Reinforcement Learning 2013-12-19 2013-12-19 DQN① David Silver Alex Graves

1411.5326v1 Compress and Control 2014-11-19 2014-11-19 Joel Veness Marcus Hutter Alvin Chua

schaul15 Universal Value Function Approximators 2015-07-06 2015-07-06 Universal Value Function⑧ Tom Schaul Dan Horgan Karol Gregor David Silver

1507.04296v2 2015-07-15 2015-07-16 Gorila⑩ Arun Nair … … David Silver

1509.06461v3 2015-09-22 2015-12-08 Double DQN (DDQN)③ Arthur Guez David Silver

1511.05952v4 Prioritized Experience Replay 2015-11-18 2016-02-25 Prioritized DQN④ Tom Schaul John Quan David Silver

1511.06295v2 Policy Distillation 2015-11-19 2016-01-07 Multi-Disk-KL⑨ …

1511.06581v3 2015-11-20 2016-04-05 Dueling Network⑤ Ziyu Wang Tom Schaul Marc Lanctot

2015-02-15 2015-02-15 DQN (Nature)② David Silver Alex Graves Daan Wierstra

1512.04860v1 2015-12-15 2015-12-15 Arthur Guez Remi Munos

1602.01783v2 2016-02-04 2016-06-16 A3C⑪ Mehdi Mrza … David Silver

1602.04621v3 Deep Exploration via Bootstrapped DQN 2016-02-15 2016-06-04 Bootstrapped DQN⑥ Ian Osband

1602.07714v2 Learning values across many orders of magnitude 2016-02-24 2016-08-16 DDQN with Pop-Art⑦ Arthur Guez David Silver

1606.01868v1 2016-06-06 2016-06-06 Pseudo-count⑫ Tom Schaul Remi Munos David Saxton

1606.02647v1 2016-06-08 2016-06-08 Remi Munos

1606.04460v1 Model-Free Episodic Control 2016-06-14 2016-06-14 EC-VAE⑭ Daan Wierstra

1606.04671v3 Progressive Neural Networks 2016-06-15 2016-09-07 Hubert Soyer

1606.04695v1 Strategic Attentive Writer for Learning Macro-Actions 2016-06-15 2016-06-15 STRAW⑬ John Agapiou Alex Graves Oriol Vinyals

Charles Blundell

Volodymyr Mnih

Koray Kavukcuoglu

Ioannis Antonoglou

Marc G.Bellemare

Guillaume Desjardins

Massively Parallel Methods for Deep Reinforcement Learning

Volodymyr Mnih

Koray Kavukcuoglu

Deep Reinforcement Learning with Double Q-learning

Hado van Hasselt

Ioannis Antonoglou

Andrei A. Rusu

Volodymyr Mnih

Koray Kavukcuoglu

Dueling Network Architecture for Deep Reinforcement Learning

Matteo Hessel

Hado van Hasselt

Nando de Freitas

Nature14236Paper

Human Level Control Through Deep Reinforcement Learning

Volodymyr Mnih

Koray Kavukcuoglu

Marc G.Bellemare

Ioannis Antonoglou

Demis Hassabis

Increasing the Action Gap: New Operators for Reinforcement Learning

Marc G.Bellemare

Georg Ostrovski

Philip S. Thomas

Asynchronous Methods for Deep Reinforcement Learning

Volodymyr Mnih

Adria Puigdomenech Badia

Koray Kavukcuoglu

Charles Blundell

Alexander Pritzel

Benjamin Van Roy

Hado van Hasselt

Volodymyr Mnih

Unifying Count-Based Exploration and Intrinsic Motivation

Marc G.Bellemare

Georg Ostrovski

Sriram Srinivasan

Safe and Efficient Off-Policy Reinforcement Learning

Tom Stepleton

Anna Harutyunyan

Marc G.Bellemare

Charles Blundell

Alexander Pritzel

Demis Hassabis

Andrei A. Rusu

Guillaume Desjardins

Koray Kavukcuoglu

Neil C. Rabinowiz

Gullaume Desjardins

Alexander Vezhnevets

Volodymyr Mnih

Simon Osindero

Koray Kavukcuoglu

deepmind論文(2016/6) 「unifying count-based exploration and intrinsic motivation 」...

Science