Reinforcement Learning

強化学習(TD3)を試したら環境依存性が強くてビックリしたという話

今回のポストは、TD3 という手法を試してみたら論文通りの性能が出ずに悩んでいたんですが、その原因が環境差にあったという笑えない話です。 経緯 ロボット動作などの、連続行動空間での強化学習にはPPOが今のところ最強なのではないかと思っていたのだけど…

Exploration by Random Network Distillation の効果を MountainCar で試した。

強化学習を実際にやってみようと思った人なら、誰でも(?)知っている Atari の Motezuma's Revenge 。 ランダムプレイでは攻略のヒントがつかめないので、強化学習で攻略するには難しいタイプの問題として有名なゲームですね。 この Montezuma's Revenge …

Reinforcement Learning for Improving Agent Design :エンジニアが忘れてはいけないことを思い出させてくれた。

David Ha, Reinforcement Learning for Improving Agent Design のメモ https://arxiv.org/abs/1810.03779 この論文では、総報酬を最大化するために、エージェント側の政策だけでなく、環境側も一緒に更新してしまおうという試みが紹介されている。 論文内の…

EPISODIC CURIOSITY THROUGH REACHABILITY のメモ

N.Savinov (Google Brain), et.al, "EPISODIC CURIOSITY THROUGH REACHABILITY" [1810.02274] Episodic Curiosity through Reachability をナナメ読みしたメモ。 概要 強化学習中に観測された状態が、過去に経験済みの状態と大きく離れているか(状態間を移…

DeepMind の PopArt は拍子抜けするくらいシンプル.

DeepMind から、マルチタスク学習を加速するテクニックが公開されました。 gigazine.net 論文 https://arxiv.org/abs/1809.04474 を読んでみると拍子抜けするほど簡単な仕組みだったため、これで性能がでるのであればエンジニアとしてはうれしいです。 Pop-A…