強化学習(TD3)を試したら環境依存性が強くてビックリしたという話

今回のポストは、TD3 という手法を試してみたら論文通りの性能が出ずに悩んでいたんですが、その原因が環境差にあったという笑えない話です。 経緯 ロボット動作などの、連続行動空間での強化学習にはPPOが今のところ最強なのではないかと思っていたのだけど…

Exploration by Random Network Distillation の効果を MountainCar で試した。

強化学習を実際にやってみようと思った人なら、誰でも(?)知っている Atari の Motezuma's Revenge 。 ランダムプレイでは攻略のヒントがつかめないので、強化学習で攻略するには難しいタイプの問題として有名なゲームですね。 この Montezuma's Revenge …

「対角化の計算はできるんだけど、何をやっているのかイマイチ腑に落ちていない」という方は読んでみて欲しい。

「対角化の計算はできるんだけど、何をやっているのかイマイチ腑に落ちていない」という方は読んでみて欲しい。 この投稿では、対角化の一連の計算がどのような意味を持つのかを説明する。 前回の基底変換に関する投稿: fakeowl.hatenablog.com を見ていな…

Reinforcement Learning for Improving Agent Design :エンジニアが忘れてはいけないことを思い出させてくれた。

David Ha, Reinforcement Learning for Improving Agent Design のメモ https://arxiv.org/abs/1810.03779 この論文では、総報酬を最大化するために、エージェント側の政策だけでなく、環境側も一緒に更新してしまおうという試みが紹介されている。 論文内の…

EPISODIC CURIOSITY THROUGH REACHABILITY のメモ

N.Savinov (Google Brain), et.al, "EPISODIC CURIOSITY THROUGH REACHABILITY" [1810.02274] Episodic Curiosity through Reachability をナナメ読みしたメモ。 概要 強化学習中に観測された状態が、過去に経験済みの状態と大きく離れているか(状態間を移…

基底を取り換えると行列表示はどう変わる?

基底を取り替えたらどうなるのか 線形代数に関する前の投稿 fakeowl.hatenablog.com の続き。 それでは具体的に、基底の取り方を変えた時にどのように変換行列が変わるのかを見ていこうと思う。 入力側の基底の変換 まずは、入力側の基底を取り替えてみよう…

DeepMind の PopArt は拍子抜けするくらいシンプル.

DeepMind から、マルチタスク学習を加速するテクニックが公開されました。 gigazine.net 論文 https://arxiv.org/abs/1809.04474 を読んでみると拍子抜けするほど簡単な仕組みだったため、これで性能がでるのであればエンジニアとしてはうれしいです。 Pop-A…

線形変換の定義みても重要性がいまいちわからん。線形変換と行列ってどんな関係なの?

何で線形変換を特別扱いしなきゃいけないんだろう・・・ と考えたことないだろうか? 線形変換とは、次のような性質を満たす変換のことだ。 線形変換(※) $$ f(a \mathbf{x} + \mathbf{y}) = a f(\mathbf{x}) + f(\mathbf{y}) $$ 日本語で言うと、線形変換 …

基底と成分

意味がわからないながらも、とにかく行列の計算だけはできるようにトレーニングを積んできた人も多いと思う。 さあ、ここからが本番だ。 計算のやり方はわかっても、それがどんな意味を持っているのかを理解しないままでは応用が全く効かない。 これから、線…

線形代数は苦手ですか?

こんにちは。 某メーカーで物理シミュレーションやデータ解析をやっているエンジニアです。 仕事柄、計算手法に関する論文を読んで、その内容を実装して試すということをやるので、このブログでは、自分が「面白いな」と思ったものを紹介できたらなと思って…