2018-10-01から1ヶ月間の記事一覧

「対角化の計算はできるんだけど、何をやっているのかイマイチ腑に落ちていない」という方は読んでみて欲しい。

「対角化の計算はできるんだけど、何をやっているのかイマイチ腑に落ちていない」という方は読んでみて欲しい。 この投稿では、対角化の一連の計算がどのような意味を持つのかを説明する。 前回の基底変換に関する投稿: fakeowl.hatenablog.com を見ていな…

Reinforcement Learning for Improving Agent Design :エンジニアが忘れてはいけないことを思い出させてくれた。

David Ha, Reinforcement Learning for Improving Agent Design のメモ https://arxiv.org/abs/1810.03779 この論文では、総報酬を最大化するために、エージェント側の政策だけでなく、環境側も一緒に更新してしまおうという試みが紹介されている。 論文内の…

EPISODIC CURIOSITY THROUGH REACHABILITY のメモ

N.Savinov (Google Brain), et.al, "EPISODIC CURIOSITY THROUGH REACHABILITY" [1810.02274] Episodic Curiosity through Reachability をナナメ読みしたメモ。 概要 強化学習中に観測された状態が、過去に経験済みの状態と大きく離れているか(状態間を移…