2018-10-11から1日間の記事一覧
David Ha, Reinforcement Learning for Improving Agent Design のメモ https://arxiv.org/abs/1810.03779 この論文では、総報酬を最大化するために、エージェント側の政策だけでなく、環境側も一緒に更新してしまおうという試みが紹介されている。 論文内の…
David Ha, Reinforcement Learning for Improving Agent Design のメモ https://arxiv.org/abs/1810.03779 この論文では、総報酬を最大化するために、エージェント側の政策だけでなく、環境側も一緒に更新してしまおうという試みが紹介されている。 論文内の…