Reinforcement Learning for Improving Agent Design ：エンジニアが忘れてはいけないことを思い出させてくれた。

David Ha, Reinforcement Learning for Improving Agent Design のメモ

https://arxiv.org/abs/1810.03779

この論文では、総報酬を最大化するために、エージェント側の政策だけでなく、環境側も一緒に更新してしまおうという試みが紹介されている。

論文内の例題では、二足歩行ロボットをうまく制御するというタスクと同時に、タスク達成が用意になるようにロボットのデザインを調整している。

この試みは、強化学習という定式化の枠組みからは外れているけれど、現実世界への強化学習の応用を考えると、非常に興味深い。

というか、素敵だ。

自動デザインじゃないか、これ。

こういうアイデアは、アカデミアからでなく応用現場からでて欲しいとも思うので、メーカーに務める者としては、「やられたなぁ」という感じ。

（著者は Google Brain 所属なので、アカデミアではないといえばそうなのだが・・・）

普通、強化学習の問題設定は、

与えられた環境のもとで、
エピソード終了までの総報酬を最大化するような

行動を生成する政策を見つけよ、となっている。

一方で、製品開発の現場では、目的を達成するためならば達成手段を選ばない。
満たすべき制約を満足しているならば、どんな方法を使おうが構わない。
とにかく、目的を達する製品であれば良いのだ。

その考え方からすると、目的は報酬を最大化すればよいのであって、制約条件さえ満たしていれば環境側だって最適化の対象として良い。
ある製品がより良い価値を人間に提供するのであれば、価値を増やす責任を制御方法（政策）にだけ押し付けず、製品デザインにも手を加えるのは当然だ。　
「そもそも、設計がなってないのに、制御でなんとかしろって言われてもねぇ」と制御屋さんが愚痴をこぼすのはよくあることだけど、これはそのとおりで、本来は制御屋さんと設計屋さんとが一緒になって、目的達成のための最良のデザインと制御方法とを議論すべきなのである。

この論文は、その製品開発のワイルドさ（目的達成のためには、利用可能なあらゆる手段を用いて良い。当然、制御方法以外でも改善すべきことは改善する）を思い出させてくれたし、自動デザインにもつながるアイデアであって、久しぶりに新鮮な感動を味わわせていただいた。

感謝。