DeepMind の PopArt は拍子抜けするくらいシンプル．

DeepMind から、マルチタスク学習を加速するテクニックが公開されました。

論文

を読んでみると拍子抜けするほど簡単な仕組みだったため、これで性能がでるのであればエンジニアとしてはうれしいです。

コアとなる仕組みは、

で提案されている Pop-Art というテクニックで、この名前は

Pop : Preserving Outputs Precisely

Art: Adaptively Rescaling Targets

の頭字語です。

やりたいことは、価値関数ネットワークの学習時に必要なターゲットの値（実際に行動して得られた総報酬の実現値）を適当にスケーリング（Art）して、価値関数ネットワークの出力値を [-1, 1]付近に揃える、とうことです。

ただし、これを素朴にやってしまうと、価値関数のネットワークの更新が、毎回異なるターゲット値へ対応するスケーリングに振り回されてしまうため、スケーリング変換の変更分を吸収する（Pop）仕組みを入れて、学習が減速してしまうのを抑えています。

アルゴリズムは、Art --> Pop --> SGD といった感じで進めるので、実装も楽そうです。

ターゲット値（ $Y$ ）の標本平均として $\mu$ 、二乗平均として $\nu$ を、次の式で見積もります。

$\mu_t = (1 - \beta) \mu_{t-1} + \beta Y_t, \quad \nu_t = (1-\beta) \nu_{t-1} + \beta Y_t^2$

分散は $\sigma_t^2 = \nu_t - \mu_t^2$ で計算しています。

価値関数ネットワークの最終隠れ層を $h_\theta$ とすると、次のフルコネクション層（重み行列 W, バイアスベクトル b）を通った後の出力 $n_\theta$ は、

$n_\theta = W h_\theta + b$

これをスケーリング（重み $\Sigma = \sigma I$ 、バイアス $\mu$ ）して，ターゲット値に合わせるとすると

$f = \Sigma n_\theta + \nu = \Sigma (W h_\theta + b) + \nu$

ARTで作った新たなスケーリングが前段のネットワークに影響を与えないよう条件：

$\Sigma^{new} W^{new} = \Sigma W$

$\Sigma^{new} b^{new} + \mu^{new} = \Sigma b + \mu$

を科すと、 $W, b$ はスケーリング分の変化を打ち消すように

$W^{new} = (\Sigma^{new})^{-1} \Sigma W$

$b^{new} = (\Sigma^{new})^{-1} (\Sigma b + \mu - \mu^{new})$

と変えておく．

$h_\theta$ より前のネットワークは，SGDで更新すればOK.という感じです。

（タスクの数に対応した最終出力を持つ）価値関数のスケーリングと学習にPop-Art を使い，（タスクによらない）ポリシー部分の学習に使うアドバンテージ関数部分にはスケーリングされたアドバンテージを用いるというだけです。

まだ実装して試してはいませんが、非常にシンプルな方法なので、効果が出るなら流行りそうな手法だと思いました。（Simple is Best!）