要約
優先度付き経験再生はオフにした方が良さそう。
背景
比較実験でAlphaZeroの学習が妙に弱いことがわかった。
原因として優先度付き経験再生が悪さをしている可能性が考えられた。優先度付き経験再生は1年前の検証で結果が良かったので採用したのだが、実装などが大きく変わりレートも上がった現在だとかなり事情が違うかもしれない。
優先度付き経験再生は損失を基準にやっている。個のデータがリプレイバッファに格納されているとして、番目のデータ選択される確率を前回計算した損失を用いて
と計算する。とすると確率がとなるので通常のランダムサンプリングに一致する。
実験
前回の結果(の一つ)はのものであった。比較対象として新たにで各実験をやり直した。
とするとAlphaZeroにおける性能がものすごく改善され、ScalarやCategoricalでもの方が性能が良かった。ScalarやCategoricalでの改善量は微差だが、全体として優先度付き経験再生はオフにした方が良いということになる。
この点から考えてみると、でCategoricalの性能が良かったのは、Value損失の計算方法が違う影響で損失のばらつきが小さくなるなどして、優先度付き経験再生の悪影響を受けにくかったということなのかもしれない。学習中の損失を見てみると
となっており、のときはPolicy損失が改善されることがわかる。Value損失はCategoricalの場合に大きいことがわかり、これの影響である可能性は十分にある。