要約 は2.5としたとき一番性能が良かった。 背景 今までMiacisは探索の選択ステップにおいてScience版AlphaZeroと同様の係数を用いていた。 $$ a_t = \mathrm{argmax}_a \left( Q(s_t, a) + C(s) P(s, a) \frac{\sqrt{N(s)}}{1 + N(s, a)} \right) $$ $$ C(s…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。