2019-05-22から1日間の記事一覧

Policyの教師信号を分布にする

要約 Policyの教師信号を探索回数の正規化した分布とした方が性能が向上した。 背景 AlphaZero型の学習においてPolicyの教師信号にはルートノードから各行動について探索した回数をその総和で割った分布を利用している。MiacisではCPUのメモリ容量が足りない…