2019-04-28から1日間の記事一覧

方策とディリクレノイズの比率を変更した学習

Miacisではメモリの関係上、指し手の教師信号として実際に指された手をOnehotベクトルとしたものを利用しており、そのためか方策が偏りやすい傾向にある。 AlphaZeroの学習アルゴリズムでは、各探索でルートノードにおいてディリクレノイズと元の方策の内分…