2020-09-14から1日間の記事一覧

MCTSNetの学習結果（Simulation Policyの廃止）

探索系NN

以下の続き。前回はMCTSNetの学習式に従って実験したが、結果は振るわなかった。学習の挙動などを見ていて、個人的な印象としてはSimulation Policyを方策勾配法のような形で学習していくのは難しいように感じている。具体的な要因としては、特に学習序盤…