2020-05-08から1日間の記事一覧

【コンピュータオセロ3】Valueの損失を定数倍することの効果

要約オセロにおける強化学習で、損失関数のValue側のみ2倍,4倍とすることでは性能は上がらなかった。背景数日前に読んだ論文で、AlphaZero形式の学習について計算量の増加を抑えつつハイパーパラメータを上手く探索する手法が提案されていた。この手法に…