Miacis WCSOC2020版 - 水たまり

　世界コンピュータ将棋選手権のオンライン大会（WCSOC）に向けて、これ以上レートが伸びそうにないのでここで結果をまとめておきます。

実行ファイル

　Windows向け実行ファイルをGitHubで公開しています。

　CPU版

　GPU版

　CPU版はNPS50くらいしか出ないのでほぼお試し用です。GPU版もWindowsではなぜかNPSが低く、手元では3,000くらいしか出ませんでした(コンパイル時に最適化を上手くかけられていない気がします)。Ubuntu 18.04では16,000くらい出るのでUbuntu推奨です。Ubuntuでの実行ファイルは……自分でビルドしていただく方針で(README.md参照)。

最終的に行った実験

学習

　ランダムに初期化したパラメータからAlphaZeroと同様の形式で強化学習

項目	値
バッチサイズ	512
学習ステップ数	2,000,000
データ生成速度	112.2 局面 / 秒
1ステップあたりの生成量	128 局面
学習率	0.025(1Mステップ時点で1/10、1.5Mステップ時点でさらに1/10)
リプレイバッファサイズ	$2^{20}$ 局面
1局面の探索回数	800
マシン	2080ti × 2搭載
学習時間	672時間32分 (=28日)