2021-03-01から1ヶ月間の記事一覧

教師あり学習 + 強化学習

要約 教師あり学習(300万ステップ)の後に強化学習(10万ステップ)を行うことでR+50.5、さらにもう一度強化学習(10万ステップ)を行うことでR+61.9。floodgateでレート3800ほどになった。 学習の全体 ランダムパラメータから始めて、以下の3つをこの順に行った…

ランダムパラメータからの強化学習

TensorRTなどの高速化も導入したので、ランダムパラメータからの強化学習をやり直した。 実験設定 いつも通り、細かい差異はあれど基本的にはAlphaZeroと同様の設定。 使用パソコン CPU:Intel Core i9-9900K @ 3.6GHz(8core 16thread) メモリ:32GB GPU:RTX 2…