2019-07-14から1日間の記事一覧

学習中に生成した棋譜の分析

要約 生成している学習データの質が悪い可能性がある。質を高めていくために(1)価値を考慮した行動選択 (2)の調整 (3)リプレイバッファサイズの調整 などを考えていきたい。 実験 前回1Mステップの学習を行ったが、まだ収束していないようにも思えたので2Mス…