2018-06-04から1日間の記事一覧

評価関数の追加学習2

前回から自己対局による強化学習を行ってます。今回も前回と同じ条件で引き続き学習を継続させてみました。以下が学習前のパラメータに対する学習後のパラメータの対局結果となります。モデル対局数勝利引き分け敗北勝率 3回アップデート後 1736 828 …