評価関数の追加学習2

 前回から自己対局による強化学習を行ってます。今回も前回と同じ条件で引き続き学習を継続させてみました。

 以下が学習前のパラメータに対する学習後のパラメータの対局結果となります。

モデル 対局数 勝利 引き分け 敗北 勝率
3回アップデート後 1736 828 154 754 52.1
6回アップデート後 422 206 47 169 54.4
8回アップデート後 1082 601 118 363 61.0

 8回アップデートが起きてからは勝率が5割以下でずっと推移するようになってしまったので学習を打ち切りました。

 8回アップデート時点では学習前に対してEloレート差約77.7となりました。

 強くなってはいるのですが、アップデートをかける条件が勝率55%であることを考えると、アップデート回数に対して伸びが小さいようにも見えます。100局ごとの勝率測定では誤差も大きく、強くなっていないのにアップデートがかかる場合もあることが原因なのではないかと思われますが、詳しくは不明です。

 8回アップデートしたものとWCSC28版を対局させてみました。探索部側にも変更があるので純粋な評価関数の比較とはなりませんが、現時点でのkkp_kpptでの最強バージョンとWCSC28版(kp_pp)との対局ということになります。

 1手2秒で対局させた結果(kkp_kppt視点)が以下となります。

対局数 勝利 引き分け 敗北 勝率
1075 378 47 650 37.3

 Eloレートでは約-90.2です。そこそこ強くなってきてはいるんですが、まだ足りてませんね。この段階で伸びが止まってしまったのが悩みどころです。学習時のハイパーパラメータをいじればまだ伸びるか、次元下げを導入することで伸びてくれるか、なんにせよもっと学習部をいじる必要がありそうです。