AobaZeroの棋譜を用いた教師あり学習 192ch

 今回は普段128chである残差ブロック中のCNNを192chに増やして学習を行った。

学習結果

f:id:tokumini:20201005082025p:plainf:id:tokumini:20201005082029p:plain
左:Policy損失 右:Value損失

 どちらも学習損失では192chの方がやや良いのだが、検証損失ではそこまで差が出ていない。

 学習時間はやや長くなり45時間、約二日であった。

検証対局

Miacis側0.25秒-Kristallweizen側200Kノード

f:id:tokumini:20201005082125p:plain

 192chにするとNPSも落ちるので総合的に見て棋力が向上している感じはあまりしない。しかし学習量を増やした分の影響で少しだけレートが高くなっていそうではある。

Miacis側1秒-Kristallweizen0.4秒

 基本的にMiacisのパラメータはCategoricalモデルでチューニングしたものであり、Scalarモデルではもっと良いパラメータがある可能性が残されていたため、今回は特に C _ {PCUT}についていくつかの値を試してみた。

 C _ {PCUT} 勝数 引分数 負数 勝率 相対Eloレート
2000 262 101 637 31.2% -137.0
2500 159 76 341 34.2% -113.7
3000 315 132 553 38.1% -84.3
3500 331 117 552 39.0% -78.1
4000 315 168 517 39.9% -71.2
4500 309 153 538 38.6% -81.0

 MiacisではValueの学習をtanhを使い-1から1で学習していて、探索中も0から1に正規化することはなくそのまま使用しているため、正規化しているAlphaZeroに比べれば C _ {PCUT}は2倍になっていておかしくない。AlphaZeroで C _ {PCUT} = 2000と考えると、少し大きい気はするがそんなもんかなという気もする。

 最も良かった結果について、強化学習モデルとの比較をすると

 C _ {PCUT} 勝数 引分数 負数 勝率 相対Eloレート
教師あり学習モデル 315 168 517 39.9% -71.2
強化学習モデル 530 1 469 53.0% 21.2

となる。レート差は90ちょいといったところで、まだ同等というには少し遠い。

 注目すべきは引分数で、極端に異なっている。入玉形を目指しやすいかどうかというあたりの差だと予想しているが、検証対局はAyaneでの自動対局で行っており棋譜も残していなかったので正確なことはまだ不明。