今回は普段128chである残差ブロック中のCNNを192chに増やして学習を行った。
学習結果
どちらも学習損失では192chの方がやや良いのだが、検証損失ではそこまで差が出ていない。
学習時間はやや長くなり45時間、約二日であった。
検証対局
Miacis側0.25秒-Kristallweizen側200Kノード
192chにするとNPSも落ちるので総合的に見て棋力が向上している感じはあまりしない。しかし学習量を増やした分の影響で少しだけレートが高くなっていそうではある。
Miacis側1秒-Kristallweizen0.4秒
基本的にMiacisのパラメータはCategoricalモデルでチューニングしたものであり、Scalarモデルではもっと良いパラメータがある可能性が残されていたため、今回は特にについていくつかの値を試してみた。
勝数 | 引分数 | 負数 | 勝率 | 相対Eloレート | |
---|---|---|---|---|---|
2000 | 262 | 101 | 637 | 31.2% | -137.0 |
2500 | 159 | 76 | 341 | 34.2% | -113.7 |
3000 | 315 | 132 | 553 | 38.1% | -84.3 |
3500 | 331 | 117 | 552 | 39.0% | -78.1 |
4000 | 315 | 168 | 517 | 39.9% | -71.2 |
4500 | 309 | 153 | 538 | 38.6% | -81.0 |
MiacisではValueの学習をtanhを使い-1から1で学習していて、探索中も0から1に正規化することはなくそのまま使用しているため、正規化しているAlphaZeroに比べればは2倍になっていておかしくない。AlphaZeroでと考えると、少し大きい気はするがそんなもんかなという気もする。
最も良かった結果について、強化学習モデルとの比較をすると
勝数 | 引分数 | 負数 | 勝率 | 相対Eloレート | |
---|---|---|---|---|---|
教師あり学習モデル | 315 | 168 | 517 | 39.9% | -71.2 |
強化学習モデル | 530 | 1 | 469 | 53.0% | 21.2 |
となる。レート差は90ちょいといったところで、まだ同等というには少し遠い。
注目すべきは引分数で、極端に異なっている。入玉形を目指しやすいかどうかというあたりの差だと予想しているが、検証対局はAyaneでの自動対局で行っており棋譜も残していなかったので正確なことはまだ不明。