AobaZeroの棋譜を用いた教師あり学習 192ch

　今回は普段128chである残差ブロック中のCNNを192chに増やして学習を行った。

学習結果

f:id:tokumini:20201005082025p:plain — 左:Policy損失　右:Value損失

f:id:tokumini:20201005082029p:plain — 左:Policy損失　右:Value損失

　どちらも学習損失では192chの方がやや良いのだが、検証損失ではそこまで差が出ていない。

　学習時間はやや長くなり45時間、約二日であった。

検証対局

Miacis側0.25秒-Kristallweizen側200Kノード

f:id:tokumini:20201005082125p:plain

　192chにするとNPSも落ちるので総合的に見て棋力が向上している感じはあまりしない。しかし学習量を増やした分の影響で少しだけレートが高くなっていそうではある。

Miacis側1秒-Kristallweizen0.4秒

　基本的にMiacisのパラメータはCategoricalモデルでチューニングしたものであり、Scalarモデルではもっと良いパラメータがある可能性が残されていたため、今回は特に $C _ {PCUT}$ についていくつかの値を試してみた。

$C _ {PCUT}$	勝数	引分数	負数	勝率	相対Eloレート
2000	262	101	637	31.2%	-137.0
2500	159	76	341	34.2%	-113.7
3000	315	132	553	38.1%	-84.3
3500	331	117	552	39.0%	-78.1
4000	315	168	517	39.9%	-71.2
4500	309	153	538	38.6%	-81.0

　MiacisではValueの学習をtanhを使い-1から1で学習していて、探索中も0から1に正規化することはなくそのまま使用しているため、正規化しているAlphaZeroに比べれば $C _ {PCUT}$ は2倍になっていておかしくない。AlphaZeroで $C _ {PCUT} = 2000$ と考えると、少し大きい気はするがそんなもんかなという気もする。

　最も良かった結果について、強化学習モデルとの比較をすると

$C _ {PCUT}$	勝数	引分数	負数	勝率	相対Eloレート
教師あり学習モデル	315	168	517	39.9%	-71.2
強化学習モデル	530	1	469	53.0%	21.2

となる。レート差は90ちょいといったところで、まだ同等というには少し遠い。

　注目すべきは引分数で、極端に異なっている。入玉形を目指しやすいかどうかというあたりの差だと予想しているが、検証対局はAyaneでの自動対局で行っており棋譜も残していなかったので正確なことはまだ不明。