kkp_kpptの特徴量に変えてからいくらか改良をして自己対局をさせているところですが、対局内容を見ていると相手玉を上部に逃がしても駒得だけを考慮して優勢と主張するシーンが多くみられました。まだ宣言勝ち機能を導入していないこともあり、また256手を超える自己対局は引き分けとして学習データに含めないようにしているため、これらを自己対局から学習するのは難しいのではないかと思います。
よって多少不本意ではありますが、手動でkppの玉が5段目から1段目までについて点数を付けることで改善されるのではないかと考えました。具体的には5段目以上のkを含む各kppに対してセンチポーン単位で点を加点するように直接kppパラメータに変更を加えることで、相手玉を上部に逃がすことを抑制し、また自玉は上部に逃げていくことを期待します。
pは38要素あるので、1局面についてkppは要素が足されます。つまり変更前に比べて5段目では703点、4段目では1406点、...、1段目では3515点多く評価することになります。
1手1秒で対局させました。変更後のバージョンから見た結果は次のようになります。
対局数 | 勝利数 | 引き分け数 | 敗北数 |
---|---|---|---|
721 | 344 | 75 | 302 |
引き分けを0.5勝0.5敗と考えると勝率は約52.9%で、レート差としては20.2ほどとなります。
ほんの少しですが強くなったので、この評価パラメータをベースに学習を進めていこうと思います。