KPPT型評価関数のボナンザメソッドによる学習

 第28回世界コンピュータ将棋選手権の時はKP,PPを用いた2駒関係を特徴量とするの評価関数を使用していたが、選手権後からKPPT型のオーソドックスな手番付き3駒関係を特徴量とする評価関数に変更した。

 学習をし直さないといけないため、まずは手始めにボナンザメソッドから始めることとした。使用した棋譜はfloodgate上にある2015年から2017年までの棋譜のうち、レートが両者2800以上のものかつ手数が50手以上のものとした。

 1周分を回した学習曲線は次のようになった。

 f:id:tokumini:20180806100533p:plain

 損失は下がり、一致率は上がっていることから上手く学習できていることがわかる。Apery(WCSC28)の評価パラメータを読み込んで同様の条件で損失、一致率を計算すると損失は120台中盤、一致率は38%ほどとなる。Apery(WCSC28)からするとレートの低いソフトの対局も含まれているため一致率などは不当に低くなっている可能性もあるが、目安としてこの程度まで高めることができるものと考えられる。

 学習させたものを1手1秒でWCSC28と対局させた結果が以下のようになる。

対局数 勝ち 引き分け 負け
2164 1272 42 850

 引き分けを0.5勝として勝率は約59.75%、Eloレート差にして68.6となった。

 探索部の改善も多少あるとはいえ、1周回しただけでWCSC28版を超える結果となりKPPTの優秀さが伺える。

 評価関数の形式を上位ソフトと揃えたためAperyややねうら王などの評価パラメータも読み込めるようになった。正確な検証はしていないが、これらのパラメータで対局を行うとWCSC28版に十数局の段階では無敗だったため、評価関数だけの伸びしろとしてもそこまではあると思われる。