前回はTDLeaf()の理屈からAlphaZeroにおいて探索した値を用いる方法を検討した。今回はそれを基に強化学習を行った結果を記す。
損失による評価
floodgate2016年・R2800以上同士の棋譜に対する損失計算によって評価を行った。
の3つの値について試してみたが、どの値についても傾向は概ね似たものとなった。
まずPolicy損失についてはとするよりも速く減少したが、最終的な値はほぼ変わらなかった。それぞれ1回しか学習を試せていないので、単純にのときの学習で良くない乱数を引いたというだけの問題かもしれない。
Value損失もまたとするよりも速く減少したが、途中から徐々に上がり始め、最終的な値は悪くなってしまった。
TDLeaf()は探索した値を使うブートストラップ手法なので、終盤から学習が進んでいき徐々に序盤へ伝播していく。実際にとした場合との場合について、1万局目に生成した対局の評価値グラフを示す。評価値は状態価値を1000倍したものであり、[-1000, 1000]の範囲で表される。
とした場合では序盤はほぼ0の値となっているが、の場合は序盤からいくらか値がついていることがわかる。
を1未満にした場合、学習初期では終盤だけが信頼度の高い教師情報によって少し学習されることになり、損失はなだらかな減り方をするものと考えられる。逆にの場合は序盤についても最終的な結果から教師情報を与えるので学習初期でも値がつくが、それが適切であるとは限らないため損失が上がってしまうのだと予想される。
最終的な性能差については、学習終わり頃の対局データを見てみたところの場合初期局面に400など大きな値がついていた。ブートストラップの影響により一度偏った値になると修正が効かないのではないかと考えられる。しかしの場合は初期局面における偏りは特に見られず、この説が正しいかどうかは疑わしい。
対局による評価
損失が本当に棋力と相関しているかどうかはわからないため、実際に1手1秒で100局対局させることで性能を評価した。で200kステップ学習したものを
- で200kステップ学習したもの
- で100kステップ学習したもの
の2つと対局させた。損失から見るとこれらは
学習内容 | Policy損失 | Value損失 |
---|---|---|
で200kステップ | 3.26 | 0.94 |
で200kステップ | 3.27 | 0.88 |
で100kステップ | 3.28 | 0.89 |
となっており、Policy損失はおおむね同じでありValue損失に差があることから一番上のものよりも下二つの方が棋力が高いと予想される。
で200kステップ学習したものから見て対局結果は次のようになった。
対戦相手 | 勝率(%) | 推測レート差 |
---|---|---|
で200kステップ | 62 | 85.0 |
で100kステップ | 73 | 172.8 |
予想に反してValue損失が大きいものが一番強い結果となった。学習が進むにつれて損失は悪化していたが性能は良くなっているようだ。またとした場合よりも性能が良くなることもわかった。
レート1200前後といったレベルでも損失が棋力を表す指標として信頼できないという事実は重大だ。自己対局はコストがかかるが、1手1秒ではなくノード数による制限などをしてでも対局から性能評価するべきかもしれない。