思考時間とレートの関係

要約

 Miacisではおおむね思考時間を2倍でレート+100となる。MCTSのスケール性もαβ探索と比べてあまり変わらないのではないか。

背景

 AlphaZeroの論文(arXiv版)には1手の思考時間とレートの関係が図で表されている(Figure 2)。以下に将棋の方だけを切り抜いたものを示す。このAlphaZeroは40,000NPSほどのものであり、基準としているソフトはelmo(1手の思考時間40msec)である。

f:id:tokumini:20190626181852p:plain

 uuunuuun氏はこの図から思考時間を10倍にするとレートが800伸びるという関係を読み取っている。対局数は少ないが実験も行われている。

 またAlphaZeroの論文(Science版)では、1手の思考時間固定ではないが、思考時間を対戦相手に比べて短くした際の勝率が棒グラフで示されている(Fig. 2B)。これは58,000NPSでの結果と書かれている(Table S4)。

f:id:tokumini:20190626172925p:plain

 将棋についてこの棒グラフの幅から勝率を読み取ってレート推移を作ったものが以下のグラフになる。

f:id:tokumini:20190626183451p:plain

 こちらでは、特に比が1/3以上の領域において、思考時間10倍でレート+160ほどとなっている。あまり伸びが良くないように思われる。

 Science版の方では比が1のとき、持ち時間3時間+1手ごとに15秒追加なのでもともと持ち時間は多めである。1手の思考時間として残り時間の1/20を使うとあったため、次のような思考時間になっている。

f:id:tokumini:20190701095624p:plain

 1/100の持ち時間でも序盤は1手数秒あり、NPS自体も上がっていることを考えると、冒頭のarXiv版論文で示されたグラフの右側にやや重なるような位置関係なのではないかと思われる。

 elmo側はエンジンで定められた持ち時間制御をそのまま用い、これは1手1秒のelmoに対して98.85%(R+773.7)だったとある(Table S5)。これらの結果から適当に縮尺を合わせて貼り付けると次のようになる(位置関係はかなり適当なのでイメージ程度に)。

f:id:tokumini:20190701145242p:plain

 もとのグラフがどのように計算して出されていたものかわからないが、スケール性に関してはやや怪しく、特に持ち時間が長くなるとそこまで伸びないのではないかと思われる。実際にarXiv版ではMCTSがαβ探索に比べて持ち時間に対するスケール性が良いのではないかという主張があったが、Science版では(私が確認した限り)なされていない。

 このような事実を念頭に置いて、自作の将棋ソフトについても思考時間とレートの関係を推定した。

実験

 前回得られたパラメータを用いて技巧2(深さ制限9, 10)と持ち時間を0.25秒、0.5秒、1秒、2秒の4種類についてそれぞれ500局対局を行った。http://www.uuunuuun.com/englishから技巧2(深さ制限9,10)のレートをそれぞれ2663, 2808として推定されたレートを次に示す。

f:id:tokumini:20190701100814p:plain

 大雑把に見積もって思考時間2倍でレート+100という結果となった。

所感

 αβ探索でも異なるソフトに対しては思考時間2倍でレート+100とある。

 C_{PUCT}など調整が不足している可能性はあるだろうが、MCTSでもαβ探索でもスケール性に関しては大差ないのではないかというのが現状の推察となる。