【コンピュータオセロ4】期待値をもちいた探索

要約

　オセロに関しては分布の形状を利用した探索ではなく分布から期待値を出して通常のMCTSを行う方が性能が高い。

　前回など、カテゴリカルモデルがスカラーモデルよりも性能が悪い問題について、以下のような指摘をもらった。

一つの仮説としては、ラムダ収益の利用は終局までの手数を意識することになり、オセロでは手数は基本一定であるため分布が持つ情報が減っているのではという気がしましたが、どうなんでしょう？
— おおとかつき@AIアーティスト (@cute_na_piglets) 2020年5月8日

　特にカテゴリカルモデルで、自分なりの探索手法を入れているとこの「終局までの手数」を見る傾向が強まっているように思う。

　今行っている探索手法は、分布から現状の価値を超える確率を計算し、それをUCB計算においてボーナス項として利用するものである。こうすると、期待値が同じでも分布が両端に割れるほど優先的に探索されるため、擬似的に進行度をもとにした探索を行っていると考えられる。

　将棋ではこれが有効である結果が多い（と思っている）のだが、ゲーム性に依存する可能性は高い。よって今回は分布から期待値を出して通常のMCTSを行う方式にして、学習及びEdaxとの対局を行った。

　baselineが今までの探索手法での学習・検証、exp_searchが分布から期待値を取って通常のMCTSをやる探索での学習・検証として、Edaxとの性能を比較すると次のようになった。

f:id:tokumini:20200513100132p:plain

　exp_searchの方が高い性能となった。やはりオセロにおいては分布の形状を利用した探索が有効ではないと考えられる。

　スカラーモデルと比較すると

f:id:tokumini:20200513101102p:plain

となり、やや学習が速い、最高性能が高いという可能性はありそうだ。そこまで明確な差でもなさそうだが、もう少し検証を重ねてみたい。