MuZeroを読んだ感想

 自分用にメモを書くなら「自分の研究テーマとほぼ同じ。差分は表現ベクトルの一致具合を損失に入れるかどうかくらい」で終わり。それくらい本当にもろ被りしている。そこまで突飛なアイデアではないので当然と言えば当然でもあるが。

 Miacisのrepresentationブランチを少し(もしかしたら一行)いじれば将棋については再現実装ができそう。少なくともFloodgateの棋譜を使った教師あり学習はできていて、手元でも真のシミュレータを用いた探索よりやや弱いくらいの結果にはなっている。

f:id:tokumini:20191122092128p:plain

 この nターン学習というのがMuZeroでは3章の冒頭で記述されている学習するステップ数 K。論文中では K = 5として実験していたようで、学習時間の兼ね合いとかも考えてまぁそれくらいがちょうど良いかなという感覚も一致する。

 そこまでデータが多くもない教師あり学習でこの程度の性能が出るのだから、強化学習を真剣に回せば真のシミュレータに遜色ないくらい強くなるという結果も不思議ではない。Figure 3(A)で20秒を超えるとたしかに真のシミュレータに負け始めるようだけど、そこまではむしろ真のシミュレータより強いわけで、そんなに上手くいくのかと感嘆するばかり。(本題からは外れるが真のシミュレータを使った場合のグラフも興味深く、思考時間の伸びによるレートの上昇がMiacisより高いように見える。やっぱり今のMiacisの探索部はどこかおかしいのかなぁという気にもなった。)

 遷移部分のアーキテクチャはエンコーダ部分と同じ(4章Resultの2段落目)って残差ブロック16個ということか、それは大きいなぁとは思った。「遷移が小さいネットワークで実現できれば高速化に繋がる」というのが最初このテーマをやろうと思ったきっかけだったので、そこに巨大ネットワークが必要ならあまり高速化という嬉しさはないか。

 実験結果については本当に想定通りという感じで、Atariゲームでも(かなり穏やかではあるが)探索した方が性能が上がるという結果になっているし、すごいなぁという感じ。

 まぁなんというかAlphaZeroの進化方向としては自然なものだと思うし、それを本家の人たちがきっちりやったというのは良いことなのではないか。自分の研究テーマが潰れたのは痛いが、こういうリスクがあると認識しつつ選んだことではあるので。

 この研究を手法として素朴に発展させるなら遷移部分の確率化とかによって不完全情報性とか不確定性へ対処していく方向になるのかなと思うが、やや自分の興味から外れる感じもあるので自分からそれに手を付けることはないかもしれない。結局MuZeroが将棋でSOTAを更新したわけではないし、MuZero Reanalyzeでサンプル効率は上がるらしいが実学習時間はやっぱり大きいままだろうし、少ない計算資源でもなんとかやっていく方向でとりあえずは考えたい。