256chでの教師あり学習

　普段使っているネットワークがそこまで大きくはないのでもっと大きいネットワークを試したいと思って実験したが、ブログを見るとほとんど同じような実験を以前にもしていた。自分で書いた記事を自分で忘れている。

　上の記事と同様に、普段128chである残差ブロック中のCNNを256chに増やして学習を行った。学習データはAobaZeroの棋譜、検証データはfloodgate2015年の棋譜を使っている。

　上の記事では1,000,000ステップしか学習を回していないところを、今回は3倍の3,000,000ステップまで回した。学習率の減衰は0.6Mステップごとに1/10にする形で行った。つまり学習が終わるまでに等間隔で計4回減衰が発生する。

f:id:tokumini:20210128104326p:plain

　Policyの検証損失はほぼ変わらない。が、点線の方であるtrain損失ではそこそこ差がある点は気になる。AobaZero棋譜への適応はチャンネル数を増やした分良くなったが、floodgateの棋譜はまた性質が異なるので検証損失は伸びなかったと解釈するのが普通だろうか。

f:id:tokumini:20210128104333p:plain

　NPSは128chのとき8100.6、256chのとき5457.6

　探索深さにやや差が出ているのは気になるが、偶然の範囲内かどうか。

~/Miacis/scripts/vsYaneuraOu.py --time1=250 --time2=250 --NodesLimit=400000 --game_num=1000

f:id:tokumini:20210128104318p:plain

　なぜか128chは途中からしか計測していなかったが、まぁ学習序盤はどうせ弱いのでどうでもいいだろう。

　最終的な対局による性能はほとんど変わらなかった。NPSの低下とValueの精度向上がちょうど打ち消し合うくらいだったということだろう。冒頭の記事でもだいたい同じ感じだったので128ch ~ 192ch ~ 256chでは同じ持ち時間での性能はほとんど変わらないというのがここまでの結果になる。

　では結局どのチャンネル数が良いかというと、それぞれのメリットを考えると

（三番目の根拠についてはMuZeroの論文のFigure.3)

f:id:tokumini:20210128114702p:plain

という感じなので、大雑把にいろいろ実験するなら128ch、最高性能を目指すなら256chという感覚。