雑記（ViT実験など）

　ViTについての実験をいくつか。

10ブロック、256chを長期学習

　Google Colab Pro+を使って7日かけていつもの10倍、1.6Mステップ回した。

f:id:tokumini:20220109193154p:plain — 左: Policy損失右: Value損失

f:id:tokumini:20220109193157p:plain — 左: Policy損失右: Value損失

　Policy損失はResNet（20ブロック・256ch）より良くなる。Value側がひどい。

　速度差もあるので対局させたら多分大差だと思う。モデルが変わってしまったので対局やるのがちょっと面倒。まぁいずれやるかも。

　ResNetでの対局結果(1手1秒)

f:id:tokumini:20220110102510p:plain

Self-Attention後のMLPでチャンネル数を増やさないようにする

f:id:tokumini:20220107225700p:plain — 左: Policy損失右: Value損失

f:id:tokumini:20220107225702p:plain — 左: Policy損失右: Value損失

　露骨に精度が落ちる。

大きくする

　かなり大きくしてみる(20ブロック512ch)。

f:id:tokumini:20220107230001p:plain — 左: Policy損失右: Value損失

f:id:tokumini:20220107230003p:plain — 左: Policy損失右: Value損失

　まともに学習ができていなさそうだったので撤退。

速度の検証

手元でTensorRT変換したViTの速度表できた（学習はしてないランダムパラメータ）。一番小さいsサイズでも重めのResNetよりかなり遅い

いくらネットワーク大きくして精度良くなってもNPSが300とかではまともに探索できるわけがないと思うんだけど pic.twitter.com/iT0DBvcacN
— t (@tokumini_ss) 2022年1月8日