画像的なデータをどのように時系列予測可能な表現に落とすか

 たとえば動画的な連続フレームをRNNなどの時系列予測モデルに入力してその先を予測させたいということは環境モデルを考えているとよくある。

 その場合、H×W×C的なデータを

  1. できるだけそのままH×W×Cで扱う(ConvLSTMなど)
  2. 256次元など1軸にflattenして扱う

の2通りがあり得るように思う。

 このあたりをどうしているのか気になったので、最近出たDreamer V3

とAdA

についてそこだけを調べた。

Dreamer V3

 Dreamer V3は根本的に上のようなアーキテクチャになっている。

  • 入力画像からエンコードNNを通したZの方はまだH×W的な構造
  • GRUの状態であるhの方は1軸にflattenされた構造

だと思われる。

 付録Bにある記述を読むと

入力画像は4×4×CになるまでStride 2で畳み込みをどんどんかけられていき、その後flattenされGRUに渡されるようだ。

AdA

 そもそもAdAのことをちゃんと理解できていないが、どうも表現をTransformer-XLに突っ込み、その後Muesliにさらに入力して予測を重ねていくらしい?

 付録CにAgent Detailsが記載されている

  • 入力 : 72×96×3 のRGB画像
  • ネットワーク : ch数が[16, 32, 32]のResNet。各ブロックでは2×2のMaxPoolingでサイズが小さくなっていく? 最終出力は1軸の256サイズ

というわけで、この後Transformer-XLやLSTMなどが続いていくが、1軸にflattenされた表現であることには間違いなさそう。

所感

 この2つだと1軸にfalttenする方が採用されているらしい。将棋だともとから盤面サイズが9×9なので、Encoderの最後で10chくらいにすればflatten化しても810次元くらいで、ギリギリ取り扱えるだろうか。そこまでch数を減らしてPolicy, Valueの性能が落ちないのかどうかはわからない。