MineRL
前回は、オンラインで学習できそうなことを確認した。 しかし、結局毎ステップで完全に次状態予測をしなければ、そこでの損失を行動学習に利用できない。(フローマッチングの学習自体は次状態の予測とは異なる) 次状態の生成に何回も推論をする必要がある…
前回はバッチサイズが1、およびデータのシャッフルなしで学習できることを確認した。記事の最後でstep学習にしたときバグる問題があると言っていたが、これは単純なミスですぐに修正できた。 今回はこれMineRLとのオンライン相互作用から学習できるように実…
前回はMambaを用いて時系列入力をしたときに上手く学習できることを確認した。 今回は、今後ストリーム学習(データをバッファに溜めてランダムサンプルするのではなく、その場ですぐ学習して捨てること)をするにあたって、これは (1)バッチサイズが1である…
前回、Inventoryボタンの長押し問題に対処して、行動に応じた予測ができていそうなことを確認した。 今回は、過去16ステップ分の状態・行動履歴をMamba2を使って集約させることで、長押しに対する特別な処理なしでも学習できるようになるかを実験した。 実装…
前回まで、行動(特にInventoryボタンを押すこと)が上手く生成の条件付けに反映されなくて首をひねっていたが、結果的にデータが想定していたのとちょっと違っていたことが明らかになった。 Inventoryに相当する行動が0,1のどちらかを取り、1がボタン押下で…
最近「自分の考えた最強のアーキテクチャ」を表明するのが流行っているので自分も便乗する。 まず思想として、自分は方策ネットワークを最も重視したい。結局、なにかしらの報酬を最大化する行動決定を行うという部分が一番重要で、他のあらゆるモジュールは…
週末にかけて体調を崩していたのもあり、あまりハッキリとした進捗はない。 MineRL 画像サイズを256x256 → 128x128にした 前回は、256x256サイズで35000ステップほど進むと損失が急に落ちて、なんとなく気配は感じられる画像が出てくることがわかった。しか…
前回はランダムな動作をするエージェントとVAEを動かせることを確認した。18000フレームの行動-状態(画像)のペアを得ることができるようになっている。これを何度か繰り返すことでデータセットを作れる。 これに対して、まず状態と行動から次状態を予測する…
いろいろ試してみるのにMinecraftを題材にしてみたくなったのでMineRLを導入した。Dockerコンテナで適当にライブラリを入れていくだけで無事入った。 ドキュメントにあまり明記されていない感じだったが、MineRLObtainDiamondShovel-v0 環境だと入出力は以下…