2024-11-01から1ヶ月間の記事一覧
前回は、オンラインで学習できそうなことを確認した。 しかし、結局毎ステップで完全に次状態予測をしなければ、そこでの損失を行動学習に利用できない。(フローマッチングの学習自体は次状態の予測とは異なる) 次状態の生成に何回も推論をする必要がある…
前回はバッチサイズが1、およびデータのシャッフルなしで学習できることを確認した。記事の最後でstep学習にしたときバグる問題があると言っていたが、これは単純なミスですぐに修正できた。 今回はこれMineRLとのオンライン相互作用から学習できるように実…
前回は、価値関数について「前方観測と後方観測は1エピソードでの更新量の和が一致するのではないか」ということを追った。 Sutton, Barto『強化学習(第2版)』の第13章 方策勾配法 p.296では、アクタークリティックに対しても同じように適格度トレースを適用…
※内容が合っている保証は全くありません。 前方観測 価値関数が重みベクトル で関数近似されているものとする。 ステップ収益を考える。 これらを ] を使って重み付けして足し合わせた 収益を考える。 これをターゲットとして重みの更新を考えると、更新され…
前回はMambaを用いて時系列入力をしたときに上手く学習できることを確認した。 今回は、今後ストリーム学習(データをバッファに溜めてランダムサンプルするのではなく、その場ですぐ学習して捨てること)をするにあたって、これは (1)バッチサイズが1である…
強化学習モデルの中で、過去の長い系列を用いるようにすると、リプレイバッファからサンプリングするというのもやや大変になる。オンライン的に学習できるならそれに越したことはない。そのような方法の調査として一つ論文を見つけたので内容をまとめる。 導…
前回、Inventoryボタンの長押し問題に対処して、行動に応じた予測ができていそうなことを確認した。 今回は、過去16ステップ分の状態・行動履歴をMamba2を使って集約させることで、長押しに対する特別な処理なしでも学習できるようになるかを実験した。 実装…