2024-01-01から1年間の記事一覧
前回は、オンラインで学習できそうなことを確認した。 しかし、結局毎ステップで完全に次状態予測をしなければ、そこでの損失を行動学習に利用できない。(フローマッチングの学習自体は次状態の予測とは異なる) 次状態の生成に何回も推論をする必要がある…
前回はバッチサイズが1、およびデータのシャッフルなしで学習できることを確認した。記事の最後でstep学習にしたときバグる問題があると言っていたが、これは単純なミスですぐに修正できた。 今回はこれMineRLとのオンライン相互作用から学習できるように実…
前回は、価値関数について「前方観測と後方観測は1エピソードでの更新量の和が一致するのではないか」ということを追った。 Sutton, Barto『強化学習(第2版)』の第13章 方策勾配法 p.296では、アクタークリティックに対しても同じように適格度トレースを適用…
※内容が合っている保証は全くありません。 前方観測 価値関数が重みベクトル で関数近似されているものとする。 ステップ収益を考える。 これらを ] を使って重み付けして足し合わせた 収益を考える。 これをターゲットとして重みの更新を考えると、更新され…
前回はMambaを用いて時系列入力をしたときに上手く学習できることを確認した。 今回は、今後ストリーム学習(データをバッファに溜めてランダムサンプルするのではなく、その場ですぐ学習して捨てること)をするにあたって、これは (1)バッチサイズが1である…
強化学習モデルの中で、過去の長い系列を用いるようにすると、リプレイバッファからサンプリングするというのもやや大変になる。オンライン的に学習できるならそれに越したことはない。そのような方法の調査として一つ論文を見つけたので内容をまとめる。 導…
前回、Inventoryボタンの長押し問題に対処して、行動に応じた予測ができていそうなことを確認した。 今回は、過去16ステップ分の状態・行動履歴をMamba2を使って集約させることで、長押しに対する特別な処理なしでも学習できるようになるかを実験した。 実装…
前回まで、行動(特にInventoryボタンを押すこと)が上手く生成の条件付けに反映されなくて首をひねっていたが、結果的にデータが想定していたのとちょっと違っていたことが明らかになった。 Inventoryに相当する行動が0,1のどちらかを取り、1がボタン押下で…
最近「自分の考えた最強のアーキテクチャ」を表明するのが流行っているので自分も便乗する。 まず思想として、自分は方策ネットワークを最も重視したい。結局、なにかしらの報酬を最大化する行動決定を行うという部分が一番重要で、他のあらゆるモジュールは…
直線Flow Matchingの実装 ちょうど山岡さんもやっていたのでかなり真似して直線Flow Matchingの実装およびMNIST~STL10データでの学習を行った。 両端を固定しているわけではない、かつReFlowは行っていないので、これをRectified Flowと呼ぶべきなのかどうか…
週末にかけて体調を崩していたのもあり、あまりハッキリとした進捗はない。 MineRL 画像サイズを256x256 → 128x128にした 前回は、256x256サイズで35000ステップほど進むと損失が急に落ちて、なんとなく気配は感じられる画像が出てくることがわかった。しか…
前回はランダムな動作をするエージェントとVAEを動かせることを確認した。18000フレームの行動-状態(画像)のペアを得ることができるようになっている。これを何度か繰り返すことでデータセットを作れる。 これに対して、まず状態と行動から次状態を予測する…
いろいろ試してみるのにMinecraftを題材にしてみたくなったのでMineRLを導入した。Dockerコンテナで適当にライブラリを入れていくだけで無事入った。 ドキュメントにあまり明記されていない感じだったが、MineRLObtainDiamondShovel-v0 環境だと入出力は以下…
位置エンコーディングを工夫することで従来より軽量なTransformerで強くすることができたのことなので読んでみる。著者が「The Leela Chess Zero Team」という肩書なのでそこまで雑な検証で言っているわけでもないだろうという読み。 コードも公開されている…
『コンピュータビジョン最前線 Autumn 2024』を読んだら正規化フローの話が載っていたので、そこから気になって拡散モデルおよびフローマッチング周りの話を漁っていた。論文読むというよりは、解説をしてくれているWebページとかを探し回った。 フロー系の…
最近、ややモチベーションが落ち気味なのもあって、具体的な作業をやる道筋も立たず、ぼんやりと方向性を考えるようなことに時間を使っている。いくらか本などを読んだのでそれに触れながら文章として書き残す。 哲学探求(鬼界彰夫訳) 言語モデルとか、言…
結果 暫定439位。 様々な事情からあまり時間が取れず、計10時間もいかないくらい。 考察 案1 : いくつか固定 いくつかのノードをBの前半 LB - 1 個に固定して、一番最後のところだけを進みたいノードに入れ替えつつ最短経路を進んでいく。当然のようにスコア…
Advances in Preference-based Reinforcement Learning: A Review 強化学習の問題点の一つとして報酬関数の設計がパフォーマンスに大きく影響してしまう点がある。PbRLでは、絶対的なスコアでの報酬ではなくペアの良し悪しという形で暗黙的な報酬信号を用い…
論文1 : Decision-RWKV この論文ではLifelong Learningの問題に対してDecision-RWKVを使って対処しようとしている。Decision-RWKV自体の理解もしたいとはいえちょっと後回しにして、まずは「2.4 Related Work on Lifelong Robot Learning」に触れる。ここで…
あまりの惨敗だったので久しぶりに復習。 レートに上向き矢印が付いたことで1700台から1600台へ落ちることに降格感が強く出るようになっている。 D - AtCoder Janken 3 補足みたいなケースになかなか気づかなくてWAを何回か出してしまった。どうすれば察知で…
Dockerイメージが準備されているのでそれを使ってみる。 ドキュメントの通りに進めると $ docker run -it --rm --net=host --ipc=host --pid=host --gpus all -e=DISPLAY -e=ROS_DOMAIN_ID -v $(realpath config):/glim/config koide3/glim_ros2:humble_cuda…
順位 172nd / 1743 パフォーマンス 1854 レーティング 1992 → 2003 (+11) Highest更新! 段級位 1 級 → 初段 上手く出来たという感触はなく、ギリギリなんとか乗っかった。そもそも2回前のAHCまで調子がよくレートが伸びて黄色まで残り+9になっていたが、AHC…
前回で空モデルが直ってある程度の推論が回せるようになった。なのでrosbag形式のデータから学習を回していけるように整えていく。 データとしてはいつものAWSIMて取った西新宿データを使う。まだカメラが信号機認識用の前方1台分しかないのであまりちゃんと…
前回は歪み補正の問題を解消して10シーン分の検証を行い、まず空モデルの回転方向のバグ修正に取り組む方針を決めた。 空モデルの修正 前回のシーン008がわかりやすかったので再掲。 主に空部分を担当する空モデルが、自車の回転に伴って変な方向に回転して…
前回は一つのデータで動かせたものの、歪み補正の扱いが間違っていたり、それに伴ってPSNRの計算が正常でないなどの問題があった。 今回は歪み補正の問題を修正し、10シーン分について動かした。 歪み補正 WayveScenes101データセットの画像は基本的に歪みが…
つい先日、WayveからWayveScenes101データセットというものが出た。 都市、郊外、高速道路など様々な条件での101シーンが含まれており、各シーンでは 5台のカメラ画像がカメラの内部パラメータ・Poseつきである 1シーン20秒 各カメラ画像は10Hz(つまり200枚…
※ このブログ記事筆者の理解・説明には誤りが含まれている可能性があります 以下の論文を読む。今回はSection 3から5あたりの、SSMとAttentionの双対性についての記述を読解する。 特に断りのない限り、式番号や画像番号は上記論文に合わせる。 概要 状態空…
前回 今週は自前データで動かそうとしている。AWSIMで取ったデータから、カメラ画像とそのときのPoseを取得し、それをstreet-gaussians-nsに与えている。 結果 画像下部に自車の一部が写り込んでしまっているためか、進行経路あたりのフローターが多い。画像…
公開されたばかりの状態で、十分に手順が固まっているとは言い難く、気合いと勘とIssueの情報を使っていろいろやるとなんか動く。 動作結果 レンダリング結果 scripts/shells/eval.shの結果だと'psnr': 31.5と表示された。 今までパッと試せるものをいくつか…
トヨタ自動車プログラミングコンテスト2024#5(AtCoder Heuristic Contest 033) 暫定288位。「最近ヒューリスティックコンテストちょっとやれるようになってきたかな〜」という浮かれ気分を完全に破壊される凶悪な問題だった。なにもアイデアが出てこないの…