論文
概要 後方観測的実装によるTD(λ)法を、ニューラルネットワークによる関数近似器と同時に使うといくつか問題が生じます。この論文では特に、非線形関数近似による方策評価では、TD(λ)によって維持されるトレースベクトルが古くなり、状態価値の更新が後方観測…
Action Value Gradientという手法を提案している論文があり、NeurIPS 2024に通っている。 https://openreview.net/forum?id=DX5GUwMFFb 基本的にはSoft Actor-Critic(SAC)を拡張した手法であり、リプレイバッファやバッチ更新を行わないオンライン強化学習の…
最近いろいろ考えていると、結局、計算資源貧者としては、既存のものをFine-Tuningするということになるのだろうなぁと感じる。 そうなるとVision-and-Languageモデルから派生して行動を取れるようにする、Vision-Language-Actionモデルとして使うのが一番実…
https://arxiv.org/abs/2411.15139 概要 自動運転のPolicy(軌跡出力)として拡散モデルを使うことを考える。 既存手法と合わせて分類すると以下のようになる。 (a) 一つの軌跡を回帰する(Transfuser, UniAD, VAD) (b) 予め用意した軌跡候補から選択する(VAD…
強化学習モデルの中で、過去の長い系列を用いるようにすると、リプレイバッファからサンプリングするというのもやや大変になる。オンライン的に学習できるならそれに越したことはない。そのような方法の調査として一つ論文を見つけたので内容をまとめる。 導…
位置エンコーディングを工夫することで従来より軽量なTransformerで強くすることができたのことなので読んでみる。著者が「The Leela Chess Zero Team」という肩書なのでそこまで雑な検証で言っているわけでもないだろうという読み。 コードも公開されている…
※ このブログ記事筆者の理解・説明には誤りが含まれている可能性があります 以下の論文を読む。今回はSection 3から5あたりの、SSMとAttentionの双対性についての記述を読解する。 特に断りのない限り、式番号や画像番号は上記論文に合わせる。 概要 状態空…
メトロポリス・ヘイスティングス名付けゲームが気になったので読んだ。 概要 まずは図1を見て概要を把握する。 二者間でだいたい同じものを見ている(共同注意)という前提のもと、明示的なフィードバックなしでサインの授受だけをして、メトロポリス・ヘイ…
実験の結果が Atari 100k ベンチマークで、Human Normalized ScoreのIQM(26ゲーム中の上位25%と下位25%を除いた中間50%ゲームについての平均スコア)が1.045 学習時間は6 hours on single GPU とのことであり、魅力的。 Max Schwarzer氏(Google DeepMind)…
以下の2つの論文を比較する。 Transformers are Sample-Efficient World Models Transformer-based World Models Are Happy With 100k Interactions 共通点としてどちらも Transformerベースで世界モデルを学習するタイプの強化学習手法である Atari 100kベ…
その1 でDPOの損失関数 が導出できたので、この関数の性質を分析してみます。 勾配がどうなっているか まず微分してみます。整理するために と置きます。後にこれは暗黙の報酬モデルであることが明らかになりますが、それはさておいて、まずは勾配を求めます…
Direct Preference Optimizationという手法があるらしいです。 LLM訓練の最終段ではRLHF(Reinforcement Learning from Human Feedback)として、人手で良し悪しを評価してあるデータセットを使って(1)報酬モデルの学習 (2)それを用いた強化学習 ということが…
主な工夫は2点 Instant-NGPにMip-NeRFの円錐での光線キャスティングを組み込んだ Mip-NeRF360で導入したproposal MLPの学習損失に良くないところがあったので改良した 工夫1. Instant-NGPへの円錐光線キャスティング導入 前提として、まずMip-NeRFでやってい…
NeRFのうち、いくつかの手法はカメラPoseについても勾配が繋がっているので、それを勾配法で最適化したくなるのは自然な気持ちである。 しかし、理屈として勾配が繋がっているのはわかるが、実装的にはどうするんじゃいという話がすぐにはわからない。特に、…
主な工夫は3つ 空間のWarping オンライン蒸留 新しい正則化項 1. 空間のWarping 遠いところをNeRFが扱える空間に持ってくるために、無限遠を一定球内に潰してくるようなWarpingを考える。 Figure 2 をの滑らかな座標変換関数とする。具体的には とする。 Mip…
出典 概要 現状の自動運転はPerception, Prediction, Planningといったモジュール化されたタスクに分解して実現することが多いが、これだと情報伝達のインターフェース部分で情報が落ちてしまう。この論文では、ある程度モジュール化はしつつ、それらをTrans…
出典 メモ やっていること RGB-DカメラをもとにSLAMを行う(この際に使うSLAMはRtab map*1) SLAMをやるときに得た画像を、LSeg*2にかけて特徴量を得て、Depthを使って上面図に投影する 投影したマップと単語の埋め込みの類似度を計算することで、好きな単語…
たとえば動画的な連続フレームをRNNなどの時系列予測モデルに入力してその先を予測させたいということは環境モデルを考えているとよくある。 その場合、H×W×C的なデータを できるだけそのままH×W×Cで扱う(ConvLSTMなど) 256次元など1軸にflattenして扱う …
概要 テキストをレンダリングして画像化してTransformerに入力する方法でも、簡単なVisual Question Answeringなどではある程度性能出るらしい。 基本的にはCLIPと似た形式で対比学習をする。Figure 1を見るのが早い。 所感 自然言語も画像として扱おうとい…
出典 概要 Discrete autoencoderでRGB画像を埋め込み、自己回帰Transformerで世界モデルとして学習させる。 Atariゲームにおける2時間分のプレイデータで、10ゲーム/26ゲームにおいて人間のスコアに達した。 メモ 実環境との作用経験はモデルの学習にしか使…
画像と言語を一つのモデルで扱うマルチモーダルモデルについての研究。 特に、追加の学習をせずにFew-shotの例示で新規問題へ適応することを重視しているらしい。 記事 最近ありがちな、実利用時に数個のプロンプト的な例示を行うとそういうタスクが解ける的…
概要 Transformerに与える系列に対して、記憶が有効である期限を事前に計算し、不要な記憶は捨てていくような機構を導入する。 提案手法 前提として、毎回のタイムステップで、表現ベクトルがやってくる。これをTransformerで処理して、過去の情報を考慮しつ…
なんかoralは上手く反応しないのでPosterだけ。AbstだけGoogle翻訳にかけて、明らかに誤訳そうなところだけは少し手直しして貼り付けておく。結局これが手間と後で見返したとき便利さのバランスとして適当そう。 MuZero系 多くの重要な現実世界の問題には、…
出典 Abst 標準的なニューラルネットワークにおいて、計算量は入力のサイズに伴って大きくなるが、学習する問題の複雑さに対応して大きくなるわけではない。この限界を打ち破るために、PonderNetを提案する。このアルゴリズムは問題の複雑さに応じて計算量を…
(GitHubリポジトリ) 概要 自然言語の問題文を入力としてコードを出力する、競技プログラミングに似た形式のタスクについて、APPという新しいデータセットを構築した。 データセットについてGPTモデルを評価したところ、簡単な問題についてAC率が0%~4%程度で…
MCTSnetの解説は他にもある ので、そちらも参照されたし。この記事では損失計算部分にだけ注目して記述する。 arXiv版とOpenReview版は式番号が異なるので注意。OpenReview(ICLR2018)で一回Rejectになって、ICML2018に通っていて、arXivの最新版はそのICMLに…
自分用にメモを書くなら「自分の研究テーマとほぼ同じ。差分は表現ベクトルの一致具合を損失に入れるかどうかくらい」で終わり。それくらい本当にもろ被りしている。そこまで突飛なアイデアではないので当然と言えば当然でもあるが。 Miacisのrepresentation…
出典 ICML(International Conference on Machine Learning)2019に採択。 図は全て当論文から引用。 概要 ConvLSTMを積み重ねたDeep Repeated ConvLSTM(DRC)というモデルを提案。プランニングが可能なエージェントが持つ性質を提案手法も持つことを実証 導入 …
出典 この文字色の部分は当記事筆者の感想 Introduction モデルフリー強化学習手法は学習に実時間にして数週間ほどのプレイが必要 一方人間は数分でAtariゲームを学習可能 人間は行動結果の予測ができるからだと推測→モデルベース強化学習 10万タイムステッ…
出典 概要 Deep Planning Network(PlaNet)の提案 画像から環境モデルを学習 決定的および確率的遷移要素の両方を組み合わせる 潜在空間の中でマルチステップ学習を実行 潜在空間でのプランニングを行うことで高い性能 提案手法:Recurrent State Space Model …