論文

Emergent Communication through Metropolis-Hastings Naming Game with Deep Generative Modelsを読んだメモ

メトロポリス・ヘイスティングス名付けゲームが気になったので読んだ。 概要 まずは図1を見て概要を把握する。 二者間でだいたい同じものを見ている(共同注意)という前提のもと、明示的なフィードバックなしでサインの授受だけをして、メトロポリス・ヘイ…

Bigger, Better, Faster: Human-level Atari with human-level efficiencyを読んだメモ

実験の結果が Atari 100k ベンチマークで、Human Normalized ScoreのIQM(26ゲーム中の上位25%と下位25%を除いた中間50%ゲームについての平均スコア)が1.045 学習時間は6 hours on single GPU とのことであり、魅力的。 Max Schwarzer氏(Google DeepMind)…

Transformer系世界モデル手法IRISとTWMの比較

以下の2つの論文を比較する。 Transformers are Sample-Efficient World Models Transformer-based World Models Are Happy With 100k Interactions 共通点としてどちらも Transformerベースで世界モデルを学習するタイプの強化学習手法である Atari 100kベ…

Direct Preference Optimizationを読む(その2)

その1 でDPOの損失関数 が導出できたので、この関数の性質を分析してみます。 勾配がどうなっているか まず微分してみます。整理するために と置きます。後にこれは暗黙の報酬モデルであることが明らかになりますが、それはさておいて、まずは勾配を求めます…

Direct Preference Optimizationを読む(その1)

Direct Preference Optimizationという手法があるらしいです。 LLM訓練の最終段ではRLHF(Reinforcement Learning from Human Feedback)として、人手で良し悪しを評価してあるデータセットを使って(1)報酬モデルの学習 (2)それを用いた強化学習 ということが…

Zip-NeRFを読んだメモ

主な工夫は2点 Instant-NGPにMip-NeRFの円錐での光線キャスティングを組み込んだ Mip-NeRF360で導入したproposal MLPの学習損失に良くないところがあったので改良した 工夫1. Instant-NGPへの円錐光線キャスティング導入 前提として、まずMip-NeRFでやってい…

向きを勾配法で最適化したいときにどうするか(NeRF)

NeRFのうち、いくつかの手法はカメラPoseについても勾配が繋がっているので、それを勾配法で最適化したくなるのは自然な気持ちである。 しかし、理屈として勾配が繋がっているのはわかるが、実装的にはどうするんじゃいという話がすぐにはわからない。特に、…

Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fieldsを読んだメモ

主な工夫は3つ 空間のWarping オンライン蒸留 新しい正則化項 1. 空間のWarping 遠いところをNeRFが扱える空間に持ってくるために、無限遠を一定球内に潰してくるようなWarpingを考える。 Figure 2 をの滑らかな座標変換関数とする。具体的には とする。 Mip…

Planning-oriented Autonomous Drivingを読んだメモ

出典 概要 現状の自動運転はPerception, Prediction, Planningといったモジュール化されたタスクに分解して実現することが多いが、これだと情報伝達のインターフェース部分で情報が落ちてしまう。この論文では、ある程度モジュール化はしつつ、それらをTrans…

Visual Language Maps for Robot Navigationを読んだメモ

出典 メモ やっていること RGB-DカメラをもとにSLAMを行う(この際に使うSLAMはRtab map*1) SLAMをやるときに得た画像を、LSeg*2にかけて特徴量を得て、Depthを使って上面図に投影する 投影したマップと単語の埋め込みの類似度を計算することで、好きな単語…

画像的なデータをどのように時系列予測可能な表現に落とすか

たとえば動画的な連続フレームをRNNなどの時系列予測モデルに入力してその先を予測させたいということは環境モデルを考えているとよくある。 その場合、H×W×C的なデータを できるだけそのままH×W×Cで扱う(ConvLSTMなど) 256次元など1軸にflattenして扱う …

Image-and-Language Understanding from Pixels Onlyを読んだ感想

概要 テキストをレンダリングして画像化してTransformerに入力する方法でも、簡単なVisual Question Answeringなどではある程度性能出るらしい。 基本的にはCLIPと似た形式で対比学習をする。Figure 1を見るのが早い。 所感 自然言語も画像として扱おうとい…

Transformers are Sample Efficient World Modelsを読んだメモ

出典 概要 Discrete autoencoderでRGB画像を埋め込み、自己回帰Transformerで世界モデルとして学習させる。 Atariゲームにおける2時間分のプレイデータで、10ゲーム/26ゲームにおいて人間のスコアに達した。 メモ 実環境との作用経験はモデルの学習にしか使…

Tackling multiple tasks with a single visual language modelを読んだメモ

画像と言語を一つのモデルで扱うマルチモーダルモデルについての研究。 特に、追加の学習をせずにFew-shotの例示で新規問題へ適応することを重視しているらしい。 記事 最近ありがちな、実利用時に数個のプロンプト的な例示を行うとそういうタスクが解ける的…

Not All Memories are Created Equal: Learning to Forget by Expiringを読んだメモ

概要 Transformerに与える系列に対して、記憶が有効である期限を事前に計算し、不要な記憶は捨てていくような機構を導入する。 提案手法 前提として、毎回のタイムステップで、表現ベクトルがやってくる。これをTransformerで処理して、過去の情報を考慮しつ…

ICML2021のPoster採択論文一覧を眺める

なんかoralは上手く反応しないのでPosterだけ。AbstだけGoogle翻訳にかけて、明らかに誤訳そうなところだけは少し手直しして貼り付けておく。結局これが手間と後で見返したとき便利さのバランスとして適当そう。 MuZero系 多くの重要な現実世界の問題には、…

PonderNet: Learning to Ponderを読んだ際のメモ

出典 Abst 標準的なニューラルネットワークにおいて、計算量は入力のサイズに伴って大きくなるが、学習する問題の複雑さに対応して大きくなるわけではない。この限界を打ち破るために、PonderNetを提案する。このアルゴリズムは問題の複雑さに応じて計算量を…

Measuring Coding Challenge Competence With APPSを読んだメモ

(GitHubリポジトリ) 概要 自然言語の問題文を入力としてコードを出力する、競技プログラミングに似た形式のタスクについて、APPという新しいデータセットを構築した。 データセットについてGPTモデルを評価したところ、簡単な問題についてAC率が0%~4%程度で…

MCTSnetの損失計算部

MCTSnetの解説は他にもある ので、そちらも参照されたし。この記事では損失計算部分にだけ注目して記述する。 arXiv版とOpenReview版は式番号が異なるので注意。OpenReview(ICLR2018)で一回Rejectになって、ICML2018に通っていて、arXivの最新版はそのICMLに…

MuZeroを読んだ感想

自分用にメモを書くなら「自分の研究テーマとほぼ同じ。差分は表現ベクトルの一致具合を損失に入れるかどうかくらい」で終わり。それくらい本当にもろ被りしている。そこまで突飛なアイデアではないので当然と言えば当然でもあるが。 Miacisのrepresentation…

An Investigation of Model-Free Planningを読んだメモ

出典 ICML(International Conference on Machine Learning)2019に採択。 図は全て当論文から引用。 概要 ConvLSTMを積み重ねたDeep Repeated ConvLSTM(DRC)というモデルを提案。プランニングが可能なエージェントが持つ性質を提案手法も持つことを実証 導入 …

Model-Based Reinforcement Learning for Atariを読んだメモ

出典 この文字色の部分は当記事筆者の感想 Introduction モデルフリー強化学習手法は学習に実時間にして数週間ほどのプレイが必要 一方人間は数分でAtariゲームを学習可能 人間は行動結果の予測ができるからだと推測→モデルベース強化学習 10万タイムステッ…

Learning Latent Dynamics for Planning from Pixelsを読んだメモ

出典 概要 Deep Planning Network(PlaNet)の提案 画像から環境モデルを学習 決定的および確率的遷移要素の両方を組み合わせる 潜在空間の中でマルチステップ学習を実行 潜在空間でのプランニングを行うことで高い性能 提案手法:Recurrent State Space Model …

Imagination-Augmented Agents for Deep Reinforcement Learningを読んだメモ

出典 記事中の図は論文から引用 概要 モデルを利用して直接方策を構築するのではなく、ロールアウト結果を方策を構築する際の追加情報として利用するI2Aという手法を提案 アーキテクチャ Imagination Core 環境モデルは現在の状態と行動から次の状態、報酬を…

Value Prediction Networkを読んだ際のメモ

出典 Thirty-first Conference on Neural Information Processing Systems (NeurIPS 2017) に採択。 ※この記事の図は全て論文中のもの 概要 抽象表現での遷移を予測して内部的にプランニングを行うValue Prediction Networkを提案 短い先読みでもDQNを上回っ…

Why Does Hierarchy (Sometimes) Work So Well in Reinforcement Learning?を読んだ際のメモ

出典 読んだ理由 前回、コンピュータ将棋における現状の強化学習の課題として、特定の戦型に弱く、探索が偏っているのではないかという問題意識を持った。居飛車・振飛車のような方針からして大きく異なる戦法を探索できる必要があり、それは階層的強化学習…

DeepMDP: Learning Continuous Latent Space Models for Representation Learningを読んだ際のメモ

本当にただのメモだし意味もわからないままに式を写しているだけなので注意。特に数学の専門用語など誤訳も多そう。力のある人は自分で読んで。 出典 ICML2019に採択 概要 状態表現空間の中でのMDPとしてDeepMDPを定式化 報酬予測と次状態表現予測について適…

Temporal Difference Variational Auto-Encoderを読んだ際のメモ

出典 International Conference on Learning Representations 2019に採択。 所感 長くなってしまったので最初に所感を。 初めて読んだときはなんだかよくわからず挫折してしまったけど、4.2節あたりの気持ちをちゃんと読んでみると多少わかってきた。詳しい…

ELF OpenGo: An Analysis and Open Reimplementation of AlphaZeroを読んだ際のメモ

出典 International Conference on Machine Learning 2019に採択。arXivには2月ごろに投稿されていたので以前もちらっと読んだことはあったが、一応再確認。 概要 AlphaZeroのオープンソースによる再実験を行い、学習や推論における挙動について分析 詳細 実…

Learning Action Representations for Reinforcement Learningを読んだ際のメモ

出典 International Conference on Machine Learning 2019に採択 読んだ理由 前回に続いて行動の表現を学習する手法についてのものがICMLにあった。特に昨日の論文が行動ログから事前学習という形のものだったのに対して、より強化学習の学習ステップに明示…