MambaのInduction Heads再現

Mambaが気になったので触ってみることにした。大規模な実験を回すのは大変なので、元論文で使われていた人工的なタスクのInduction Headsをやる。 元論文 https://arxiv.org/abs/2312.00752 p.6 Figure 2 Mamba とりあえず動かしてみることを優先してMamba自…

Can large language models explore in-context?を読んだメモ

前書き 多腕バンディット問題は強化学習のとても基本的な設定だが、そこにはすでに探索と知識利用のトレードオフが存在しており、そのバランスをいかに取るかを見ることができる。MCTSなども各ノードでの行動選択はほぼ多腕バンディット問題そのものなので、…

small_gicpトライアル

まだソースコードはほとんど読んでおらず、とりあえずexampleの通りに利用する形で、速度と精度を簡単に検証する。 データ AWSIM西新宿v1.2.0を用いて、シミュレータのGTつきデータを取得した。経路は以下の通り。 点群マッチングには関係ないが、様子を把握…

MC Digital プログラミングコンテスト2024(AtCoder Heuristic Contest 031)

昨日見た時点では160位とかだった。 方針概要 シード0000 領域を縦線 or 横線で2つに分断していくこと繰り返すような操作を考える。途中まではKDTreeみたいな気持ちで、Depthが奇数のときは縦、偶数のときは横みたいにすることを意識していた。それを全日で…

転一

転職して一年経ったので振り返り。もちろん書けないことは書かないので、公開情報(つまりGitHub)を主に参照する。 まず、GitHubのアカウントはそのままのものを使っているので、だいぶContributionsに色が付くようになった。 https://github.com/SakodaShi…

Levenberg-Marquardt法あたりの実装練習

非線形最小二乗問題を解く上で、 1次近似を使う最急降下法 2次近似を使うニュートン法 ニュートン法のヘッセ行列をヤコビ行列の積で近似するガウスニュートン法 ガウスニュートン法と最急降下法を上手く混ぜるLevenberg-Marquardt法 と整理できて、これらを…

ガウス過程の実装練習

ベイズ最適化に興味がありガウス過程を学びたいと思ったので以下の本を読んだ。 ガウス過程と機械学習 (機械学習プロフェッショナルシリーズ)作者:持橋大地,大羽成征講談社Amazon 一周目なので細かい式変形は追っておらず、まず大枠の導出の流れを理解するこ…

Gaussian Splattingを試す

概要理解 流石に中身を全く理解しないままに動かして結果だけ得るのもつまらないと思って、簡単なガウス球3つをレンダリングする部分だけ簡単に実装して原理を確認した。 実装と結果 サンプル実装 from dataclasses import dataclass import torch import ro…

Emergent Communication through Metropolis-Hastings Naming Game with Deep Generative Modelsを読んだメモ

メトロポリス・ヘイスティングス名付けゲームが気になったので読んだ。 概要 まずは図1を見て概要を把握する。 二者間でだいたい同じものを見ている(共同注意)という前提のもと、明示的なフィードバックなしでサインの授受だけをして、メトロポリス・ヘイ…

AHC030復習

やったこと 解説ページにあるものを読んだ 特にwriter解を参考にして(細かい高速化などは省いて)自分なりにRustからC++に書き直し、自分の本番時より良いスコアを得る提出を実装した 理解内容 解説ページが充実しているのであえて繰り返すまでもないが、自…

AtCoder Heuristic Contest 030

暫定64位。 0086 考えたこと ソフトマックス分布を使いたい 個ある各油田について、それぞれ左上のマス位置がである確率を保持してみたい。これはについてlogitを持つSoftmax分布として表現したくなった。 この分布を持って、マップ全域について期待値を取っ…

STL-10データでFSQを試す

最近の世界モデル系手法ではVQ-VAEが当たり前のように使われているので試してみたいが、生のVQ-VAEだとcommitment lossとかentropy lossとか、様々な工夫を入れなければいけないことが気になり、そういう工夫が要らないと主張されていて内容もシンプルなFSQ…

BBFで連続的に2つのゲームを実行する

強化学習エージェントが環境の変化に対応できるかどうか、という点に興味があるため、atariゲームを連続的に切り替える設定での学習を試せるようにした。 デフォルトのatari環境では各ゲームによって有効な行動数が異なる。たとえばBreakoutだと4種類(NOOP…

読書メモ 西田洋平『人間非機械論』

西田洋平『人間非機械論 サイバネティクスが開く未来』 人間非機械論 サイバネティクスが開く未来 (講談社選書メチエ)作者:西田洋平講談社Amazon 著者多数『未来社会と「意味」の境界: 記号創発システム論/ネオ・サイバネティクス/プラグマティズム』 未来…

Bigger, Better, Faster: Human-level Atari with human-level efficiencyを読んだメモ

実験の結果が Atari 100k ベンチマークで、Human Normalized ScoreのIQM(26ゲーム中の上位25%と下位25%を除いた中間50%ゲームについての平均スコア)が1.045 学習時間は6 hours on single GPU とのことであり、魅力的。 Max Schwarzer氏(Google DeepMind)…

Bigger, Better, Fasterのコードを動かす

コードが公開されているので動かしてみる。 venvで行ったので、おおよその手順は git clone https://github.com/google-research/google-research cd bigger_better_faster python3 -m venv .env source .env/bin/activate pip3 install -r requirements.txt…

Transformer系世界モデル手法IRISとTWMの比較

以下の2つの論文を比較する。 Transformers are Sample-Efficient World Models Transformer-based World Models Are Happy With 100k Interactions 共通点としてどちらも Transformerベースで世界モデルを学習するタイプの強化学習手法である Atari 100kベ…

強化学習における自分の興味範囲

強化学習と一口に言ってもその範囲はとても広いので、自分はどこに興味があるのかを絞って考えたい。その点について改めて整理する。手法や工夫ではなく問題設定の方に着目する。 まず、究極的な目標としては「実世界で動作できる知性を実現したい」となる。…

週記 20231225~20231231

今週は実装を進めようとしていたが、思ったようには進まなかった。 目標としている変更は、DQNをベースとして ネットワークを過去系列を入力に含むTransformerに変える 上に伴って、ReplayBufferも系列として情報をサンプリングできるものに変える そうする…

週記 20231218~20231224

読んだ本 今井 むつみ,秋田 喜美『言語の本質-ことばはどう生まれ、進化したか』 言語学には特に詳しくないし思想も持っていないのでオノマトペについて語られるあれこれは素直にそう思える。個人的に興味を惹かれたのはアブダクション推論部分についての仮…

断想:系列入力ベースの強化学習

最近は状態や報酬などを系列データとして扱う強化学習に興味が出ている。端的に言えばDecision Transformer1 のことになる。 特に、エピソードをまたいだ(across-episodicな)長い系列を入れることに可能性を感じる。着目点は違うが、やっていることとしてはA…

週記 20231211~20231217

今週はDecision Transformerの実装をしていたが、あまり上手くいっていない。 題材としては先週と同じで丸をクリックさせるタスクをやっており、ランダムエージェントで動かした100MステップのデータからDecision Transformerを学習させて、Returnに応じた方…

週記 20231204~20231210

今週からGUI操作のプログラミングを始めている。 今週やったこと 結局、機械にGUIを直接いじってもらうのがわかりやすいなという考えになって、GUIを操作させるプログラムを書いている。 当面の目標としては「スクリーンショットを入力、マウス操作を出力と…

週記 20231127~20231203

あまり好ましくない業務が今週にまで食い込んでいたが、なんとかやりきったと思う。いや、若干不穏なところはいくらかあるが……。1年前から考えると状況は良くなっているのに、それでもこんなもんかという気持ちにはなってしまう。 DPO 週の特に前半でDPOの論…

Direct Preference Optimizationを読む(その2)

その1 でDPOの損失関数 が導出できたので、この関数の性質を分析してみます。 勾配がどうなっているか まず微分してみます。整理するために と置きます。後にこれは暗黙の報酬モデルであることが明らかになりますが、それはさておいて、まずは勾配を求めます…

Direct Preference Optimizationを読む(その1)

Direct Preference Optimizationという手法があるらしいです。 LLM訓練の最終段ではRLHF(Reinforcement Learning from Human Feedback)として、人手で良し悪しを評価してあるデータセットを使って(1)報酬モデルの学習 (2)それを用いた強化学習 ということが…

週記 202311120~20231126

今週も一瞬だっった。どうしてこんなに早く過ぎ去ってしまったんだっけ。木曜日も休みだったはずなのに。だいたい本を読んでいる時間が長かった気がする。プログラミングをやる気がさっぱり起きず、将棋拡散モデルについては一切触れていない。 断想 この土…

週記 202311113~20231119

業務の方でいろいろ忙しい(?)せいで一週間があっという間だった。厳しい。 拡散モデル (1)手駒まで生成できるようにした。 まぁこれはやるだけではあるんだけど、手駒の表現をどうするかという問題は若干あり、今は各持ち駒に1トークンを割り当てている。…

内発報酬だけで勝ちを目指せるのか断想

ボードゲームで(ここでは具体的に将棋で)、最終的な勝ち・引き分け・負けに(+1, 0, -1)とか、(+1, 0.5, 0)とか、報酬を割り当てて最大化目指して強化学習するのがある程度上手くいくのはわかる。そういう明示的な報酬を与えずに、内発報酬のようなものだけ…

週記 202311106~20231112

平日の5日中で4回も出社してしまったのもあって、疲労感も強く、一週間があっという間に過ぎ去った感覚になっている。 拡散モデル 以下の論文のアイデアが良さそうと感じており、 自動運転向けの将来点群分布の行動条件付予測に離散化拡散モデルを利用。精度…