2023-12-01から1ヶ月間の記事一覧

週記 20231225~20231231

今週は実装を進めようとしていたが、思ったようには進まなかった。 目標としている変更は、DQNをベースとして ネットワークを過去系列を入力に含むTransformerに変える 上に伴って、ReplayBufferも系列として情報をサンプリングできるものに変える そうする…

週記 20231218~20231224

読んだ本 今井 むつみ,秋田 喜美『言語の本質-ことばはどう生まれ、進化したか』 言語学には特に詳しくないし思想も持っていないのでオノマトペについて語られるあれこれは素直にそう思える。個人的に興味を惹かれたのはアブダクション推論部分についての仮…

断想:系列入力ベースの強化学習

最近は状態や報酬などを系列データとして扱う強化学習に興味が出ている。端的に言えばDecision Transformer1 のことになる。 特に、エピソードをまたいだ(across-episodicな)長い系列を入れることに可能性を感じる。着目点は違うが、やっていることとしてはA…

週記 20231211~20231217

今週はDecision Transformerの実装をしていたが、あまり上手くいっていない。 題材としては先週と同じで丸をクリックさせるタスクをやっており、ランダムエージェントで動かした100MステップのデータからDecision Transformerを学習させて、Returnに応じた方…

週記 20231204~20231210

今週からGUI操作のプログラミングを始めている。 今週やったこと 結局、機械にGUIを直接いじってもらうのがわかりやすいなという考えになって、GUIを操作させるプログラムを書いている。 当面の目標としては「スクリーンショットを入力、マウス操作を出力と…

週記 20231127~20231203

あまり好ましくない業務が今週にまで食い込んでいたが、なんとかやりきったと思う。いや、若干不穏なところはいくらかあるが……。1年前から考えると状況は良くなっているのに、それでもこんなもんかという気持ちにはなってしまう。 DPO 週の特に前半でDPOの論…