週記 20231225~20231231

週記

今週は実装を進めようとしていたが、思ったようには進まなかった。目標としている変更は、DQNをベースとしてネットワークを過去系列を入力に含むTransformerに変える上に伴って、ReplayBufferも系列として情報をサンプリングできるものに変えるそうする…

2023-12-24

週記 20231218~20231224

週記

読んだ本今井むつみ,秋田喜美『言語の本質-ことばはどう生まれ、進化したか』言語学には特に詳しくないし思想も持っていないのでオノマトペについて語られるあれこれは素直にそう思える。個人的に興味を惹かれたのはアブダクション推論部分についての仮…

2023-12-19

断想：系列入力ベースの強化学習

最近は状態や報酬などを系列データとして扱う強化学習に興味が出ている。端的に言えばDecision Transformer1 のことになる。特に、エピソードをまたいだ(across-episodicな)長い系列を入れることに可能性を感じる。着目点は違うが、やっていることとしてはA…

2023-12-17

週記 20231211~20231217

週記

今週はDecision Transformerの実装をしていたが、あまり上手くいっていない。題材としては先週と同じで丸をクリックさせるタスクをやっており、ランダムエージェントで動かした100MステップのデータからDecision Transformerを学習させて、Returnに応じた方…

2023-12-10

週記 20231204~20231210

週記

今週からGUI操作のプログラミングを始めている。今週やったこと結局、機械にGUIを直接いじってもらうのがわかりやすいなという考えになって、GUIを操作させるプログラムを書いている。当面の目標としては「スクリーンショットを入力、マウス操作を出力と…

2023-12-03

週記 20231127~20231203

週記

あまり好ましくない業務が今週にまで食い込んでいたが、なんとかやりきったと思う。いや、若干不穏なところはいくらかあるが……。1年前から考えると状況は良くなっているのに、それでもこんなもんかという気持ちにはなってしまう。 DPO 週の特に前半でDPOの論…

2023-11-30

Direct Preference Optimizationを読む（その2）

論文

その1 でDPOの損失関数が導出できたので、この関数の性質を分析してみます。勾配がどうなっているかまず微分してみます。整理するためにと置きます。後にこれは暗黙の報酬モデルであることが明らかになりますが、それはさておいて、まずは勾配を求めます…

2023-11-29

Direct Preference Optimizationを読む（その1）

論文

Direct Preference Optimizationという手法があるらしいです。 LLM訓練の最終段ではRLHF(Reinforcement Learning from Human Feedback)として、人手で良し悪しを評価してあるデータセットを使って(1)報酬モデルの学習 (2)それを用いた強化学習ということが…

2023-11-26

週記 202311120~20231126

週記

今週も一瞬だっった。どうしてこんなに早く過ぎ去ってしまったんだっけ。木曜日も休みだったはずなのに。だいたい本を読んでいる時間が長かった気がする。プログラミングをやる気がさっぱり起きず、将棋拡散モデルについては一切触れていない。断想この土…

2023-11-19

週記 202311113~20231119

週記

業務の方でいろいろ忙しい（？）せいで一週間があっという間だった。厳しい。拡散モデル (1)手駒まで生成できるようにした。まぁこれはやるだけではあるんだけど、手駒の表現をどうするかという問題は若干あり、今は各持ち駒に1トークンを割り当てている。…

2023-11-17

内発報酬だけで勝ちを目指せるのか断想

ボードゲームで（ここでは具体的に将棋で）、最終的な勝ち・引き分け・負けに(+1, 0, -1)とか、(+1, 0.5, 0)とか、報酬を割り当てて最大化目指して強化学習するのがある程度上手くいくのはわかる。そういう明示的な報酬を与えずに、内発報酬のようなものだけ…

2023-11-12

週記 202311106~20231112

週記

平日の5日中で4回も出社してしまったのもあって、疲労感も強く、一週間があっという間に過ぎ去った感覚になっている。拡散モデル以下の論文のアイデアが良さそうと感じており、自動運転向けの将来点群分布の行動条件付予測に離散化拡散モデルを利用。精度…

2023-11-05

週記 20231030~20231105

週記

今週は全然やる気が出なかった。業務も来週からちょっと嫌だな〜と思っている内容が始まるので緩やかに憂鬱だ。 3連休もゲームばかりしていたのでゲームの話しかできない。ゲームリバース：1999 最近、ダークファンタジーよりのアプリゲームがわりと流行っ…

2023-10-29

週記 20231023~20231029

週記

業務の方はあまり面白い話がなく、やや停滞感がある。やることも今まではとはちょっと違う方向になりそうな雰囲気もあり、どうなんだろう。なんにでも興味をもってやれる方が良いのはそうだけど、現実的にはねぇ。 LLMで多腕バンディット先週からちょっとず…

2023-10-25

ChatGPTでMulti-Armed Banditに挑戦

背景唐突にLLMでMulti-Armed Banditを解きたくなった。全く読んでいないけれどという論文もある。ブラウザでのChatGPT4で数回試した感じだとそこそこ理屈立ててやってくれたので、ある程度やれるのではないかという期待。実装正規分布でスコアを返す3…

2023-10-22

週記 20231016~20231022

週記

今週も全体的にはやる気が出ていない。基本的に週記以外の記事を出せていない週は良くなく、今週に関してはさっき無理やり一つ出したけど……という程度。そういう調子が悪いときがもう1ヶ月以上続いている。どうにもならないな。 NeRF プルリクエストはあまり…

2023-10-22

Gaussian Splattingの細かいところ整理

Gaussian Splattingの基本的な概念は、まぁ3D空間にたくさんガウス分布を配置するのねという程度にはわかるが、細かいところとして以下の2点が疑問になっていた。色はどのようにつけるのか？論文では球面調和関数（Spherical Harmonics）の係数を保持する…

2023-10-15

週記 20231009~20231015

週記

月曜日休みだったし、出社も多くなかったのに、なんか疲労感がある。 TPE NDTによる初期Pose推定にTPEを使うプルリクエストがマージされた。あまり完成度には満足していない。Yaw角だけで一周するという性質を考慮させる部分が理論的に変なはずだし、一様分…

2023-10-08

週記 20231002~20231008

週記

NeRF NeRFベース自己位置推定をautoware.universeに統合する作業をしていた。差分が大きいのでまともなやり方ではマージされないだろうなぁ。精度も十分ではないので、もうちょっと開発が進んでからでも良いのかもしれない。このブランチを育てることになる…

2023-10-01

週記 20230925~20231001

週記

NeRF F2-NeRFをだいぶリファクタリングしていた。もう全然原形を留めていない。そろそろリポジトリも移し替える時期になってきていそう。外部ライブラリへの依存が減り、使っているのがLibTorch、OpenCV、Eigen、gtsamあたりなので、LibTorch以外はかなり許…

2023-09-24

週記 20230918~20230924

週記

今週もあまり作業できないままだった。 NeRF 他の手法（neuralsim）をちょっと確認したくらい。学習にLiDARも使ったり、車特有の事情を考慮したり、そりゃそういう工夫をすればF2-NeRFをそのまま使うよりかは3次元再構成も上手くできるだろう。それを移植し…

2023-09-17

週記 20230911~20230917

週記

今週も調子は良くなかった。モチベーションが上がってこない。 NeRF 水曜日に有給休暇取って作業して、ここまで性能が出ることを確認できたところで結構満足してしまった。もちろんやろうと思えばこの先もいろいろあるんだけど、目標を失っている。どうせオ…

2023-09-13

NeRFベース自己位置推定をAutowareと合わせて動かす

概要 Autowareのlogging_simulatorを使って、ARタグベース自己位置推定向けに公開されているデータを使ってNeRFベース自己位置推定を動かした。AWSIMの環境変化が少ないデータでなら、ある程度の精度が出せるようになってきた。背景先日、AutowareのARタグ…

2023-09-10

週記 20230904~20230910

週記

今週はずっと調子が悪かった。というか、AHC023とアーマードコア6に時間を取られていた。なのでNeRFも世界モデルも特に進捗なし。遊びの週だったな。 AHC023 難しかった。それなりに時間をかけたのにさっぱりスコアが伸びなかった。できれば振り返りまでして…

2023-09-03

週記 20230828~20230903

週記

今週は身体的に大変な業務があって疲労していた。アーマードコアに時間を取られているところもあり、やはり世界モデルは特に触れていない。 NeRF Zip-NeRFは読んだけれども、思ったより簡単に実装できそうな内容でもなかった。これはかなり苦労することにな…

2023-09-02

Zip-NeRFを読んだメモ

論文

主な工夫は2点 Instant-NGPにMip-NeRFの円錐での光線キャスティングを組み込んだ Mip-NeRF360で導入したproposal MLPの学習損失に良くないところがあったので改良した工夫1. Instant-NGPへの円錐光線キャスティング導入前提として、まずMip-NeRFでやってい…