2023-01-01から1年間の記事一覧

週記 20231225~20231231

今週は実装を進めようとしていたが、思ったようには進まなかった。 目標としている変更は、DQNをベースとして ネットワークを過去系列を入力に含むTransformerに変える 上に伴って、ReplayBufferも系列として情報をサンプリングできるものに変える そうする…

週記 20231218~20231224

読んだ本 今井 むつみ,秋田 喜美『言語の本質-ことばはどう生まれ、進化したか』 言語学には特に詳しくないし思想も持っていないのでオノマトペについて語られるあれこれは素直にそう思える。個人的に興味を惹かれたのはアブダクション推論部分についての仮…

断想:系列入力ベースの強化学習

最近は状態や報酬などを系列データとして扱う強化学習に興味が出ている。端的に言えばDecision Transformer1 のことになる。 特に、エピソードをまたいだ(across-episodicな)長い系列を入れることに可能性を感じる。着目点は違うが、やっていることとしてはA…

週記 20231211~20231217

今週はDecision Transformerの実装をしていたが、あまり上手くいっていない。 題材としては先週と同じで丸をクリックさせるタスクをやっており、ランダムエージェントで動かした100MステップのデータからDecision Transformerを学習させて、Returnに応じた方…

週記 20231204~20231210

今週からGUI操作のプログラミングを始めている。 今週やったこと 結局、機械にGUIを直接いじってもらうのがわかりやすいなという考えになって、GUIを操作させるプログラムを書いている。 当面の目標としては「スクリーンショットを入力、マウス操作を出力と…

週記 20231127~20231203

あまり好ましくない業務が今週にまで食い込んでいたが、なんとかやりきったと思う。いや、若干不穏なところはいくらかあるが……。1年前から考えると状況は良くなっているのに、それでもこんなもんかという気持ちにはなってしまう。 DPO 週の特に前半でDPOの論…

Direct Preference Optimizationを読む(その2)

その1 でDPOの損失関数 が導出できたので、この関数の性質を分析してみます。 勾配がどうなっているか まず微分してみます。整理するために と置きます。後にこれは暗黙の報酬モデルであることが明らかになりますが、それはさておいて、まずは勾配を求めます…

Direct Preference Optimizationを読む(その1)

Direct Preference Optimizationという手法があるらしいです。 LLM訓練の最終段ではRLHF(Reinforcement Learning from Human Feedback)として、人手で良し悪しを評価してあるデータセットを使って(1)報酬モデルの学習 (2)それを用いた強化学習 ということが…

週記 202311120~20231126

今週も一瞬だっった。どうしてこんなに早く過ぎ去ってしまったんだっけ。木曜日も休みだったはずなのに。だいたい本を読んでいる時間が長かった気がする。プログラミングをやる気がさっぱり起きず、将棋拡散モデルについては一切触れていない。 断想 この土…

週記 202311113~20231119

業務の方でいろいろ忙しい(?)せいで一週間があっという間だった。厳しい。 拡散モデル (1)手駒まで生成できるようにした。 まぁこれはやるだけではあるんだけど、手駒の表現をどうするかという問題は若干あり、今は各持ち駒に1トークンを割り当てている。…

内発報酬だけで勝ちを目指せるのか断想

ボードゲームで(ここでは具体的に将棋で)、最終的な勝ち・引き分け・負けに(+1, 0, -1)とか、(+1, 0.5, 0)とか、報酬を割り当てて最大化目指して強化学習するのがある程度上手くいくのはわかる。そういう明示的な報酬を与えずに、内発報酬のようなものだけ…

週記 202311106~20231112

平日の5日中で4回も出社してしまったのもあって、疲労感も強く、一週間があっという間に過ぎ去った感覚になっている。 拡散モデル 以下の論文のアイデアが良さそうと感じており、 自動運転向けの将来点群分布の行動条件付予測に離散化拡散モデルを利用。精度…

週記 20231030~20231105

今週は全然やる気が出なかった。業務も来週からちょっと嫌だな〜と思っている内容が始まるので緩やかに憂鬱だ。 3連休もゲームばかりしていたのでゲームの話しかできない。 ゲーム リバース:1999 最近、ダークファンタジーよりのアプリゲームがわりと流行っ…

週記 20231023~20231029

業務の方はあまり面白い話がなく、やや停滞感がある。やることも今まではとはちょっと違う方向になりそうな雰囲気もあり、どうなんだろう。なんにでも興味をもってやれる方が良いのはそうだけど、現実的にはねぇ。 LLMで多腕バンディット 先週からちょっとず…

ChatGPTでMulti-Armed Banditに挑戦

背景 唐突にLLMでMulti-Armed Banditを解きたくなった。 全く読んでいないけれど という論文もある。 ブラウザでのChatGPT4で数回試した感じだとそこそこ理屈立ててやってくれたので、ある程度やれるのではないかという期待。 実装 正規分布でスコアを返す3…

週記 20231016~20231022

今週も全体的にはやる気が出ていない。基本的に週記以外の記事を出せていない週は良くなく、今週に関してはさっき無理やり一つ出したけど……という程度。そういう調子が悪いときがもう1ヶ月以上続いている。どうにもならないな。 NeRF プルリクエストはあまり…

Gaussian Splattingの細かいところ整理

Gaussian Splattingの基本的な概念は、まぁ3D空間にたくさんガウス分布を配置するのねという程度にはわかるが、細かいところとして以下の2点が疑問になっていた。 色はどのようにつけるのか? 論文では球面調和関数(Spherical Harmonics)の係数を保持する…

週記 20231009~20231015

月曜日休みだったし、出社も多くなかったのに、なんか疲労感がある。 TPE NDTによる初期Pose推定にTPEを使うプルリクエストがマージされた。あまり完成度には満足していない。Yaw角だけで一周するという性質を考慮させる部分が理論的に変なはずだし、一様分…

週記 20231002~20231008

NeRF NeRFベース自己位置推定をautoware.universeに統合する作業をしていた。 差分が大きいのでまともなやり方ではマージされないだろうなぁ。精度も十分ではないので、もうちょっと開発が進んでからでも良いのかもしれない。このブランチを育てることになる…

週記 20230925~20231001

NeRF F2-NeRFをだいぶリファクタリングしていた。もう全然原形を留めていない。そろそろリポジトリも移し替える時期になってきていそう。 外部ライブラリへの依存が減り、使っているのがLibTorch、OpenCV、Eigen、gtsamあたりなので、LibTorch以外はかなり許…

週記 20230918~20230924

今週もあまり作業できないままだった。 NeRF 他の手法(neuralsim)をちょっと確認したくらい。学習にLiDARも使ったり、車特有の事情を考慮したり、そりゃそういう工夫をすればF2-NeRFをそのまま使うよりかは3次元再構成も上手くできるだろう。それを移植し…

週記 20230911~20230917

今週も調子は良くなかった。モチベーションが上がってこない。 NeRF 水曜日に有給休暇取って作業して、ここまで性能が出ることを確認できたところで結構満足してしまった。もちろんやろうと思えばこの先もいろいろあるんだけど、目標を失っている。どうせオ…

NeRFベース自己位置推定をAutowareと合わせて動かす

概要 Autowareのlogging_simulatorを使って、ARタグベース自己位置推定向けに公開されているデータを使ってNeRFベース自己位置推定を動かした。AWSIMの環境変化が少ないデータでなら、ある程度の精度が出せるようになってきた。 背景 先日、AutowareのARタグ…

週記 20230904~20230910

今週はずっと調子が悪かった。というか、AHC023とアーマードコア6に時間を取られていた。なのでNeRFも世界モデルも特に進捗なし。遊びの週だったな。 AHC023 難しかった。それなりに時間をかけたのにさっぱりスコアが伸びなかった。できれば振り返りまでして…

週記 20230828~20230903

今週は身体的に大変な業務があって疲労していた。アーマードコアに時間を取られているところもあり、やはり世界モデルは特に触れていない。 NeRF Zip-NeRFは読んだけれども、思ったより簡単に実装できそうな内容でもなかった。これはかなり苦労することにな…

Zip-NeRFを読んだメモ

主な工夫は2点 Instant-NGPにMip-NeRFの円錐での光線キャスティングを組み込んだ Mip-NeRF360で導入したproposal MLPの学習損失に良くないところがあったので改良した 工夫1. Instant-NGPへの円錐光線キャスティング導入 前提として、まずMip-NeRFでやってい…

週記 20230821~20230827

今週はNeRFの調査・実装を中心に進めていたので世界モデル系はノータッチ。アーマードコア6が出たので時間を取られている。 NeRF 座標のWarping まずMip-NeRF 360を読んだが、自動移動走行の文脈だとどの程度必要な改造なのかはよくわからない。屋外だと空な…

向きを勾配法で最適化したいときにどうするか(NeRF)

NeRFのうち、いくつかの手法はカメラPoseについても勾配が繋がっているので、それを勾配法で最適化したくなるのは自然な気持ちである。 しかし、理屈として勾配が繋がっているのはわかるが、実装的にはどうするんじゃいという話がすぐにはわからない。特に、…

Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fieldsを読んだメモ

主な工夫は3つ 空間のWarping オンライン蒸留 新しい正則化項 1. 空間のWarping 遠いところをNeRFが扱える空間に持ってくるために、無限遠を一定球内に潰してくるようなWarpingを考える。 Figure 2 をの滑らかな座標変換関数とする。具体的には とする。 Mip…

週記 20230814~20230820

今週はあまりなにもした感じがしない。PC環境の問題とかに対処していて、具体的なアルゴリズムの実装に手を付けられていない。AHC022に時間を取られたのもある。 NeRF 先週Pose微分を実装してわりと満足してしまったのと、Pose微分があってもAWSIMデータでは…