2023-01-01から1年間の記事一覧
今週は実装を進めようとしていたが、思ったようには進まなかった。 目標としている変更は、DQNをベースとして ネットワークを過去系列を入力に含むTransformerに変える 上に伴って、ReplayBufferも系列として情報をサンプリングできるものに変える そうする…
読んだ本 今井 むつみ,秋田 喜美『言語の本質-ことばはどう生まれ、進化したか』 言語学には特に詳しくないし思想も持っていないのでオノマトペについて語られるあれこれは素直にそう思える。個人的に興味を惹かれたのはアブダクション推論部分についての仮…
最近は状態や報酬などを系列データとして扱う強化学習に興味が出ている。端的に言えばDecision Transformer1 のことになる。 特に、エピソードをまたいだ(across-episodicな)長い系列を入れることに可能性を感じる。着目点は違うが、やっていることとしてはA…
今週はDecision Transformerの実装をしていたが、あまり上手くいっていない。 題材としては先週と同じで丸をクリックさせるタスクをやっており、ランダムエージェントで動かした100MステップのデータからDecision Transformerを学習させて、Returnに応じた方…
今週からGUI操作のプログラミングを始めている。 今週やったこと 結局、機械にGUIを直接いじってもらうのがわかりやすいなという考えになって、GUIを操作させるプログラムを書いている。 当面の目標としては「スクリーンショットを入力、マウス操作を出力と…
あまり好ましくない業務が今週にまで食い込んでいたが、なんとかやりきったと思う。いや、若干不穏なところはいくらかあるが……。1年前から考えると状況は良くなっているのに、それでもこんなもんかという気持ちにはなってしまう。 DPO 週の特に前半でDPOの論…
その1 でDPOの損失関数 が導出できたので、この関数の性質を分析してみます。 勾配がどうなっているか まず微分してみます。整理するために と置きます。後にこれは暗黙の報酬モデルであることが明らかになりますが、それはさておいて、まずは勾配を求めます…
Direct Preference Optimizationという手法があるらしいです。 LLM訓練の最終段ではRLHF(Reinforcement Learning from Human Feedback)として、人手で良し悪しを評価してあるデータセットを使って(1)報酬モデルの学習 (2)それを用いた強化学習 ということが…
今週も一瞬だっった。どうしてこんなに早く過ぎ去ってしまったんだっけ。木曜日も休みだったはずなのに。だいたい本を読んでいる時間が長かった気がする。プログラミングをやる気がさっぱり起きず、将棋拡散モデルについては一切触れていない。 断想 この土…
業務の方でいろいろ忙しい(?)せいで一週間があっという間だった。厳しい。 拡散モデル (1)手駒まで生成できるようにした。 まぁこれはやるだけではあるんだけど、手駒の表現をどうするかという問題は若干あり、今は各持ち駒に1トークンを割り当てている。…
ボードゲームで(ここでは具体的に将棋で)、最終的な勝ち・引き分け・負けに(+1, 0, -1)とか、(+1, 0.5, 0)とか、報酬を割り当てて最大化目指して強化学習するのがある程度上手くいくのはわかる。そういう明示的な報酬を与えずに、内発報酬のようなものだけ…
平日の5日中で4回も出社してしまったのもあって、疲労感も強く、一週間があっという間に過ぎ去った感覚になっている。 拡散モデル 以下の論文のアイデアが良さそうと感じており、 自動運転向けの将来点群分布の行動条件付予測に離散化拡散モデルを利用。精度…
今週は全然やる気が出なかった。業務も来週からちょっと嫌だな〜と思っている内容が始まるので緩やかに憂鬱だ。 3連休もゲームばかりしていたのでゲームの話しかできない。 ゲーム リバース:1999 最近、ダークファンタジーよりのアプリゲームがわりと流行っ…
業務の方はあまり面白い話がなく、やや停滞感がある。やることも今まではとはちょっと違う方向になりそうな雰囲気もあり、どうなんだろう。なんにでも興味をもってやれる方が良いのはそうだけど、現実的にはねぇ。 LLMで多腕バンディット 先週からちょっとず…
背景 唐突にLLMでMulti-Armed Banditを解きたくなった。 全く読んでいないけれど という論文もある。 ブラウザでのChatGPT4で数回試した感じだとそこそこ理屈立ててやってくれたので、ある程度やれるのではないかという期待。 実装 正規分布でスコアを返す3…
今週も全体的にはやる気が出ていない。基本的に週記以外の記事を出せていない週は良くなく、今週に関してはさっき無理やり一つ出したけど……という程度。そういう調子が悪いときがもう1ヶ月以上続いている。どうにもならないな。 NeRF プルリクエストはあまり…
Gaussian Splattingの基本的な概念は、まぁ3D空間にたくさんガウス分布を配置するのねという程度にはわかるが、細かいところとして以下の2点が疑問になっていた。 色はどのようにつけるのか? 論文では球面調和関数(Spherical Harmonics)の係数を保持する…
月曜日休みだったし、出社も多くなかったのに、なんか疲労感がある。 TPE NDTによる初期Pose推定にTPEを使うプルリクエストがマージされた。あまり完成度には満足していない。Yaw角だけで一周するという性質を考慮させる部分が理論的に変なはずだし、一様分…
NeRF NeRFベース自己位置推定をautoware.universeに統合する作業をしていた。 差分が大きいのでまともなやり方ではマージされないだろうなぁ。精度も十分ではないので、もうちょっと開発が進んでからでも良いのかもしれない。このブランチを育てることになる…
NeRF F2-NeRFをだいぶリファクタリングしていた。もう全然原形を留めていない。そろそろリポジトリも移し替える時期になってきていそう。 外部ライブラリへの依存が減り、使っているのがLibTorch、OpenCV、Eigen、gtsamあたりなので、LibTorch以外はかなり許…
今週もあまり作業できないままだった。 NeRF 他の手法(neuralsim)をちょっと確認したくらい。学習にLiDARも使ったり、車特有の事情を考慮したり、そりゃそういう工夫をすればF2-NeRFをそのまま使うよりかは3次元再構成も上手くできるだろう。それを移植し…
今週も調子は良くなかった。モチベーションが上がってこない。 NeRF 水曜日に有給休暇取って作業して、ここまで性能が出ることを確認できたところで結構満足してしまった。もちろんやろうと思えばこの先もいろいろあるんだけど、目標を失っている。どうせオ…
概要 Autowareのlogging_simulatorを使って、ARタグベース自己位置推定向けに公開されているデータを使ってNeRFベース自己位置推定を動かした。AWSIMの環境変化が少ないデータでなら、ある程度の精度が出せるようになってきた。 背景 先日、AutowareのARタグ…
今週はずっと調子が悪かった。というか、AHC023とアーマードコア6に時間を取られていた。なのでNeRFも世界モデルも特に進捗なし。遊びの週だったな。 AHC023 難しかった。それなりに時間をかけたのにさっぱりスコアが伸びなかった。できれば振り返りまでして…
今週は身体的に大変な業務があって疲労していた。アーマードコアに時間を取られているところもあり、やはり世界モデルは特に触れていない。 NeRF Zip-NeRFは読んだけれども、思ったより簡単に実装できそうな内容でもなかった。これはかなり苦労することにな…
主な工夫は2点 Instant-NGPにMip-NeRFの円錐での光線キャスティングを組み込んだ Mip-NeRF360で導入したproposal MLPの学習損失に良くないところがあったので改良した 工夫1. Instant-NGPへの円錐光線キャスティング導入 前提として、まずMip-NeRFでやってい…
今週はNeRFの調査・実装を中心に進めていたので世界モデル系はノータッチ。アーマードコア6が出たので時間を取られている。 NeRF 座標のWarping まずMip-NeRF 360を読んだが、自動移動走行の文脈だとどの程度必要な改造なのかはよくわからない。屋外だと空な…
NeRFのうち、いくつかの手法はカメラPoseについても勾配が繋がっているので、それを勾配法で最適化したくなるのは自然な気持ちである。 しかし、理屈として勾配が繋がっているのはわかるが、実装的にはどうするんじゃいという話がすぐにはわからない。特に、…
主な工夫は3つ 空間のWarping オンライン蒸留 新しい正則化項 1. 空間のWarping 遠いところをNeRFが扱える空間に持ってくるために、無限遠を一定球内に潰してくるようなWarpingを考える。 Figure 2 をの滑らかな座標変換関数とする。具体的には とする。 Mip…
今週はあまりなにもした感じがしない。PC環境の問題とかに対処していて、具体的なアルゴリズムの実装に手を付けられていない。AHC022に時間を取られたのもある。 NeRF 先週Pose微分を実装してわりと満足してしまったのと、Pose微分があってもAWSIMデータでは…