週記 20230717~20230723

　今週思ったことなど。

内発報酬

　強化学習の内発報酬について、単純に予測不可能な状態を優先すると、ランダムノイズを出すようなテレビの前に居座り続けるということが発生しうる。これはLarge-Scale Study of Curiosity-Driven Learningでnoisy-TV problemとして言及されていたり、"couch-potato" issuesという名前でEpisodic Curiosity through Reachabilityで言及されている。

　これに対して、「予測の改善度」も考慮したら多少は改善できるのではないかと思ったりした。ランダムノイズに対してはいくら時間が経っても予測精度が向上していかないので、そういう状態は内発報酬を低くする。Random Distillation Networkの一致度合い自体を予測するというネットワークを追加してどうか。勾配をどう流すか・止めるかという点に注意しておかないといけないかもしれない。

Decision Transformerに過去エピソードを追加する

　あまりよく調べていないけど、言語モデルにプロンプトで例を入力するのと同じノリで、Online Decision Transformer的なものにも上手くいった例とかを入力した方が学習が進みやすいのではないかという気がする。元のDecision Transformerだと特にそういう入力をする価値はなさそうだけれど。

　将棋とかでも、全く同一の手順で負けてしまうようなことが発生してしまうのは良くないと思っていて、せめて直近数局とかがプロンプト的に入っていれば完全に同じ負け方は回避してくれるとかそういうことにならないだろうか。プロンプトに指させたい戦型の対局を入れておくとその戦型を優先的に指してくれるとかなるともっと使いやすいかもしれない。まぁ自分でやるモチベーションはない。

Drive Like a Human

　Abstくらいしか読んでいないが、結局自動運転システムにも言語モデルを入れる必要はあるのかもしれないと思っている。国ごとに違う法令とか交通ルールとかを、画像からの学習だけでやるなんて非効率という意見には同意する。解釈性うんぬんみたいな点を考えても、入ってきそうな予感は強い。

自動運転が今の技術で実現できるのか、あるいは実現の連続性

　自分の感覚としては今のモジュールの組み方では到底自動運転なんてできやしないだろうと思うので、なにかブレークスルーを待たなきゃいけないと思ってしまうのだけど、Waymoとかは現状でもわりと普通に走っているらしいじゃんという話もあり、ギャップを感じる。走行区間を定めているとか、状況を狭めているとか、いろいろあるのかもしれないが、なにか根本的な採用技術の違いもあるんだろうか。そこが連続的な進化でいけるのか、ジャンプしなければいけないのかが気になっている。

NeRFベース自己位置推定

　また結局NeRFベースの自己位置推定に挑戦している。微分可能レンダリングを実装して自己位置を勾配法で求められるようになったのだが、思ったよりもPoseの微分がちゃんとした方向を向いてくれなくて困る。根本的なNeRFモデルの精度が低すぎるのだろうか。学習中にPoseも最適化するというやり方でもっと精度を上げられないか試してみたいが、ちゃんと実装できる自信はあまりない。それ以外にもまだ1つ2つブレイクスルーが必要そうには感じている。またいろいろ論文を見つつだなぁ。