Visual Language Maps for Robot Navigationを読んだメモ

出典

メモ

 やっていること

  1. RGB-DカメラをもとにSLAMを行う(この際に使うSLAMはRtab map*1
  2. SLAMをやるときに得た画像を、LSeg*2にかけて特徴量を得て、Depthを使って上面図に投影する
  3. 投影したマップと単語の埋め込みの類似度を計算することで、好きな単語セットに対してランドマーク付きのマップができる
  4. また、自然言語で与えられた目標を決まった構文に変換してPythonで解釈できるようにすることでPolicyの代わりにできる

 1,2,3あたりはかなり素朴にVision&LanguageモデルとSLAMを組み合わせているという印象だったけど、4で急にすごい方向へ飛んでいった感がある。確かに、変な離散行動の系列を出力させるよりもコードを出させた方が良いのかもしれないが、それはすごい使い方だ。

 自分としてはナビゲーションよりもSLAMの自己位置推定の精度改善に興味があるので、そこ自体に寄与していないのはちょっと残念。VLMapの作りも、同じピクセルに複数入ってくる場合は平均を取るというかなり雑なことをやっているように読めて、それで良いのかという感じ。

 SLAMもこういう方に進化していくのかな。移動物除去みたいなのも、"歩行者"みたいな単語でクエリ作ればいいんでしょ? 時間的な移動の考慮をどうすればいいのかとかはわからないが……。

本当にただの思いつき 将棋の指し手も似た発想でやれば良いのか? たとえば▲2四飛(28) を

  1. 2八にある駒を掴む
  2. 掴んだ駒を2四に置く

と分けて2単語として出させるという自己回帰のモデルを考えて

[1] は81マス+駒台の駒種7個
[2] は81マス

で計Policyの出力層を88次元(or 1と2のマスは異なるOnehotラベルにするとして169次元)にできるとか

気になった参考文献

[12] S. Y. Gadre, M. Wortsman, G. Ilharco, L. Schmidt, and S. Song, “Clip on wheels: Zero-shot object navigation as object localization and exploration,” arXiv preprint arXiv:2203.10421, 2022.

[13] D. Shah, B. Osinski, B. Ichter, and S. Levine, “Lm-nav: Robotic navigation with large pre-trained models of language, vision, and action,” arXiv preprint arXiv:2207.04429, 2022.

[34] B. Chen, F. Xia, B. Ichter, K. Rao, K. Gopalakrishnan, M. S. Ryoo, A. Stone, and D. Kappler, “Open-vocabulary queryable scene representations for real world planning,” arXiv preprint arXiv:2209.09874, 2022.

[35] M. Ahn, A. Brohan, N. Brown, Y. Chebotar, O. Cortes, B. David, C. Finn, K. Gopalakrishnan, K. Hausman, A. Herzog et al., “Do as i can, not as i say: Grounding language in robotic affordances,” arXiv preprint arXiv:2204.01691, 2022.