Image-and-Language Understanding from Pixels Onlyを読んだ感想

論文

概要テキストをレンダリングして画像化してTransformerに入力する方法でも、簡単なVisual Question Answeringなどではある程度性能出るらしい。基本的にはCLIPと似た形式で対比学習をする。Figure 1を見るのが早い。所感自然言語も画像として扱おうとい…

2022-11-06

近況

雑記

だいぶ更新が途絶えているので賑やかしに。一応、Twitterが買収どうのこうのでちょっときな臭いかもと思っており、少しずつTwitterへの依存を薄めていった方が良いのかもしれないという狙いもある。最近の感じコンピュータ将棋をやる気も起きず、競技プロ…

2022-09-04

Transformers are Sample Efficient World Modelsを読んだメモ

論文

出典概要 Discrete autoencoderでRGB画像を埋め込み、自己回帰Transformerで世界モデルとして学習させる。 Atariゲームにおける2時間分のプレイデータで、10ゲーム/26ゲームにおいて人間のスコアに達した。メモ実環境との作用経験はモデルの学習にしか使…

2022-04-30

Tackling multiple tasks with a single visual language modelを読んだメモ

論文

画像と言語を一つのモデルで扱うマルチモーダルモデルについての研究。特に、追加の学習をせずにFew-shotの例示で新規問題へ適応することを重視しているらしい。記事最近ありがちな、実利用時に数個のプロンプト的な例示を行うとそういうタスクが解ける的…

2022-04-17

SLAM入門写経ループ閉じ込みまで

前回前回は第6章のオドメトリによる地図構築の部分まで行い、それから第7章以降にある内容を写経していったのだが、第7章の部分だけを実装というのはやや難しく、結局全部実装することになってしまった。（継承とポインタによって実行後に構成を切り替えて…

2022-04-03

SLAM入門写経中オドメトリによる地図構築

（半分日記）なんの因果かSLAMをやっていく必要に迫られており、慌てて勉強をしている。具体的には以下の本を買って読みつつ、コード部分について写経を始めている。 SLAM入門: ロボットの自己位置推定と地図構築の技術作者:友納正裕株式会社オーム社Amazo…

2022-02-19

GitHub Actionsを触ってみる

Continuous Integrationにちょっと興味が出ているので練習する。目標 GitHub Actionsを触るプッシュ時に自動的にビルド・Formatter適用・Linter適用ができるようにする Googleテストを触る上のGitHub Actionsと連動して自動テストまでできると良い今回は…

2022-02-15

雑記（ViTをSサイズまで学習した・Weight Decay大きくすると最後に効く）

コンピュータ将棋

ViTをSサイズまで学習させた SサイズというのはScaling Vision Transformersに従った分類。将棋だとパッチ分割のサイズは関係ないので要約すると以下のサイズ。対局結果手元の2080tiマシンで計測。vs水匠5(4Thread)、1手1秒モデル NPS Policy損失 Value…

2022-02-06

雑記（ViT対局・INT8-FP16調査など）

コンピュータ将棋

ViT対局させた初期局面から100戦しかやってないので参考程度だが、明らかに弱かった。vs水匠5。 Google Compute Engine環境での対局 Intel(R) Xeon(R) CPU @ 2.30GHz 4Thread GPU : T4 time(Miacis) = 1000msec, time(水匠5) = 250msec 結果モデル Policy…

2022-01-22

ResNetとViTの弱点局面比較

コンピュータ将棋

前書き ViT（sサイズモデル）の学習が進行中である。予定していた最大学習ステップ数の1/5程度をこなし、やや収束の気配が見えてきたので一度このタイミングでお試し評価を行ってみる。また今回は単に検証損失を全体で計測するだけでなく、個別の局面につい…

2022-01-10

雑記（ViT実験など）

コンピュータ将棋

ViTについての実験をいくつか。 10ブロック、256chを長期学習 Google Colab Pro+を使って7日かけていつもの10倍、1.6Mステップ回した。左: Policy損失右: Value損失 Policy損失はResNet（20ブロック・256ch）より良くなる。Value側がひどい。速度差もある…