2022-01-01から1年間の記事一覧

Image-and-Language Understanding from Pixels Onlyを読んだ感想

概要 テキストをレンダリングして画像化してTransformerに入力する方法でも、簡単なVisual Question Answeringなどではある程度性能出るらしい。 基本的にはCLIPと似た形式で対比学習をする。Figure 1を見るのが早い。 所感 自然言語も画像として扱おうとい…

近況

だいぶ更新が途絶えているので賑やかしに。 一応、Twitterが買収どうのこうのでちょっときな臭いかもと思っており、少しずつTwitterへの依存を薄めていった方が良いのかもしれないという狙いもある。 最近の感じ コンピュータ将棋をやる気も起きず、競技プロ…

Transformers are Sample Efficient World Modelsを読んだメモ

出典 概要 Discrete autoencoderでRGB画像を埋め込み、自己回帰Transformerで世界モデルとして学習させる。 Atariゲームにおける2時間分のプレイデータで、10ゲーム/26ゲームにおいて人間のスコアに達した。 メモ 実環境との作用経験はモデルの学習にしか使…

Tackling multiple tasks with a single visual language modelを読んだメモ

画像と言語を一つのモデルで扱うマルチモーダルモデルについての研究。 特に、追加の学習をせずにFew-shotの例示で新規問題へ適応することを重視しているらしい。 記事 最近ありがちな、実利用時に数個のプロンプト的な例示を行うとそういうタスクが解ける的…

SLAM入門 写経 ループ閉じ込みまで

前回 前回は第6章のオドメトリによる地図構築の部分まで行い、それから第7章以降にある内容を写経していったのだが、第7章の部分だけを実装というのはやや難しく、結局全部実装することになってしまった。(継承とポインタによって実行後に構成を切り替えて…

SLAM入門 写経中 オドメトリによる地図構築

(半分日記) なんの因果かSLAMをやっていく必要に迫られており、慌てて勉強をしている。具体的には以下の本を買って読みつつ、コード部分について写経を始めている。 SLAM入門: ロボットの自己位置推定と地図構築の技術作者:友納 正裕株式会社オーム社Amazo…

GitHub Actionsを触ってみる

Continuous Integrationにちょっと興味が出ているので練習する。 目標 GitHub Actionsを触る プッシュ時に自動的にビルド・Formatter適用・Linter適用ができるようにする Googleテストを触る 上のGitHub Actionsと連動して自動テストまでできると良い 今回は…

雑記(ViTをSサイズまで学習した・Weight Decay大きくすると最後に効く)

ViTをSサイズまで学習させた SサイズというのはScaling Vision Transformersに従った分類。 将棋だとパッチ分割のサイズは関係ないので要約すると以下のサイズ。 対局結果 手元の2080tiマシンで計測。vs水匠5(4Thread)、1手1秒 モデル NPS Policy損失 Value…

雑記(ViT対局・INT8-FP16調査など)

ViT対局させた 初期局面から100戦しかやってないので参考程度だが、明らかに弱かった。vs水匠5。 Google Compute Engine環境での対局 Intel(R) Xeon(R) CPU @ 2.30GHz 4Thread GPU : T4 time(Miacis) = 1000msec, time(水匠5) = 250msec 結果 モデル Policy…

ResNetとViTの弱点局面比較

前書き ViT(sサイズモデル)の学習が進行中である。予定していた最大学習ステップ数の1/5程度をこなし、やや収束の気配が見えてきたので一度このタイミングでお試し評価を行ってみる。また今回は単に検証損失を全体で計測するだけでなく、個別の局面につい…

雑記(ViT実験など)

ViTについての実験をいくつか。 10ブロック、256chを長期学習 Google Colab Pro+を使って7日かけていつもの10倍、1.6Mステップ回した。 左: Policy損失 右: Value損失 Policy損失はResNet(20ブロック・256ch)より良くなる。Value側がひどい。 速度差もある…

20ブロックでの学習

前回は10ブロック・256chの、今まで基本的に用いてきた大きさのネットワークで軽く学習を回した。 正月休みの時間があったため、今回は大きめのResNetで使用データ数も多くして学習を回した。 前回との学習の差分 項目 前回 今回 備考 ネットワークの大きさ …