2022-12-01から1ヶ月間の記事一覧

Image-and-Language Understanding from Pixels Onlyを読んだ感想

論文

概要テキストをレンダリングして画像化してTransformerに入力する方法でも、簡単なVisual Question Answeringなどではある程度性能出るらしい。基本的にはCLIPと似た形式で対比学習をする。Figure 1を見るのが早い。所感自然言語も画像として扱おうとい…