2022-12-01から1ヶ月間の記事一覧

Image-and-Language Understanding from Pixels Onlyを読んだ感想

概要 テキストをレンダリングして画像化してTransformerに入力する方法でも、簡単なVisual Question Answeringなどではある程度性能出るらしい。 基本的にはCLIPと似た形式で対比学習をする。Figure 1を見るのが早い。 所感 自然言語も画像として扱おうとい…