概要 テキストをレンダリングして画像化してTransformerに入力する方法でも、簡単なVisual Question Answeringなどではある程度性能出るらしい。 基本的にはCLIPと似た形式で対比学習をする。Figure 1を見るのが早い。 所感 自然言語も画像として扱おうとい…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。