- Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning [112.3]
本稿では,Flamingo上に構築されたRetrieval-augmented Visual Language Model,Re-ViLMを紹介する。 外部データベースに特定の知識を明示的に格納することで、モデルパラメータの数を減らすことができる。 Re-ViLMは画像・テキスト生成タスクの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (Thu, 9 Feb 2023 18:57:56 GMT) - 外部知識を利用可能なマルチモーダルモデル。Image CaptioningでFlamingoをoutperformとのこと。マルチモーダルな外部知識を活用できるのは純粋にすごいと思う。世の中のシステムのほとんどは(WEB検索を除き)画像検索はできない…。