Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning

  • Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning [112.3]
    本稿では,Flamingo上に構築されたRetrieval-augmented Visual Language Model,Re-ViLMを紹介する。 外部データベースに特定の知識を明示的に格納することで、モデルパラメータの数を減らすことができる。 Re-ViLMは画像・テキスト生成タスクの性能を大幅に向上させることを示した。
    論文  参考訳(メタデータ)   (Thu, 9 Feb 2023 18:57:56 GMT)
  • 外部知識を利用可能なマルチモーダルモデル。Image CaptioningでFlamingoをoutperformとのこと。マルチモーダルな外部知識を活用できるのは純粋にすごいと思う。世の中のシステムのほとんどは(WEB検索を除き)画像検索はできない…。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です