Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning

  • Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning [112.3]
    本稿では,Flamingo上に構築されたRetrieval-augmented Visual Language Model,Re-ViLMを紹介する。 外部データベースに特定の知識を明示的に格納することで、モデルパラメータの数を減らすことができる。 Re-ViLMは画像・テキスト生成タスクの性能を大幅に向上させることを示した。
    論文  参考訳(メタデータ)   (Thu, 9 Feb 2023 18:57:56 GMT)
  • 外部知識を利用可能なマルチモーダルモデル。Image CaptioningでFlamingoをoutperformとのこと。マルチモーダルな外部知識を活用できるのは純粋にすごいと思う。世の中のシステムのほとんどは(WEB検索を除き)画像検索はできない…。

StyleBabel: アートのタグとキャプション

  • StyleBabel: Artistic Style Tagging and Captioning [38.8]
    StyleBabelは、自然言語キャプションのユニークなオープンアクセスデータセットであり、135K以上のデジタルアートアートの芸術スタイルを記述したフリーフォームタグである。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 11 Mar 2022 08:51:33 GMT)
    • アート作品のキャプションやタグを集めたデータセットの提案。
    • データ等はCC BY 4.0で公開予定とのことでAIによる創作のために有用なデータになりそう。

Image Captioningタスクのサーベイ

  • From Show to Tell: A Survey on Image Captioning [49.0]
    視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。 画像キャプションの研究はまだ結論に達していない。 本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
    論文  参考訳(メタデータ)   (Wed, 14 Jul 2021 18:00:54 GMT)
    • 画像からの文章生成(キャプション生成)に対する包括的なサーベイ。画像のエンコーディング、言語モデル、学習戦略、評価、代表的なデータセット、性能表(13ページは必見)とこの分野が素晴らしく整理されている。7.IMAGE CAPTIONING VARIANTS、8. CONCLUSIONS AND FUTURE DIRECTIONSも参考になる。
    • 引用リストを除き18ページと内容のわりにコンパクトだが、引用数は220。