image captioning – arXiv最新論文の紹介

Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning

Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning [112.3]
本稿では,Flamingo上に構築されたRetrieval-augmented Visual Language Model,Re-ViLMを紹介する。外部データベースに特定の知識を明示的に格納することで、モデルパラメータの数を減らすことができる。 Re-ViLMは画像・テキスト生成タスクの性能を大幅に向上させることを示した。
論文参考訳（メタデータ） (Thu, 9 Feb 2023 18:57:56 GMT)
外部知識を利用可能なマルチモーダルモデル。Image CaptioningでFlamingoをoutperformとのこと。マルチモーダルな外部知識を活用できるのは純粋にすごいと思う。世の中のシステムのほとんどは（WEB検索を除き）画像検索はできない…。

StyleBabel: アートのタグとキャプション

StyleBabel: Artistic Style Tagging and Captioning [38.8]
StyleBabelは、自然言語キャプションのユニークなオープンアクセスデータセットであり、135K以上のデジタルアートアートの芸術スタイルを記述したフリーフォームタグである。
論文参考訳（メタデータ）参考訳（全文） (Fri, 11 Mar 2022 08:51:33 GMT)
- アート作品のキャプションやタグを集めたデータセットの提案。
- データ等はCC BY 4.0で公開予定とのことでAIによる創作のために有用なデータになりそう。

Image Captioningタスクのサーベイ

From Show to Tell: A Survey on Image Captioning [49.0]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。画像キャプションの研究はまだ結論に達していない。本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文参考訳（メタデータ） (Wed, 14 Jul 2021 18:00:54 GMT)
- 画像からの文章生成（キャプション生成）に対する包括的なサーベイ。画像のエンコーディング、言語モデル、学習戦略、評価、代表的なデータセット、性能表（13ページは必見）とこの分野が素晴らしく整理されている。7.IMAGE CAPTIONING VARIANTS、8. CONCLUSIONS AND FUTURE DIRECTIONSも参考になる。
- 引用リストを除き18ページと内容のわりにコンパクトだが、引用数は220。