コンテンツへスキップ
- Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning [112.3]
本稿では,Flamingo上に構築されたRetrieval-augmented Visual Language Model,Re-ViLMを紹介する。 外部データベースに特定の知識を明示的に格納することで、モデルパラメータの数を減らすことができる。 Re-ViLMは画像・テキスト生成タスクの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (Thu, 9 Feb 2023 18:57:56 GMT)
- 外部知識を利用可能なマルチモーダルモデル。Image CaptioningでFlamingoをoutperformとのこと。マルチモーダルな外部知識を活用できるのは純粋にすごいと思う。世の中のシステムのほとんどは(WEB検索を除き)画像検索はできない…。
- StyleBabel: Artistic Style Tagging and Captioning [38.8]
StyleBabelは、自然言語キャプションのユニークなオープンアクセスデータセットであり、135K以上のデジタルアートアートの芸術スタイルを記述したフリーフォームタグである。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 11 Mar 2022 08:51:33 GMT)- アート作品のキャプションやタグを集めたデータセットの提案。
- データ等はCC BY 4.0で公開予定とのことでAIによる創作のために有用なデータになりそう。
- From Show to Tell: A Survey on Image Captioning [49.0]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。 画像キャプションの研究はまだ結論に達していない。 本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (Wed, 14 Jul 2021 18:00:54 GMT)- 画像からの文章生成(キャプション生成)に対する包括的なサーベイ。画像のエンコーディング、言語モデル、学習戦略、評価、代表的なデータセット、性能表(13ページは必見)とこの分野が素晴らしく整理されている。7.IMAGE CAPTIONING VARIANTS、8. CONCLUSIONS AND FUTURE DIRECTIONSも参考になる。
- 引用リストを除き18ページと内容のわりにコンパクトだが、引用数は220。