Multilingual Multimodalityのサーベイ

  • Multilingual Multimodality: A Taxonomical Survey of Datasets, Techniques, Challenges and Opportunities [10.7]
    マルチ言語とマルチモーダル(MultiX)ストリームの統合について検討する。 我々は、並列アノテーションで研究された言語、金または銀のデータを調べ、これらのモダリティと言語がモデリングにおいてどのように相互作用するかを理解する。 モデリングアプローチの長所と短所とともに、どのシナリオを確実に使用できるのかをよりよく理解するために、モデリングアプローチについて説明します。
    論文  参考訳(メタデータ)   (Sun, 30 Oct 2022 21:46:01 GMT)

Vision-Language Pre-training

  • Vision-Language Pre-training: Basics, Recent Advances, and Future Trends [158.3]
    近年,マルチモーダルインテリジェンスのための視覚言語事前学習法が開発されている。 各カテゴリについて、最先端の手法の総合的なレビューを行い、現在進行中の進歩と課題について論じる。 また,研究コミュニティにおいて,大規模基盤モデル,統合モデリング,文脈内数発の学習,知識,堅牢性,コンピュータビジョンなど,高度なトピックが積極的に検討されていることについても論じる。
    論文  参考訳(メタデータ)   (Mon, 17 Oct 2022 17:11:36 GMT)
    • 画像-言語のマルチモーダルモデルに対する極めて詳細なサーベイ

Imagic: Text-Based Real Image Editing with Diffusion Models

  • Imagic: Text-Based Real Image Editing with Diffusion Models [19.1]
    我々は、複雑なテキストガイド付きセマンティック編集を1つの実画像に適用できることを実証する。 提案手法は1つの入力画像と1つのターゲットテキストのみを必要とする。 実際のイメージで動作し、追加の入力を必要としない。
    論文  参考訳(メタデータ)   (Mon, 17 Oct 2022 17:27:32 GMT)
    • 画像+指示で画像編集ができる手法提案。「鳥の画像」+「羽を広げる」で羽を広げた鳥の画像を生成可能。スタイル変換だけではなく物体の形も編集できているのが凄い。

ERNIE-Layout

  • ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding [52.4]
    レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。 まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。 実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
    論文  参考訳(メタデータ)   (Wed, 12 Oct 2022 12:59:24 GMT)

MuRAG: マルチモーダルなRAG

  • MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text [58.7]
    我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。 以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
    論文  参考訳(メタデータ)   (Thu, 6 Oct 2022 13:58:03 GMT)
    • マルチモーダルなRAG、モダリティを追加することで性能も相応に向上している。

Imagen Video

  • Imagen Video: High Definition Video Generation with Diffusion Models [64.1]
    Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。  imagen videoは忠実度の高い動画を生成するだけでなく、さまざまな芸術スタイルで多様なビデオやテキストアニメーションを生成できる機能や、3dオブジェクト理解機能など、高度な制御性と世界の知識も備えている。
    論文  参考訳(メタデータ)   (Wed, 5 Oct 2022 14:41:38 GMT)
    • Imagenの動画版、低解像度・低フレームレートの動画から画像方向・時間方向の両面で超解像度化を行っている
    • プロジェクトサイトはImagen Video (research.google)

Passau-SFCH: マルチモーダルなユーモア検出データセット

  • Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [58.8]
    ユーモアは人間の感情と認知の重要な要素である。 ユーモア検出の現在の方法は、単にステージ化されたデータに基づいており、’現実世界’のアプリケーションには不十分である。 約11時間の録音を含むPassau-Spontaneous Football Coach Humourデータセットについて紹介する。
    論文  参考訳(メタデータ)   (Wed, 28 Sep 2022 17:36:47 GMT)
    • ユーモア検出データセットの提案、表情が有力な特徴量だったとのこと。
      • 論文中に紹介されていたユーモアの分類も面白かった
    • リポジトリはEIHW/passau-sfch (github.com)

Text-to-Video without Text-Video Data

  • Make-A-Video: Text-to-Video Generation without Text-Video Data [69.2]
    Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。 我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。 空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
    論文  参考訳(メタデータ)   (Thu, 29 Sep 2022 13:59:46 GMT)
    • テキストからの動画作成。text2imageモデルをベースに動画データ+教師無し学習で構築されたモデルで動画への補間を行っているよう
    • プロジェクトサイトはhttps://make-a-video.github.io

PaLI: Pathways Language and Image

  • PaLI: A Jointly-Scaled Multilingual Language-Image Model [110.1]
    PaLI(PathwaysLanguage and Image model)は、このアプローチを言語と視覚の合同モデリングに拡張する。 我々は、100以上の言語で10B画像とテキストを含む新しい画像テキストトレーニングセットに基づいて、事前学習タスクの多言語混合を作成する。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 17:24:07 GMT)
    • 13BパラメータのmT5-XXL、2Bパラメータ のViT-G or 4Bパラメータの ViT-e を用いたマルチリンガル・マルチモーダルなモデル、FlamingoやCoCaを超える性能を達成とのこと。多言語化においてはモデルサイズが重要(かつ大規模でないと厳しそう)という印象。
    • モデルカード、データカードがgoogle-research/pali at master · google-research/google-research (github.com)に存在。本件で構築されたデータセットWebLI は9.6Gインスタンス、260TB…

OmniVL

  • OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.6]
    我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。 従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。 我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
    論文  参考訳(メタデータ)   (Thu, 15 Sep 2022 17:59:59 GMT)
    • 1つのFoundation Modelを目指した新たな成果、生成系/非生成系の両タスクへの対応、Image-Language/Video-Languageの両方へ対応などVIOLETやFlorenceといったモデルよりも対応可能な範囲が広がっており、性能も優れている。「visual/video question answering」には課題があるとのこと。