FashionViL: ファッションにフォーカスした画像-言語モデル

  • FashionViL: Fashion-Focused Vision-and-Language Representation Learning [129.5]
    ファッション中心の視覚・言語(V+L)表現学習フレームワークFashionViLを提案する。 特に2つの本質的な属性とファッションV+Lデータを活用するために設計された、2つの新しいファッション特化事前学習タスクを含んでいる。 大規模な実験により、FashionViLは5つの下流タスクにまたがって新しい最先端の技術を達成していることがわかった。
    論文  参考訳(メタデータ)   (Sun, 17 Jul 2022 12:06:27 GMT)
    • ファッション用のRepresentation Learningフレームワークの提案。MVC: Multi-view contrastive learning (ファッションの画像は様々な方向から撮影されていることを利用)、PAC: PseudoAttribute Classification (ファッションアイテムで同じ属性を持つものをまとめられる)などを利用し複数のタスクでSoTAを主張。
      • ドメインに応じた事前学習の有効性が分かる結果だと思う
    • リポジトリはGitHub – BrandonHanx/mmf: [ECCV 2022] FashionViL: Fashion-Focused V+L Representation Learning

Clover: Correlated Video-Language pre-training method

  • Clover: Towards A Unified Video-Language Alignment and Fusion Model [154.1]
    さまざまなビデオ理解タスク(テキストビデオ検索、ビデオ質問応答など)を解決するためのユニバーサルビデオ言語モデルの構築は、機械学習分野に対するオープンチャレンジである。複数のビデオ理解タスクを、パフォーマンスと効率の妥協を伴わずに解決するための普遍的なビデオ言語モデルに対して、Cloverを紹介します。 新たなtri-modal alignment pre-trainingタスクにより、クロスモーダル特徴のアライメントと融合を改善する。  Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
    論文  参考訳(メタデータ)   (Sat, 16 Jul 2022 09:38:52 GMT)

Visual Context Augmented Dialogue Systemのサーベイ

  • Enabling Harmonious Human-Machine Interaction with Visual-Context Augmented Dialogue System: A Review [40.5]
    Visual Context Augmented Dialogue System (VAD) は、マルチモーダル情報を知覚し理解することで人間とコミュニケーションする能力を持つ。 VADは、エンゲージメントとコンテキスト対応の応答を生成する可能性を秘めている。
    論文  参考訳(メタデータ)   (Sat, 2 Jul 2022 09:31:37 GMT)
    • マルチモーダルな情報を利用する対話システムのサーベイ。

Unified-IO

  • Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks [39.1]
    Unified-IOは、古典的なコンピュータビジョンタスクにまたがるさまざまなAIタスクを実行するモデルである。 我々は、サポート対象の入力と出力を個別の語彙トークン列に均質化することで、この統一を実現する。 Unified-IOはGRITベンチマークで7つのタスクすべてを実行することができる最初のモデルである。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 17 Jun 2022 17:53:47 GMT)
    • 非常に多様なデータ、タスクを扱えるモデルの提案。
      • META LMでも感じたが、汎用に使えるAI(しかも事前学習済み)は夢物語ではなくなりつつあると感じる。そしてマルチモーダルをつなぐのは言語なのだろうか。
    • プロジェクトサイトはUnified-IO, a new general purpose model from AI2 (allenai.org)

Parti: Pathways Autoregressive Text-to-Image

  • Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.0]
    Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
    論文  参考訳(メタデータ)   (Wed, 22 Jun 2022 01:11:29 GMT)
    • DALL-E2やImagenなど画像生成系モデルの進化が速い。Partiもきわめて強力な画像生成モデルであり、作例が凄い。加えてモデルサイズを変えた比較が非常に参考になり、350Mパラメータと20Bパラメータではクオリティが異なることが分かる。
    • プロジェクトサイトはParti: Pathways Autoregressive Text-to-Image Model (research.google)
      • 「we have decided not to release our Parti models, code, or data for public use without further safeguards in place.」とのこと。クローズドな方針は議論を呼びそう。(とはいえ、公開されたからといって計算リソース的に再現は容易ではないが…)

GLIPv2: Grounded Language-Image Pre-training version 2

META LM: Language Models are General-Purpose Interfaces

  • Language Models are General-Purpose Interfaces [109.5]
    本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。 事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
    論文  参考訳(メタデータ)   (Mon, 13 Jun 2022 17:34:22 GMT)
    • マルチモーダル、マルチタスクに対応した言語モデルの提案。言語、画像のタスクで優れた性能を達成とのこと。エンコーダ部分でマルチモーダルに対応、実際タスクを「解く」のはsemi-causal language modelというデコーダのよう。この構造を汎用目的インタフェースといっている。
      • タスクに関する記述や出力は自然言語として書け、マルチモーダルな構造とも接続できるのであれば汎用インタフェースと言える気はする。そして、semi-causal language modelingというのは刺激的なワード。
    • リポジトリはGitHub – microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities

CogVideo: テキストからのビデオ生成

  • CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers [16.3]
    大規模事前学習型トランスフォーマーは、テキスト(GPT-3)とテキスト・トゥ・イメージ(DALL-EとCagView)生成のマイルストーンを作成した。 CogVideoは、事前訓練されたテキスト・ツー・イメージモデルであるCogView2を継承することでトレーニングされる。 CogVideoは、マシンと人間の評価において、すべての公開モデルをはるかに上回っている。
    論文  参考訳(メタデータ)   (Sun, 29 May 2022 19:02:15 GMT)
    • テキストからのビデオ生成、すでにクオリティが高い。「Nightfall in a metropolis.」では「夕日→日が沈む→暗くなる」という時間経過の概念がある動画も作れているのが凄い。
    • リポジトリはGitHub – THUDM/CogVideo: Text-to-video generation.

Text2Human: テキストからの人の画像生成

DisinfoMeme: 偽情報ミームのマルチモーダルデータセット

  • DisinfoMeme: A Multimodal Dataset for Detecting Meme Intentionally Spreading Out Disinformation [72.2]
    偽情報ミームの検出を支援するためにDisinfoMemeを提案する。 このデータセットには、covid-19パンデミック、black lives matter運動、veganism/vegetarianismの3つのトピックをカバーするredditのミームが含まれている。
    論文  参考訳(メタデータ)   (Wed, 25 May 2022 09:54:59 GMT)
    • redditからとられたマルチモーダルな偽情報ミーム検出用データセット。ユニモーダルなモデルとマルチモーダルなモデルを比較しているがマルチモーダルの効果がそれほど出ていないよう。
    • データは公開予定とのこと。