DreamBooth: 画像生成モデルのパーソナライズ

  • DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation [26.7]
    テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。 トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。 次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
    論文  参考訳(メタデータ)   (Thu, 25 Aug 2022 17:45:49 GMT)
    • 少量のデータを用いて画像生成モデルに新たな画像(例えば自分のペットなど)を組み込めるという研究。Stable DiffusionやMidjurneyといった最近流行りの画像生成モデルをパーソナライズできる内容でとても面白い。
    • プロジェクトサイトはDreamBooth

マルチモーダルなプレゼンテーションデータセット

  • Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides [57.9]
    学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。 このデータセットには,180時間以上のビデオと9000以上のスライドが,各科目から10人の講師が参加している。 マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
    論文  参考訳(メタデータ)   (Wed, 17 Aug 2022 05:30:18 GMT)
    • 330本・180時間以上の動画、9000以上のスライドからなるデータセット。ライセンスはCC BY-SA-NC。text-to-figure(音声の説明から図を検索)、figure-to-text(図から音声の説明を検索)の検索タスクを前提として設計されているとのこと。既存手法、提案手法とも人間のパフォーマンスとのギャップが大きい。
    • リポジトリはdondongwon/MLPDataset (github.com)

ARMANI: pARt-level garMent-text Alignment for uNIfied cross-modal fashion design

  • ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal Fashion Design [66.7]
    クロスモーダルなファッション画像合成は、世代領域において最も有望な方向の1つとして現れてきた。 MaskCLIPは衣服をセマンティックな部分に分解し、視覚情報とテキスト情報の微粒化と意味的に正確なアライメントを確保する。 ArmANIは、学習したクロスモーダルコードブックに基づいて画像を一様トークンに識別し、Transformerを使用して実際の画像に対する画像トークンの分布をモデル化する。
    論文  参考訳(メタデータ)   (Thu, 11 Aug 2022 03:44:02 GMT)
    • (一部の)画像、スケッチ、テキスト入力などからファッション画像(服全体など)を生成する研究。柄の一部+テキスト指示で服の画像全体を作ることなどが可能とのこと。
      • 内容とは関係ないが、かなり無理がある略称
    • リポジトリはGitHub – Harvey594/ARMANI

生成型マルチモーダルモデルへのPrompt Tuning

FashionViL: ファッションにフォーカスした画像-言語モデル

  • FashionViL: Fashion-Focused Vision-and-Language Representation Learning [129.5]
    ファッション中心の視覚・言語(V+L)表現学習フレームワークFashionViLを提案する。 特に2つの本質的な属性とファッションV+Lデータを活用するために設計された、2つの新しいファッション特化事前学習タスクを含んでいる。 大規模な実験により、FashionViLは5つの下流タスクにまたがって新しい最先端の技術を達成していることがわかった。
    論文  参考訳(メタデータ)   (Sun, 17 Jul 2022 12:06:27 GMT)
    • ファッション用のRepresentation Learningフレームワークの提案。MVC: Multi-view contrastive learning (ファッションの画像は様々な方向から撮影されていることを利用)、PAC: PseudoAttribute Classification (ファッションアイテムで同じ属性を持つものをまとめられる)などを利用し複数のタスクでSoTAを主張。
      • ドメインに応じた事前学習の有効性が分かる結果だと思う
    • リポジトリはGitHub – BrandonHanx/mmf: [ECCV 2022] FashionViL: Fashion-Focused V+L Representation Learning

Clover: Correlated Video-Language pre-training method

  • Clover: Towards A Unified Video-Language Alignment and Fusion Model [154.1]
    さまざまなビデオ理解タスク(テキストビデオ検索、ビデオ質問応答など)を解決するためのユニバーサルビデオ言語モデルの構築は、機械学習分野に対するオープンチャレンジである。複数のビデオ理解タスクを、パフォーマンスと効率の妥協を伴わずに解決するための普遍的なビデオ言語モデルに対して、Cloverを紹介します。 新たなtri-modal alignment pre-trainingタスクにより、クロスモーダル特徴のアライメントと融合を改善する。  Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
    論文  参考訳(メタデータ)   (Sat, 16 Jul 2022 09:38:52 GMT)

Visual Context Augmented Dialogue Systemのサーベイ

  • Enabling Harmonious Human-Machine Interaction with Visual-Context Augmented Dialogue System: A Review [40.5]
    Visual Context Augmented Dialogue System (VAD) は、マルチモーダル情報を知覚し理解することで人間とコミュニケーションする能力を持つ。 VADは、エンゲージメントとコンテキスト対応の応答を生成する可能性を秘めている。
    論文  参考訳(メタデータ)   (Sat, 2 Jul 2022 09:31:37 GMT)
    • マルチモーダルな情報を利用する対話システムのサーベイ。

Unified-IO

  • Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks [39.1]
    Unified-IOは、古典的なコンピュータビジョンタスクにまたがるさまざまなAIタスクを実行するモデルである。 我々は、サポート対象の入力と出力を個別の語彙トークン列に均質化することで、この統一を実現する。 Unified-IOはGRITベンチマークで7つのタスクすべてを実行することができる最初のモデルである。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 17 Jun 2022 17:53:47 GMT)
    • 非常に多様なデータ、タスクを扱えるモデルの提案。
      • META LMでも感じたが、汎用に使えるAI(しかも事前学習済み)は夢物語ではなくなりつつあると感じる。そしてマルチモーダルをつなぐのは言語なのだろうか。
    • プロジェクトサイトはUnified-IO, a new general purpose model from AI2 (allenai.org)

Parti: Pathways Autoregressive Text-to-Image

  • Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.0]
    Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
    論文  参考訳(メタデータ)   (Wed, 22 Jun 2022 01:11:29 GMT)
    • DALL-E2やImagenなど画像生成系モデルの進化が速い。Partiもきわめて強力な画像生成モデルであり、作例が凄い。加えてモデルサイズを変えた比較が非常に参考になり、350Mパラメータと20Bパラメータではクオリティが異なることが分かる。
    • プロジェクトサイトはParti: Pathways Autoregressive Text-to-Image Model (research.google)
      • 「we have decided not to release our Parti models, code, or data for public use without further safeguards in place.」とのこと。クローズドな方針は議論を呼びそう。(とはいえ、公開されたからといって計算リソース的に再現は容易ではないが…)

GLIPv2: Grounded Language-Image Pre-training version 2