Text-to-Video without Text-Video Data

  • Make-A-Video: Text-to-Video Generation without Text-Video Data [69.2]
    Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。 我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。 空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
    論文  参考訳(メタデータ)   (Thu, 29 Sep 2022 13:59:46 GMT)
    • テキストからの動画作成。text2imageモデルをベースに動画データ+教師無し学習で構築されたモデルで動画への補間を行っているよう
    • プロジェクトサイトはhttps://make-a-video.github.io

PaLI: Pathways Language and Image

  • PaLI: A Jointly-Scaled Multilingual Language-Image Model [110.1]
    PaLI(PathwaysLanguage and Image model)は、このアプローチを言語と視覚の合同モデリングに拡張する。 我々は、100以上の言語で10B画像とテキストを含む新しい画像テキストトレーニングセットに基づいて、事前学習タスクの多言語混合を作成する。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 17:24:07 GMT)
    • 13BパラメータのmT5-XXL、2Bパラメータ のViT-G or 4Bパラメータの ViT-e を用いたマルチリンガル・マルチモーダルなモデル、FlamingoやCoCaを超える性能を達成とのこと。多言語化においてはモデルサイズが重要(かつ大規模でないと厳しそう)という印象。
    • モデルカード、データカードがgoogle-research/pali at master · google-research/google-research (github.com)に存在。本件で構築されたデータセットWebLI は9.6Gインスタンス、260TB…

OmniVL

  • OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.6]
    我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。 従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。 我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
    論文  参考訳(メタデータ)   (Thu, 15 Sep 2022 17:59:59 GMT)
    • 1つのFoundation Modelを目指した新たな成果、生成系/非生成系の両タスクへの対応、Image-Language/Video-Languageの両方へ対応などVIOLETやFlorenceといったモデルよりも対応可能な範囲が広がっており、性能も優れている。「visual/video question answering」には課題があるとのこと。

Customized Prompts via Language models

  • What does a platypus look like? Generating customized prompts for zero-shot image classification [47.8]
    本研究は,画像領域の明示的な知識を使わずに,高精度なプロンプトを生成する簡単な手法を提案する。 大規模言語モデル(LLM)に含まれる知識を活用し、各オブジェクトカテゴリにカスタマイズされた多くの記述文を生成する。 このアプローチは、ImageNetの1パーセント以上のポイントゲインを含む、ゼロショット画像分類ベンチマークの精度を改善する。
    論文  参考訳(メタデータ)   (Wed, 7 Sep 2022 17:27:08 GMT)
    • 大規模言語モデルからの知識を用いてゼロショット画像分類モデルの精度を上げるアプローチ。手作業で作成する部分をGPT-3のような大規模言語モデルに代替させるのはとても良さそう。
    • リポジトリはsarahpratt/CuPL (github.com)

MotionDiffuse: 拡散モデルでのモーション生成

  • MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.3]
    MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。 複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。 体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
    論文  参考訳(メタデータ)   (Wed, 31 Aug 2022 17:58:54 GMT)
    • テキストで指示可能なモーション作成、Diffusionモデルを活用しているとのこと。(ややニッチかもだが)画像生成の次に流行ったりするのだろうか。

BEiT-3

  • Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks [87.6]
    汎用多目的基礎モデルBEiT-3を紹介する。 視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
    論文  参考訳(メタデータ)   (Mon, 22 Aug 2022 16:55:04 GMT)
    • vision、vision-languageの複数のタスクでSoTAを達成するfoundation model
    • 画像を外国語(言語)として扱いその後の処理を行っていることが高性能のカギという興味深い主張。Imglishという言葉も面白い。
    • プロジェクトサイトはunilm/beit at master · microsoft/unilm (github.com)

DreamBooth: 画像生成モデルのパーソナライズ

  • DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation [26.7]
    テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。 トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。 次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
    論文  参考訳(メタデータ)   (Thu, 25 Aug 2022 17:45:49 GMT)
    • 少量のデータを用いて画像生成モデルに新たな画像(例えば自分のペットなど)を組み込めるという研究。Stable DiffusionやMidjurneyといった最近流行りの画像生成モデルをパーソナライズできる内容でとても面白い。
    • プロジェクトサイトはDreamBooth

マルチモーダルなプレゼンテーションデータセット

  • Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides [57.9]
    学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。 このデータセットには,180時間以上のビデオと9000以上のスライドが,各科目から10人の講師が参加している。 マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
    論文  参考訳(メタデータ)   (Wed, 17 Aug 2022 05:30:18 GMT)
    • 330本・180時間以上の動画、9000以上のスライドからなるデータセット。ライセンスはCC BY-SA-NC。text-to-figure(音声の説明から図を検索)、figure-to-text(図から音声の説明を検索)の検索タスクを前提として設計されているとのこと。既存手法、提案手法とも人間のパフォーマンスとのギャップが大きい。
    • リポジトリはdondongwon/MLPDataset (github.com)

ARMANI: pARt-level garMent-text Alignment for uNIfied cross-modal fashion design

  • ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal Fashion Design [66.7]
    クロスモーダルなファッション画像合成は、世代領域において最も有望な方向の1つとして現れてきた。 MaskCLIPは衣服をセマンティックな部分に分解し、視覚情報とテキスト情報の微粒化と意味的に正確なアライメントを確保する。 ArmANIは、学習したクロスモーダルコードブックに基づいて画像を一様トークンに識別し、Transformerを使用して実際の画像に対する画像トークンの分布をモデル化する。
    論文  参考訳(メタデータ)   (Thu, 11 Aug 2022 03:44:02 GMT)
    • (一部の)画像、スケッチ、テキスト入力などからファッション画像(服全体など)を生成する研究。柄の一部+テキスト指示で服の画像全体を作ることなどが可能とのこと。
      • 内容とは関係ないが、かなり無理がある略称
    • リポジトリはGitHub – Harvey594/ARMANI

生成型マルチモーダルモデルへのPrompt Tuning