Multimodal C4

  • Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text [104.0]
    テキスト内ビジョンやFlamingoのような言語モデルは、任意のインターリーブされた画像とテキストのシーケンスを入力としてサポートする。 このインターフェースをサポートするために、インターリーブされた画像+テキストを含むウェブコーパス上でプレトレーニングが行われる。 我々はMultimodal C4 (mmc4) をリリースした。
    論文  参考訳(メタデータ)   (Fri, 14 Apr 2023 06:17:46 GMT)
  • 非常にありがたいマルチモーダルなデータセット。103Mドキュメント、585Mイメージ、43Btokenと大規模。
  • 「mmc4 is constructed from public webpages contained in the cleaned English c4 corpus.」とのことで日本語はほぼ入っていなさそう・・・
  • プロジェクトサイトはGitHub – allenai/mmc4: MultimodalC4 is a multimodal extension of c4 that interleaves millions of images with text.

ゼロショットなビデオ編集

  • Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [78.2]
    ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。 我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。 実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
    論文  参考訳(メタデータ)   (Thu, 13 Apr 2023 07:34:11 GMT)
  • vid2vidというゼロショットでのビデオ編集、画像ではできていたが動画でしかもフレーム間の一貫性をもって編集ができているように見える
  • GitHub – baaivision/vid2vid-zero: Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Modelsがリポジトリ、デモも存在Vid2vid Zero – a Hugging Face Space by BAAI

Segment Anything

  • Segment Anything [108.2]
    私たちはこれまでで最大のセグメンテーションデータセットを構築し、1100万ライセンスのマスクを10億枚以上使用し、画像のプライバシーを尊重しています。 このモデルは、高速に撮影できるように設計および訓練されており、ゼロショットを新しい画像配信やタスクに転送することができる。 多数のタスクでその能力を評価した結果、ゼロショット性能は印象的であることが判明した。
    論文  参考訳(メタデータ)   (Wed, 5 Apr 2023 17:59:46 GMT)
  • 強力なセグメンテーションモデルの提案。ゼロショットでテキストに対応したセグメンテーションも可能。イメージエンコーダ、プロンプトエンコーダ、マスクデコーダから構成されTransformerベース。
  • プログラムサイトはSegment Anything | Meta AI (segment-anything.com)、データセットも公開されているSA-1B Dataset (facebook.com)。 

Edit-A-Video

  • Edit-A-Video: Single Video Editing with Object-Aware Consistency [21.0]
    本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。 本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。 各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
    論文  参考訳(メタデータ)   (Thu, 23 Mar 2023 03:04:45 GMT)
  • テキストによる動画編集。「人間がギターを弾いているビデオ」+「“a bear is playing a guitar”」という入力で、ギターを弾いている人をクマに変更ができる。
  • 画像でできたことは動画でもできる、というのはわかるがとても面白い。
  • プロジェクトサイトはEdit-A-Video<span>:</span> Single Video Editing with Object-Aware Consistency

PaLM-E

  • PaLM-E: An Embodied Multimodal Language Model [101.3]
    本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。 我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
    論文  参考訳(メタデータ)   (Mon, 6 Mar 2023 18:58:06 GMT)
  • 大規模言語モデル(PaLM)と画像(ViT)の融合、マルチモーダルな巨大言語モデルでOK-VQAでSOTA。だけでなく、マルチモーダルなCoTやOCR-freeな数学的推論、multiimage reasoningなど幅広いタスクに対応可能とのこと。2ページの図は衝撃的でRobot Visual Perception, Dialogue, and Planningをみると目を持ったChatGPTのような雰囲気を感じる。
  • プロジェクトサイトはPaLM-E: An Embodied Multimodal Language Model

Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey

  • Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [49.6]
    本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来のディープラーニング, 事前学習の成果を概観することにより, マルチモーダル事前学習の背景を紹介する。 次に,マルチモーダル事前学習モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワークアーキテクチャ,知識強化事前学習に着目して,MM-PTMについて議論する。
    論文  参考訳(メタデータ)   (Mon, 20 Feb 2023 15:34:03 GMT)
  • LLMがとても盛り上がっているが、次に控える大規模マルチモーダル事前学習モデルに関するサーベイ
  • 扱うモダリティはText+ImageまたはVideoのようにCVとの組み合わせが多そうではあり、次の分野として有望そうな感じだが、さらに複数のモダリティを組み合わせているものもある

AV-data2vec

  • AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations [57.4]
    AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。 LRS3の結果は、AV-data2vecがほとんどの設定で既存のメソッドよりも一貫して優れていることを示している。
    論文  参考訳(メタデータ)   (Fri, 10 Feb 2023 02:55:52 GMT)
  • 音声・画像をマスクして構築するマルチモーダルな2vec
  • ASR, VSR, AVSRで統合的に優れた性能、既存モデルをアウトパフォームとのこと

Language Is Not All You Need

  • Language Is Not All You Need: Aligning Perception with Language Models [110.5]
    Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。 我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。 実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。 また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
    論文  参考訳(メタデータ)   (Wed, 1 Mar 2023 11:04:51 GMT)
  • 言語モデルの限界(テキスト)を超えるマルチモーダルモデルKOSMOS-1の提案。Image CaptioningやVQAで優れた性能(Flamingoと競合)。Web-based Structural Reading Comprehensionでマルチモーダルの恩恵を受けるのは確かに、という感想で実用性もありそう。
  •  KOSMOS-1 is about 1.6Bとのことで昨今の大規模言語モデルに比べると非常に大きいとも言えないサイズ。
  • 論文にはGitHub – microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalitiesが書かれているが現時点では公開踏破されていないよう

Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning

  • Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning [112.3]
    本稿では,Flamingo上に構築されたRetrieval-augmented Visual Language Model,Re-ViLMを紹介する。 外部データベースに特定の知識を明示的に格納することで、モデルパラメータの数を減らすことができる。 Re-ViLMは画像・テキスト生成タスクの性能を大幅に向上させることを示した。
    論文  参考訳(メタデータ)   (Thu, 9 Feb 2023 18:57:56 GMT)
  • 外部知識を利用可能なマルチモーダルモデル。Image CaptioningでFlamingoをoutperformとのこと。マルチモーダルな外部知識を活用できるのは純粋にすごいと思う。世の中のシステムのほとんどは(WEB検索を除き)画像検索はできない…。

Chain-of-Thoughtの改善 

マルチモーダル化、プロンプトの合成、新たな構築フレームワークとChain-of-Thoughtに関する改善を対象とした論文が複数出ていた。有用なテクニックとして認知されたのかなと思う&改善が結構な幅で行われているのが凄い。

  • Multimodal Chain-of-Thought Reasoning in Language Models [80.9]
    大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)を利用して複雑な推論において印象的な性能を示した。 本稿では,視覚機能を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。 Multimodal-CoTでは、ScienceQAベンチマークで10億のパラメータ未満のモデルで、従来の最先端のLCM(GPT-3.5)を16%(75.17%->91.68%)上回るパフォーマンスを実現しています。
    論文  参考訳(メタデータ)   (Thu, 2 Feb 2023 07:51:19 GMT)
  • Synthetic Prompting: Generating Chain-of-Thought Demonstrations for Large Language Models [121.5]
    大規模言語モデルはチェーン・オブ・ソート・プロンプトを使用して様々な推論タスクを実行でき、ステップ・バイ・ステップのデモを通じて回答を見つけることができる。 そこで本研究では,手作りの例を数種類活用して,モデルにさらに多くの例を生成する手法であるSynthetic promptingを紹介する。 本手法は数値的,記号的,アルゴリズム的推論タスクにおいて評価し,既存のプロンプト手法よりも優れていることを示す。
    論文  参考訳(メタデータ)   (Wed, 1 Feb 2023 17:33:12 GMT)
  • Faithful Chain-of-Thought Reasoning [29.9]
    CoT(Chain-of-Thought)は、複雑な推論タスクにおいて、言語モデル(LM)のパフォーマンスを高める。 推論タスクを2段階に分解する忠実な構築フレームワークであるFithful CoTを提案する。 提案手法は,4つの異なる領域の10の推論データセットに対して有効であることを示す。
    論文  参考訳(メタデータ)   (Tue, 31 Jan 2023 03:04:26 GMT)