MIMIC-IT

X-Align++ 

  • X-Align++: cross-modal cross-view alignment for Bird’s-eye-view segmentation [44.6]
    X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。 X-Alignは、nuScenesとKITTI-360データセットの3つの絶対mIoUポイントにより、最先端を著しく上回る。
    論文  参考訳(メタデータ)   (Tue, 6 Jun 2023 15:52:55 GMT)
  • カメラとLiDARデータの融合(ゆえにクロスモーダル)によるBird’s-eye-viewセグメンテーション手法の提案、nuScenesでのSoTAを主張。

XTREME-UP

  • XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented Languages [105.5]
    データ不足は、多言語NLPシステムの開発において重要な問題である。 我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。 XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
    論文  参考訳(メタデータ)   (Wed, 24 May 2023 06:09:28 GMT)
  • 非常に多言語のNLPベンチマーク。対象タスクもASR、OCR、AutoComplete、Transliteration、Machine Translation、QA、Ritrieval for QA、NER、Semantic Parsingと多様。
  • リポジトリはGitHub – google-research/xtreme-up

Multimodal Image Synthesis and Editing: A Survey

  • Multimodal Image Synthesis and Editing: A Survey [104.0]
    コンピュータビジョンとディープラーニングの研究において、マルチモーダル情報間の効果的な相互作用と融合が重要な役割を担っている。 マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。 近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。 ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
    論文  参考訳(メタデータ)   (Mon, 24 Apr 2023 12:43:35 GMT)
  • 画像生成・編集に関するサーベイのver4
  • GitHub – fnzhan/MISE: Multimodal Image Synthesis and Editing: A Survey

Multimodal C4

  • Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text [104.0]
    テキスト内ビジョンやFlamingoのような言語モデルは、任意のインターリーブされた画像とテキストのシーケンスを入力としてサポートする。 このインターフェースをサポートするために、インターリーブされた画像+テキストを含むウェブコーパス上でプレトレーニングが行われる。 我々はMultimodal C4 (mmc4) をリリースした。
    論文  参考訳(メタデータ)   (Fri, 14 Apr 2023 06:17:46 GMT)
  • 非常にありがたいマルチモーダルなデータセット。103Mドキュメント、585Mイメージ、43Btokenと大規模。
  • 「mmc4 is constructed from public webpages contained in the cleaned English c4 corpus.」とのことで日本語はほぼ入っていなさそう・・・
  • プロジェクトサイトはGitHub – allenai/mmc4: MultimodalC4 is a multimodal extension of c4 that interleaves millions of images with text.

ゼロショットなビデオ編集

  • Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [78.2]
    ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。 我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。 実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
    論文  参考訳(メタデータ)   (Thu, 13 Apr 2023 07:34:11 GMT)
  • vid2vidというゼロショットでのビデオ編集、画像ではできていたが動画でしかもフレーム間の一貫性をもって編集ができているように見える
  • GitHub – baaivision/vid2vid-zero: Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Modelsがリポジトリ、デモも存在Vid2vid Zero – a Hugging Face Space by BAAI

Segment Anything

  • Segment Anything [108.2]
    私たちはこれまでで最大のセグメンテーションデータセットを構築し、1100万ライセンスのマスクを10億枚以上使用し、画像のプライバシーを尊重しています。 このモデルは、高速に撮影できるように設計および訓練されており、ゼロショットを新しい画像配信やタスクに転送することができる。 多数のタスクでその能力を評価した結果、ゼロショット性能は印象的であることが判明した。
    論文  参考訳(メタデータ)   (Wed, 5 Apr 2023 17:59:46 GMT)
  • 強力なセグメンテーションモデルの提案。ゼロショットでテキストに対応したセグメンテーションも可能。イメージエンコーダ、プロンプトエンコーダ、マスクデコーダから構成されTransformerベース。
  • プログラムサイトはSegment Anything | Meta AI (segment-anything.com)、データセットも公開されているSA-1B Dataset (facebook.com)。 

Edit-A-Video

  • Edit-A-Video: Single Video Editing with Object-Aware Consistency [21.0]
    本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。 本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。 各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
    論文  参考訳(メタデータ)   (Thu, 23 Mar 2023 03:04:45 GMT)
  • テキストによる動画編集。「人間がギターを弾いているビデオ」+「“a bear is playing a guitar”」という入力で、ギターを弾いている人をクマに変更ができる。
  • 画像でできたことは動画でもできる、というのはわかるがとても面白い。
  • プロジェクトサイトはEdit-A-Video<span>:</span> Single Video Editing with Object-Aware Consistency

PaLM-E

  • PaLM-E: An Embodied Multimodal Language Model [101.3]
    本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。 我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
    論文  参考訳(メタデータ)   (Mon, 6 Mar 2023 18:58:06 GMT)
  • 大規模言語モデル(PaLM)と画像(ViT)の融合、マルチモーダルな巨大言語モデルでOK-VQAでSOTA。だけでなく、マルチモーダルなCoTやOCR-freeな数学的推論、multiimage reasoningなど幅広いタスクに対応可能とのこと。2ページの図は衝撃的でRobot Visual Perception, Dialogue, and Planningをみると目を持ったChatGPTのような雰囲気を感じる。
  • プロジェクトサイトはPaLM-E: An Embodied Multimodal Language Model

Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey

  • Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [49.6]
    本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来のディープラーニング, 事前学習の成果を概観することにより, マルチモーダル事前学習の背景を紹介する。 次に,マルチモーダル事前学習モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワークアーキテクチャ,知識強化事前学習に着目して,MM-PTMについて議論する。
    論文  参考訳(メタデータ)   (Mon, 20 Feb 2023 15:34:03 GMT)
  • LLMがとても盛り上がっているが、次に控える大規模マルチモーダル事前学習モデルに関するサーベイ
  • 扱うモダリティはText+ImageまたはVideoのようにCVとの組み合わせが多そうではあり、次の分野として有望そうな感じだが、さらに複数のモダリティを組み合わせているものもある