マルチモーダル – ページ 8 – arXiv最新論文の紹介

マルチモーダルな大規模言語モデルのサーベイ&チュートリアル

A Survey on Multimodal Large Language Models [56.8]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために、脳として強力な大規模言語モデルを使用する。 MLLMの驚くべき創発的能力、例えば画像に基づくストーリーの作成やOCRのない数学推論は、伝統的な手法ではまれである。
論文参考訳（メタデータ） (Fri, 23 Jun 2023 15:21:52 GMT)
マルチモーダルな大規模言語モデルのサーベイ。Multimodal Instruction Tuning (MIT)、Multimodal In-Context Learning (M-ICL)、 Multimodal Chain-of-Thought (M-CoT)、LLM-Aided Visual Reasoning (LAVR)のカテゴリで整理。LLMを中心に様々なトライがされていることが分かる。
リポジトリはGitHub – BradyFU/Awesome-Multimodal-Large-Language-Models: :sparkles::sparkles:Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation.で、この論文リストも相当価値が高い。

Large Multimodal Models: Notes on CVPR 2023 Tutorial [29.8]
このチュートリアルノートは、CVPR 2023 tutorial on recent Advances in Vision Foundation Models’ の一部である。視覚・言語モデリングのための最近のGPTのような大規模モデルについて,まずその背景を紹介する。前提条件として,大規模言語モデルにおけるインストラクションチューニングの基礎について述べる。最後に、オープンソースリソースを用いたマルチモーダルGPT-4のようなモデルの最小限のプロトタイプを構築する方法について説明する。
論文参考訳（メタデータ） (Mon, 26 Jun 2023 17:59:31 GMT)
CVPRのマルチモーダルモデルのチュートリアル
スライド：https://tinyurl.com/5c2c2mtm、動画[CVPR2023 Tutorial Talk] Large Multimodal Models: Towards Building and Surpassing Multimodal GPT-4 – YouTubeなどとても有用

MIMIC-IT

MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.9]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。 MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文参考訳（メタデータ） (Thu, 8 Jun 2023 17:59:56 GMT)
大規模なマルチモーダル（画像または動画）のinstruction-response データセット、日本語も含まれているとのこと
リポジトリはGitHub – Luodian/Otter: 🦦 Otter, a multi-modal model based on OpenFlamingo (open-sourced version of DeepMind’s Flamingo), trained on MIMIC-IT and showcasing improved instruction-following and in-context learning ability.

X-Align++

X-Align++: cross-modal cross-view alignment for Bird’s-eye-view segmentation [44.6]
X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。 X-Alignは、nuScenesとKITTI-360データセットの3つの絶対mIoUポイントにより、最先端を著しく上回る。
論文参考訳（メタデータ） (Tue, 6 Jun 2023 15:52:55 GMT)
カメラとLiDARデータの融合（ゆえにクロスモーダル）によるBird’s-eye-viewセグメンテーション手法の提案、nuScenesでのSoTAを主張。

XTREME-UP

XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented Languages [105.5]
データ不足は、多言語NLPシステムの開発において重要な問題である。我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。 XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文参考訳（メタデータ） (Wed, 24 May 2023 06:09:28 GMT)
非常に多言語のNLPベンチマーク。対象タスクもASR、OCR、AutoComplete、Transliteration、Machine Translation、QA、Ritrieval for QA、NER、Semantic Parsingと多様。
リポジトリはGitHub – google-research/xtreme-up

Multimodal Image Synthesis and Editing: A Survey

Multimodal Image Synthesis and Editing: A Survey [104.0]
コンピュータビジョンとディープラーニングの研究において、マルチモーダル情報間の効果的な相互作用と融合が重要な役割を担っている。マルチモーダル画像合成と編集は近年ホットな研究テーマになっている。近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文参考訳（メタデータ） (Mon, 24 Apr 2023 12:43:35 GMT)
画像生成・編集に関するサーベイのver4
GitHub – fnzhan/MISE: Multimodal Image Synthesis and Editing: A Survey

Multimodal C4

Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text [104.0]
テキスト内ビジョンやFlamingoのような言語モデルは、任意のインターリーブされた画像とテキストのシーケンスを入力としてサポートする。このインターフェースをサポートするために、インターリーブされた画像+テキストを含むウェブコーパス上でプレトレーニングが行われる。我々はMultimodal C4 (mmc4) をリリースした。
論文参考訳（メタデータ） (Fri, 14 Apr 2023 06:17:46 GMT)
非常にありがたいマルチモーダルなデータセット。103Mドキュメント、585Mイメージ、43Btokenと大規模。
「mmc4 is constructed from public webpages contained in the cleaned English c4 corpus.」とのことで日本語はほぼ入っていなさそう・・・
プロジェクトサイトはGitHub – allenai/mmc4: MultimodalC4 is a multimodal extension of c4 that interleaves millions of images with text.

ゼロショットなビデオ編集

Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [78.2]
ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 07:34:11 GMT)
vid2vidというゼロショットでのビデオ編集、画像ではできていたが動画でしかもフレーム間の一貫性をもって編集ができているように見える
GitHub – baaivision/vid2vid-zero: Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Modelsがリポジトリ、デモも存在Vid2vid Zero – a Hugging Face Space by BAAI

Segment Anything

Segment Anything [108.2]
私たちはこれまでで最大のセグメンテーションデータセットを構築し、1100万ライセンスのマスクを10億枚以上使用し、画像のプライバシーを尊重しています。このモデルは、高速に撮影できるように設計および訓練されており、ゼロショットを新しい画像配信やタスクに転送することができる。多数のタスクでその能力を評価した結果、ゼロショット性能は印象的であることが判明した。
論文参考訳（メタデータ） (Wed, 5 Apr 2023 17:59:46 GMT)
強力なセグメンテーションモデルの提案。ゼロショットでテキストに対応したセグメンテーションも可能。イメージエンコーダ、プロンプトエンコーダ、マスクデコーダから構成されTransformerベース。
プログラムサイトはSegment Anything | Meta AI (segment-anything.com)、データセットも公開されているSA-1B Dataset (facebook.com)。

Edit-A-Video

Edit-A-Video: Single Video Editing with Object-Aware Consistency [21.0]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文参考訳（メタデータ） (Thu, 23 Mar 2023 03:04:45 GMT)
テキストによる動画編集。「人間がギターを弾いているビデオ」＋「“a bear is playing a guitar”」という入力で、ギターを弾いている人をクマに変更ができる。
画像でできたことは動画でもできる、というのはわかるがとても面白い。
プロジェクトサイトはEdit-A-Video<span>:</span> Single Video Editing with Object-Aware Consistency

PaLM-E

PaLM-E: An Embodied Multimodal Language Model [101.3]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文参考訳（メタデータ） (Mon, 6 Mar 2023 18:58:06 GMT)
大規模言語モデル（PaLM）と画像（ViT）の融合、マルチモーダルな巨大言語モデルでOK-VQAでSOTA。だけでなく、マルチモーダルなCoTやOCR-freeな数学的推論、multiimage reasoningなど幅広いタスクに対応可能とのこと。2ページの図は衝撃的でRobot Visual Perception, Dialogue, and Planningをみると目を持ったChatGPTのような雰囲気を感じる。
プロジェクトサイトはPaLM-E: An Embodied Multimodal Language Model

2025年10月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31