マルチモーダル – ページ 12 – arXiv最新論文の紹介

BEiT-3

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks [87.6]
汎用多目的基礎モデルBEiT-3を紹介する。視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文参考訳（メタデータ） (Mon, 22 Aug 2022 16:55:04 GMT)
- vision、vision-languageの複数のタスクでSoTAを達成するfoundation model
- 画像を外国語（言語）として扱いその後の処理を行っていることが高性能のカギという興味深い主張。Imglishという言葉も面白い。
- プロジェクトサイトはunilm/beit at master · microsoft/unilm (github.com)

DreamBooth: 画像生成モデルのパーソナライズ

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation [26.7]
テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
論文参考訳（メタデータ） (Thu, 25 Aug 2022 17:45:49 GMT)
- 少量のデータを用いて画像生成モデルに新たな画像（例えば自分のペットなど）を組み込めるという研究。Stable DiffusionやMidjurneyといった最近流行りの画像生成モデルをパーソナライズできる内容でとても面白い。
- プロジェクトサイトはDreamBooth

マルチモーダルなプレゼンテーションデータセット

Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides [57.9]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。このデータセットには,180時間以上のビデオと9000以上のスライドが,各科目から10人の講師が参加している。マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文参考訳（メタデータ） (Wed, 17 Aug 2022 05:30:18 GMT)
- 330本・180時間以上の動画、9000以上のスライドからなるデータセット。ライセンスはCC BY-SA-NC。text-to-ﬁgure（音声の説明から図を検索）、ﬁgure-to-text（図から音声の説明を検索）の検索タスクを前提として設計されているとのこと。既存手法、提案手法とも人間のパフォーマンスとのギャップが大きい。
- リポジトリはdondongwon/MLPDataset (github.com)

ARMANI: pARt-level garMent-text Alignment for uNIfied cross-modal fashion design

ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal Fashion Design [66.7]
クロスモーダルなファッション画像合成は、世代領域において最も有望な方向の1つとして現れてきた。 MaskCLIPは衣服をセマンティックな部分に分解し、視覚情報とテキスト情報の微粒化と意味的に正確なアライメントを確保する。 ArmANIは、学習したクロスモーダルコードブックに基づいて画像を一様トークンに識別し、Transformerを使用して実際の画像に対する画像トークンの分布をモデル化する。
論文参考訳（メタデータ） (Thu, 11 Aug 2022 03:44:02 GMT)
- （一部の）画像、スケッチ、テキスト入力などからファッション画像（服全体など）を生成する研究。柄の一部＋テキスト指示で服の画像全体を作ることなどが可能とのこと。
  - 内容とは関係ないが、かなり無理がある略称
- リポジトリはGitHub – Harvey594/ARMANI

生成型マルチモーダルモデルへのPrompt Tuning

Prompt Tuning for Generative Multimodal Pretrained Models [75.4]
我々は、理解タスクと生成タスクの両方に適応した統合シーケンス・ツー・シーケンス事前学習モデルに、即時チューニングを実装した。実験結果から,軽量なプロンプトチューニングはファインタニングで同等の性能を発揮することが示された。微調整モデルと比較して、プロンプト調整モデルでは敵攻撃に対する堅牢性が改善されている。
論文参考訳（メタデータ） (Thu, 4 Aug 2022 08:56:38 GMT)
- 生成的マルチモーダル事前学習モデルへのPrompt tuningとFine tuningを比較した論文。prompt-tuned modelの方が頑健性が高いというのは面白い結果（特定データにひっぱらられにくいという意味で納得感もある）
- リポジトリはGitHub – OFA-Sys/OFA: Official repository of OFA (ICML 2022). Paper: OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

FashionViL: ファッションにフォーカスした画像-言語モデル

FashionViL: Fashion-Focused Vision-and-Language Representation Learning [129.5]
ファッション中心の視覚・言語(V+L)表現学習フレームワークFashionViLを提案する。特に2つの本質的な属性とファッションV+Lデータを活用するために設計された、2つの新しいファッション特化事前学習タスクを含んでいる。大規模な実験により、FashionViLは5つの下流タスクにまたがって新しい最先端の技術を達成していることがわかった。
論文参考訳（メタデータ） (Sun, 17 Jul 2022 12:06:27 GMT)
- ファッション用のRepresentation Learningフレームワークの提案。MVC: Multi-view contrastive learning (ファッションの画像は様々な方向から撮影されていることを利用)、PAC: PseudoAttribute Classification (ファッションアイテムで同じ属性を持つものをまとめられる)などを利用し複数のタスクでSoTAを主張。
  - ドメインに応じた事前学習の有効性が分かる結果だと思う
- リポジトリはGitHub – BrandonHanx/mmf: [ECCV 2022] FashionViL: Fashion-Focused V+L Representation Learning

Clover: Correlated Video-Language pre-training method

Clover: Towards A Unified Video-Language Alignment and Fusion Model [154.1]
さまざまなビデオ理解タスク(テキストビデオ検索、ビデオ質問応答など)を解決するためのユニバーサルビデオ言語モデルの構築は、機械学習分野に対するオープンチャレンジである。複数のビデオ理解タスクを、パフォーマンスと効率の妥協を伴わずに解決するための普遍的なビデオ言語モデルに対して、Cloverを紹介します。新たなtri-modal alignment pre-trainingタスクにより、クロスモーダル特徴のアライメントと融合を改善する。 Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
論文参考訳（メタデータ） (Sat, 16 Jul 2022 09:38:52 GMT)
- マルチモーダルな事前学習モデルの提案。Text to Video RetrievalやVideo Question Answeringにおいて、VIOLETやMERLOT、MCQに対し優位性を主張
- リポジトリはGitHub – LeeYN-43/Clover: Offical PyTorch implementation of Clover: Towards A Unified Video-Language Alignment and Fusion Model

Visual Context Augmented Dialogue Systemのサーベイ

Enabling Harmonious Human-Machine Interaction with Visual-Context Augmented Dialogue System: A Review [40.5]
Visual Context Augmented Dialogue System (VAD) は、マルチモーダル情報を知覚し理解することで人間とコミュニケーションする能力を持つ。 VADは、エンゲージメントとコンテキスト対応の応答を生成する可能性を秘めている。
論文参考訳（メタデータ） (Sat, 2 Jul 2022 09:31:37 GMT)
- マルチモーダルな情報を利用する対話システムのサーベイ。

Unified-IO

Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks [39.1]
Unified-IOは、古典的なコンピュータビジョンタスクにまたがるさまざまなAIタスクを実行するモデルである。我々は、サポート対象の入力と出力を個別の語彙トークン列に均質化することで、この統一を実現する。 Unified-IOはGRITベンチマークで7つのタスクすべてを実行することができる最初のモデルである。
論文参考訳（メタデータ）参考訳（全文） (Fri, 17 Jun 2022 17:53:47 GMT)
- 非常に多様なデータ、タスクを扱えるモデルの提案。
  - META LMでも感じたが、汎用に使えるAI（しかも事前学習済み）は夢物語ではなくなりつつあると感じる。そしてマルチモーダルをつなぐのは言語なのだろうか。
- プロジェクトサイトはUnified-IO, a new general purpose model from AI2 (allenai.org)

Parti: Pathways Autoregressive Text-to-Image

Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.0]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文参考訳（メタデータ） (Wed, 22 Jun 2022 01:11:29 GMT)
- DALL-E2やImagenなど画像生成系モデルの進化が速い。Partiもきわめて強力な画像生成モデルであり、作例が凄い。加えてモデルサイズを変えた比較が非常に参考になり、350Mパラメータと20Bパラメータではクオリティが異なることが分かる。
- プロジェクトサイトはParti: Pathways Autoregressive Text-to-Image Model (research.google)
  - 「we have decided not to release our Parti models, code, or data for public use without further safeguards in place.」とのこと。クローズドな方針は議論を呼びそう。（とはいえ、公開されたからといって計算リソース的に再現は容易ではないが…）

2025年10月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31