マルチモーダル – ページ 11 – arXiv最新論文の紹介

Imagic: Text-Based Real Image Editing with Diffusion Models

Imagic: Text-Based Real Image Editing with Diffusion Models [19.1]
我々は、複雑なテキストガイド付きセマンティック編集を1つの実画像に適用できることを実証する。提案手法は1つの入力画像と1つのターゲットテキストのみを必要とする。実際のイメージで動作し、追加の入力を必要としない。
論文参考訳（メタデータ） (Mon, 17 Oct 2022 17:27:32 GMT)
- 画像＋指示で画像編集ができる手法提案。「鳥の画像」＋「羽を広げる」で羽を広げた鳥の画像を生成可能。スタイル変換だけではなく物体の形も編集できているのが凄い。

ERNIE-Layout

ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding [52.4]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文参考訳（メタデータ） (Wed, 12 Oct 2022 12:59:24 GMT)
- ERNIEシリーズのDocument Understanding、画像に関する特徴も処理しDocFormerやLayoutLMv2を超える優れた性能を実現している。
- デモはERNIE-Layout – a Hugging Face Space by PaddlePaddleと思われる

MuRAG: マルチモーダルなRAG

MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text [58.7]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10～20%精度が高いことがわかった。
論文参考訳（メタデータ） (Thu, 6 Oct 2022 13:58:03 GMT)
- マルチモーダルなRAG、モダリティを追加することで性能も相応に向上している。

Imagen Video

Imagen Video: High Definition Video Generation with Diffusion Models [64.1]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。 imagen videoは忠実度の高い動画を生成するだけでなく、さまざまな芸術スタイルで多様なビデオやテキストアニメーションを生成できる機能や、3dオブジェクト理解機能など、高度な制御性と世界の知識も備えている。
論文参考訳（メタデータ） (Wed, 5 Oct 2022 14:41:38 GMT)
- Imagenの動画版、低解像度・低フレームレートの動画から画像方向・時間方向の両面で超解像度化を行っている
- プロジェクトサイトはImagen Video (research.google)

Passau-SFCH: マルチモーダルなユーモア検出データセット

Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [58.8]
ユーモアは人間の感情と認知の重要な要素である。ユーモア検出の現在の方法は、単にステージ化されたデータに基づいており、’現実世界’のアプリケーションには不十分である。約11時間の録音を含むPassau-Spontaneous Football Coach Humourデータセットについて紹介する。
論文参考訳（メタデータ） (Wed, 28 Sep 2022 17:36:47 GMT)
- ユーモア検出データセットの提案、表情が有力な特徴量だったとのこと。
  - 論文中に紹介されていたユーモアの分類も面白かった
- リポジトリはEIHW/passau-sfch (github.com)

Text-to-Video without Text-Video Data

Make-A-Video: Text-to-Video Generation without Text-Video Data [69.2]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文参考訳（メタデータ） (Thu, 29 Sep 2022 13:59:46 GMT)
- テキストからの動画作成。text2imageモデルをベースに動画データ＋教師無し学習で構築されたモデルで動画への補間を行っているよう
- プロジェクトサイトはhttps://make-a-video.github.io

PaLI: Pathways Language and Image

PaLI: A Jointly-Scaled Multilingual Language-Image Model [110.1]
PaLI(PathwaysLanguage and Image model)は、このアプローチを言語と視覚の合同モデリングに拡張する。我々は、100以上の言語で10B画像とテキストを含む新しい画像テキストトレーニングセットに基づいて、事前学習タスクの多言語混合を作成する。
論文参考訳（メタデータ） (Wed, 14 Sep 2022 17:24:07 GMT)
- 13BパラメータのmT5-XXL、2BパラメータのViT-G or 4Bパラメータの ViT-e を用いたマルチリンガル・マルチモーダルなモデル、FlamingoやCoCaを超える性能を達成とのこと。多言語化においてはモデルサイズが重要（かつ大規模でないと厳しそう）という印象。
- モデルカード、データカードがgoogle-research/pali at master · google-research/google-research (github.com)に存在。本件で構築されたデータセットWebLI は9.6Gインスタンス、260TB…

OmniVL

OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.6]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文参考訳（メタデータ） (Thu, 15 Sep 2022 17:59:59 GMT)
- 1つのFoundation Modelを目指した新たな成果、生成系/非生成系の両タスクへの対応、Image-Language/Video-Languageの両方へ対応などVIOLETやFlorenceといったモデルよりも対応可能な範囲が広がっており、性能も優れている。「visual/video question answering」には課題があるとのこと。

Customized Prompts via Language models

What does a platypus look like? Generating customized prompts for zero-shot image classification [47.8]
本研究は,画像領域の明示的な知識を使わずに,高精度なプロンプトを生成する簡単な手法を提案する。大規模言語モデル(LLM)に含まれる知識を活用し、各オブジェクトカテゴリにカスタマイズされた多くの記述文を生成する。このアプローチは、ImageNetの1パーセント以上のポイントゲインを含む、ゼロショット画像分類ベンチマークの精度を改善する。
論文参考訳（メタデータ） (Wed, 7 Sep 2022 17:27:08 GMT)
- 大規模言語モデルからの知識を用いてゼロショット画像分類モデルの精度を上げるアプローチ。手作業で作成する部分をGPT-3のような大規模言語モデルに代替させるのはとても良さそう。
- リポジトリはsarahpratt/CuPL (github.com)

MotionDiffuse: 拡散モデルでのモーション生成

MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.3]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文参考訳（メタデータ） (Wed, 31 Aug 2022 17:58:54 GMT)
- テキストで指示可能なモーション作成、Diffusionモデルを活用しているとのこと。（ややニッチかもだが）画像生成の次に流行ったりするのだろうか。
- プロジェクトサイトはMotionDiffuse (mingyuan-zhang.github.io)

2025年10月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31