マルチモーダル – ページ 14 – arXiv最新論文の紹介

LayoutLMv3

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking [83.1]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文参考訳（メタデータ） (Mon, 18 Apr 2022 16:19:52 GMT)
- マルチモーダル性を利用したLayoutLMのバージョン3。pre trainedなCNNやR-CNNバックボーンに依存していないというのにやや驚き。FUNSDでSoTAなどv2に比べて性能が向上している。
- リポジトリはunilm/layoutlmv3 at master · microsoft/unilm · GitHub

WikiDiverse: マルチモーダルなエンティティ・リンキングデータセット

WikiDiverse: A Multimodal Entity Linking Dataset with Diversified Contextual Topics and Entity Types [25.6]
MEL(Multimodal Entity Linking)は、知識ベース(例えばWikipedia)からの参照エンティティへの参照をマルチモーダルコンテキストにリンクすることを目的としている。 WikiDiverseは、Wikinewsのコンテキストトピックやエンティティタイプを多用した、高品質な人間アノテーション付きMELデータセットである。 WikiDiverseに基づいて、モダリティ内およびモダリティ間注目を伴うよく設計されたMELモデルのシーケンスを実装した。
論文参考訳（メタデータ） (Wed, 13 Apr 2022 12:52:40 GMT)
- 画像を併用したエンティティリンキングのデータセット。人の手が入っておりクオリティが高いとのこと。ベースラインモデルでもマルチモーダルなデータ活用は有効そう。データ数は8Kキャプション、ライセンスはCC BY-SA 4.0。
- リポジトリはGitHub – wangxw5/wikiDiverse

Socratic Model: モデル間の対話を通したマルチモーダル

Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language [49.8]
大規模な基盤モデルは、トレーニングされたデータのドメインによって、ユニークな機能を示すことができます。このモデルの多様性は共生的であり,構造化ソクラテス対話を用いたAIシステム構築に活用可能であることを示す。
論文参考訳（メタデータ） (Fri, 1 Apr 2022 17:43:13 GMT)
- 複数のモデルが通信をしてfine tuning無しでタスクを解く方法の提案。プロンプトが流行しているのを見るにこのようなことは可能なんだろうが、ゼロショットの組み合わせは汎用人工知能っぽい未来を感じる。
- リポジトリはSocratic Models: Composing Zero-Shot Multimodal Reasoning with Language

DALL-E 2: Hierarchical Text-Conditional Image Generation with CLIP Latents

非常にクオリティの高い画像を生成するDALL-Eの後継モデル。guidance scaleによるが何らかの軸（写実性、テキストとの類似性、多様性）でGLIDEよりも人間の評価が優れている。下記のようなLimitationも挙げられているが、サンプル画像からは実用レベルに達しているように感じる。
- オブジェクトへの属性反映はGLIDEの方が優れている（色やサイズ、位置関係の反映がイマイチ）
- テキスト生成が弱い（画像中にテキストを入れる場合正しい出力にならないことがある）
- 複雑な画像を生成しにくい（「64×64の画像を生成、アップサンプリングしているためではないか」という記載がある）
技術的にはCLIP による分散表現とdiffusion model（GLIDEベース）が活用されているとのこと。
サイトのURLはDALL·E 2 (openai.com)、論文はdall-e-2.pdf (openai.com)

Automatic Song Translation: 歌詞の自動翻訳

Automatic Song Translation for Tonal Languages [23.1]
歌詞翻訳のための新しいベンチマークを開発し,事前学習と3つの復号制約を組み合わせた教師なしASTシステムであるガイド付きAliGnment for Automatic Song Translation (GagaST)を開発した。自動評価と人的評価の両方で、GagaSTはセマンティクスと歌声のバランスをとることに成功した。
論文参考訳（メタデータ）参考訳（全文） (Fri, 25 Mar 2022 02:25:33 GMT)
- 歌詞の翻訳は元の意味を保持することに加えて、既存の音楽の韻律に一致する必要があり難しい。音素だけでなく発音によって意味が異なる言語の場合は問題が大きい。著者らはこのタスクを定義、データセットを作成、モデル構築（翻訳モデル構築では外部データを活用）を行っている。下記サイトのデモが面白い（が中国語が分からないので、翻訳の有効性が確認できず残念）。
- リポジトリはAutomatic Song Translation for Tonal Languages (with Demo) (gagast.github.io)

マルチモーダル& Graph Attentionによる文書理解

Multimodal Pre-training Based on Graph Attention Network for Document Understanding [32.6]
GraphDocは、さまざまなドキュメント理解タスクのためのグラフベースのモデルである。テキスト、レイアウト、画像情報を同時に活用することにより、マルチモーダルフレームワークで事前訓練される。 320万の未ラベル文書から一般的な表現を学習する。
論文参考訳（メタデータ）参考訳（全文） (Fri, 25 Mar 2022 09:27:50 GMT)
- ドキュメントレイアウトの認識でテキスト・画像・レイアウトなどマルチモーダルなデータを利用、UniDocやSelf-Doc以上の性能を達成とのこと。

KELIP: 大規模バイリンガル・マルチモーダルモデル（韓国語/英語）

Large-scale Bilingual Language-Image Contrastive Learning [17.2]
我々は11億枚の画像テキストペア(韓国語7億、英語4.7億)を集め、KELIPという名前のバイリンガル・マルチモーダルモデルを訓練します。我々は,MAE事前学習やマルチクロップ強化など,シンプルで効果的なトレーニング手法を導入する。実験により、そのようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示すことが示された。
論文参考訳（メタデータ） (Mon, 28 Mar 2022 03:02:03 GMT)
- 大規模なバイリンガル・マルチモーダルモデル。
- 英語とのバイリンガルモデルは日本語に対しても重要だと思っていて検証結果が面白かった。「bilingual KELIP can capture different characteristics of each cultural vision information for the same meaning of words but different languages」は非常に面白い性質。
  - KELIP = Korean and English bilingual contrastive Language-Image Pre-training？
- リポジトリはGitHub – navervision/KELIP: Official PyTorch implementation of “Large-scale Bilingual Language-Image Contrastive Learning” (ICLRW 2022)　デモはKELIP – a Hugging Face Space by navervision

M-SENA: マルチモーダルな感情分析プラットフォーム

M-SENA: An Integrated Platform for Multimodal Sentiment Analysis [15.2]
M-SENAはMultimodal Sentiment Analysisのオープンソースプラットフォームである。データ管理、特徴抽出、モデルトレーニング、結果分析モジュールで構成される、完全にモジュール化されたビデオ感情分析フレームワークを備えている。
論文参考訳（メタデータ） (Wed, 23 Mar 2022 14:28:08 GMT)
- All-in-One Platform for Multimodal Sentiment Analysisとのこと。ライセンスはGPL-3.0
- リポジトリはGitHub – thuiar/M-SENA: M-SENA: All-in-One Platform for Multimodal Sentiment Analysis

WuDaoMM: 大規模な画像・テキストのマルチモーダルデータセット

WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models [2.6]
我々はWuDaoMMという大規模マルチモーダルコーパスを導入し、6億5000万以上の画像テキストペアを網羅した。画像とキャプションの相関が弱い複数のWebページから、約6億のデータを収集する。具体的には、画像とキャプションの相関が弱い複数のWebページから約6億のデータを収集し、他の5000万の強い関連画像テキストペアを高品質なグラフィックWebサイトから収集する。また、WuDaoMMのベースバージョンを500万の強相関画像テキストペアでリリースし、一般的なクロスモーダルモデル事前トレーニングをサポートするのに十分です。
論文参考訳（メタデータ）参考訳（全文） (Tue, 22 Mar 2022 06:12:20 GMT)
- テキスト・画像の大規模データセット。研究目的にのみ利用可能。
- プロジェクトサイトはresource (wudaoai.cn)

Make-A-Scene: 制御可能なテキストtoイメージ生成

Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.7]
近年のテキスト・ツー・イメージ生成手法は生成した画像の忠実度とテキスト関連性を漸進的に改善しているが、いくつかの重要なギャップは未解決のままである。これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。 (i)シーン形式でテキストを補完する簡単な制御機構を可能にすること。 (ii)主要画像領域(顔及び突出物)にドメイン固有の知識を取り入れて、トークン化プロセスを大幅に改善する要素を導入すること。 (iii)変圧器の用途に分類器フリーのガイダンスを適用すること。本モデルでは,512×512ピクセルの解像度で高忠実度画像を生成する能力を解放し,視覚的品質を著しく向上する。
論文参考訳（メタデータ） (Thu, 24 Mar 2022 15:44:50 GMT)
- テキストからの画像生成時にセグメンテーション情報を与えることで生成される結果を制御可能なモデルの提案。どのようなものかはThe Little Red Boat Story (Make-A-Scene) – YouTubeの2:40以降を見るのが分かりやすい。

2025年10月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31