マルチモーダル – ページ 9 – arXiv最新論文の紹介

Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey

Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [49.6]
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来のディープラーニング, 事前学習の成果を概観することにより, マルチモーダル事前学習の背景を紹介する。次に,マルチモーダル事前学習モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワークアーキテクチャ,知識強化事前学習に着目して,MM-PTMについて議論する。
論文参考訳（メタデータ） (Mon, 20 Feb 2023 15:34:03 GMT)
LLMがとても盛り上がっているが、次に控える大規模マルチモーダル事前学習モデルに関するサーベイ
扱うモダリティはText+ImageまたはVideoのようにCVとの組み合わせが多そうではあり、次の分野として有望そうな感じだが、さらに複数のモダリティを組み合わせているものもある

AV-data2vec

AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations [57.4]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。 LRS3の結果は、AV-data2vecがほとんどの設定で既存のメソッドよりも一貫して優れていることを示している。
論文参考訳（メタデータ） (Fri, 10 Feb 2023 02:55:52 GMT)
音声・画像をマスクして構築するマルチモーダルな2vec
ASR, VSR, AVSRで統合的に優れた性能、既存モデルをアウトパフォームとのこと

Language Is Not All You Need

Language Is Not All You Need: Aligning Perception with Language Models [110.5]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文参考訳（メタデータ） (Wed, 1 Mar 2023 11:04:51 GMT)
言語モデルの限界（テキスト）を超えるマルチモーダルモデルKOSMOS-1の提案。Image CaptioningやVQAで優れた性能（Flamingoと競合）。Web-based Structural Reading Comprehensionでマルチモーダルの恩恵を受けるのは確かに、という感想で実用性もありそう。
KOSMOS-1 is about 1.6Bとのことで昨今の大規模言語モデルに比べると非常に大きいとも言えないサイズ。
論文にはGitHub – microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalitiesが書かれているが現時点では公開踏破されていないよう

Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning

Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning [112.3]
本稿では,Flamingo上に構築されたRetrieval-augmented Visual Language Model,Re-ViLMを紹介する。外部データベースに特定の知識を明示的に格納することで、モデルパラメータの数を減らすことができる。 Re-ViLMは画像・テキスト生成タスクの性能を大幅に向上させることを示した。
論文参考訳（メタデータ） (Thu, 9 Feb 2023 18:57:56 GMT)
外部知識を利用可能なマルチモーダルモデル。Image CaptioningでFlamingoをoutperformとのこと。マルチモーダルな外部知識を活用できるのは純粋にすごいと思う。世の中のシステムのほとんどは（WEB検索を除き）画像検索はできない…。

Chain-of-Thoughtの改善

マルチモーダル化、プロンプトの合成、新たな構築フレームワークとChain-of-Thoughtに関する改善を対象とした論文が複数出ていた。有用なテクニックとして認知されたのかなと思う＆改善が結構な幅で行われているのが凄い。

Multimodal Chain-of-Thought Reasoning in Language Models [80.9]
大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)を利用して複雑な推論において印象的な性能を示した。本稿では,視覚機能を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。 Multimodal-CoTでは、ScienceQAベンチマークで10億のパラメータ未満のモデルで、従来の最先端のLCM(GPT-3.5)を16%(75.17%->91.68%)上回るパフォーマンスを実現しています。
論文参考訳（メタデータ） (Thu, 2 Feb 2023 07:51:19 GMT)

Synthetic Prompting: Generating Chain-of-Thought Demonstrations for Large Language Models [121.5]
大規模言語モデルはチェーン・オブ・ソート・プロンプトを使用して様々な推論タスクを実行でき、ステップ・バイ・ステップのデモを通じて回答を見つけることができる。そこで本研究では,手作りの例を数種類活用して,モデルにさらに多くの例を生成する手法であるSynthetic promptingを紹介する。本手法は数値的,記号的,アルゴリズム的推論タスクにおいて評価し,既存のプロンプト手法よりも優れていることを示す。
論文参考訳（メタデータ） (Wed, 1 Feb 2023 17:33:12 GMT)

Faithful Chain-of-Thought Reasoning [29.9]
CoT(Chain-of-Thought)は、複雑な推論タスクにおいて、言語モデル(LM)のパフォーマンスを高める。推論タスクを2段階に分解する忠実な構築フレームワークであるFithful CoTを提案する。提案手法は,4つの異なる領域の10の推論データセットに対して有効であることを示す。
論文参考訳（メタデータ） (Tue, 31 Jan 2023 03:04:26 GMT)

Scaling Laws for Generative Mixed-Modal Language Models

Scaling Laws for Generative Mixed-Modal Language Models [103.3]
個別のモダリティの貢献とそれら間の相互作用を統一する混合モードスケーリング法則について報告する。具体的には、過去のユニモーダルスケーリング法則に対する加算項として、データとモデルサイズによる最適シナジーと競合を明示的にモデル化する。また,訓練中に観察される4つの経験的現象,例えば,自然にモダリティを交互に交互に行う創発的コーディネート・アセット・スタイル・トレーニングを見出した。
論文参考訳（メタデータ） (Tue, 10 Jan 2023 00:20:06 GMT)

GIVL: Geographical Inclusivity of Vision-Language

GIVL: Improving Geographical Inclusivity of Vision-Language Models with Pre-Training Methods [62.1]
我々は地理包摂型視覚・言語事前学習モデルであるGIVLを提案する。 1) 類似のカテゴリにおける概念は独自の知識と視覚的特徴を持ち、2) 類似の視覚的特徴を持つ概念は、全く異なるカテゴリに該当する可能性がある。 GIVLは、同様のスケールのデータを事前訓練した類似サイズのモデルと比較して、最先端のSOTA(State-of-the-art)を達成し、ジオディバースなV&Lタスクにおけるよりバランスの取れたパフォーマンスを実現している。
論文参考訳（メタデータ） (Thu, 5 Jan 2023 03:43:45 GMT)
結婚式や祭りのような地域特性のある画像をうまく取り扱えるVLモデルの提案。GD-VCR(Geo-Diverse Visual Commonsense Reasoning dataset): 地域特性を反映したVQA – arXiv最新論文の紹介 (devneko.jp)もあったがこの手の考慮は重要。
コードなどはリリース予定とのこと。

CiT: Curation in Training

CiT: Curation in Training for Effective Vision-Language Data [84.8]
本稿では,学習対象を学習対象とする視覚テキスト学習アルゴリズムであるCuration in Training (CiT)を提案する。 CiTは、コントラストのある画像テキストトレーニングを高速化するために、品質データを自動生成する。我々は,特に生データサイズが大きい場合,CitTが1桁以上のトレーニングを高速化できることを観察した。
論文参考訳（メタデータ） (Thu, 5 Jan 2023 18:59:57 GMT)
近年のモデル構築時には大規模データセットからメタデータ等を用いて目的にあったものをフィルタリングすることが多いが、そのキュレーション作業をTrainingプロセスに組み込むという手法の提案。
GitHub – facebookresearch/CiT: Code for the paper titled “CiT Curation in Training for Effective Vision-Language Data”.

HybridQAのサーベイ

A Survey on Table-and-Text HybridQA: Concepts, Methods, Challenges and Future Directions [46.1]
表とテキストのハイブリッドな質問応答 (HybridQA) は、金融分野や科学分野に広く採用されているNLPタスクである。本稿では,現在のHybridQAベンチマークと手法を要約し,課題と今後の方向性について分析する。
論文参考訳（メタデータ） (Tue, 27 Dec 2022 12:34:57 GMT)
表+テキストを対象とした質問応答タスクのサーベイ
実用性が高いがまだまだ簡単ではないタスク

X-Decoder

Generalized Decoding for Pixel, Image, and Language [197.9]
画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。 X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
論文参考訳（メタデータ） (Wed, 21 Dec 2022 18:58:41 GMT)
多様なセグメンテーションタスクに対応可能な視覚・言語モデル
X-Decoder: Generalized Decoding for Pixel, Image and Language (x-decoder-vl.github.io)

2025年10月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31