マルチモーダル – arXiv最新論文の紹介

Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation [16.3]
マルチモーダルなセマンティックセグメンテーションのためのSiamese MambaネットワークであるSigmaを紹介する。シームズエンコーダを用いて,マンバ核融合機構を革新することにより,様々なモーダルから本質的な情報を効果的に選択する。本手法はRGB-ThermalとRGB-Depthのセグメンテーションタスクにおいて厳密に評価される。
論文参考訳（メタデータ） (Fri, 05 Apr 2024 17:59:44 GMT)
MambaベースのMulti-modal semantic segmentationモデルの提案。画像分野の応用も有望なんだろうか。
リポジトリはzifuwan/Sigma: Python implementation of Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation (github.com)

m3P: Multimodal Multilingual neural Machine Translation

m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt [39.3]
マルチモーダル多言語ニューラルマシン翻訳(m3P)を導くためのマルチモーダルプロンプトを利用するフレームワークを提案する。本手法は, 中心言語としてのイメージを考慮し, 異なる言語の表現距離を最小化することを目的とする。実験の結果,m3Pは従来のテキストのみのベースラインや多言語マルチモーダルメソッドよりも大きなマージンで優れていた。
論文参考訳（メタデータ） (Tue, 26 Mar 2024 10:04:24 GMT)
「we introduce visual context as the universal language-independent representation to facilitate multilingual translation.」が実現できそうであることが感慨深い。結果からも一定程度の効果が出ていそう。
データセットが公開されているのも凄い　CSJianYang/InstrMulti102 · Datasets at Hugging Face

CoIN: Continual Instruction tuNing

CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model [128.5]
逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。 CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
論文参考訳（メタデータ） (Wed, 13 Mar 2024 08:54:31 GMT)
マルチモーダルな大規模言語モデルに対する継続的な命令チューニングのベンチマークデータ
リポジトリはzackschen/CoIN: Instruction Tuning in Continual Learning paradigm (github.com)

TIVE: Task-level and Instance-level Value Estimation

Less is More: Data Value Estimation for Visual Instruction Tuning [127.4]
視覚的命令データにおける冗長性を除去する新しいデータ選択手法を提案する。 LLaVA-1.5の実験では、約7.5%のデータしか使用していないアプローチが、フルデータ微調整モデルと同等の性能を達成できることが示されている。
論文参考訳（メタデータ） (Thu, 14 Mar 2024 16:47:25 GMT)
visual instruction datasetには不要・冗長なデータが多く含まれており、その重要性を評価して削減する手法を提案。「using only about 7.5% data can achieve comparable performance as the full-data fine-tuned model across seven benchmarks, even surpassing it on four of the benchmarks.」とのことで、非常に効果的に見える。
「Our code and data will be publicly released.」らしい

Large Multimodal Agents: A Survey

Large Multimodal Agents: A Survey [78.8]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文参考訳（メタデータ） (Fri, 23 Feb 2024 06:04:23 GMT)
研究が流行っているLLM＆マルチモーダル＆エージェントのサーベイ
リポジトリも参考になる　jun0wanan/awesome-large-multimodal-agents (github.com)

Design2Code

Design2Code: How Far Are We From Automating Front-End Engineering? [83.1]
マルチモーダルLLMがビジュアルデザインをコード実装に直接変換するタスクを Design2Code タスクとして形式化し,包括的なベンチマークを行う。具体的には、テストケースとして、484の多様な現実世界のWebページのベンチマークを手動でキュレートする。我々は,GPT-4V と Gemini Pro Vision 上で,マルチモーダルプロンプト手法のスイートを開発し,その有効性を示す。人的評価と自動測定の両方で、GPT-4Vは他のモデルと比較して、このタスクにおいて最善であることを示している。
論文参考訳（メタデータ） (Tue, 5 Mar 2024 17:56:27 GMT)
WEBページの画像からコードを作れるかを検証した論文。GPT-4Vが最も性能が高いが、十分ではなさそう。既存のオープンソースモデルの性能はかなり悪い。論文中ではCogAgent – arXiv最新論文の紹介 (devneko.jp)をfine tuningしたDesign2Code-18Bを開発、公開している。
MistralベースのHuggingFaceM4/VLM_WebSight_finetuned · Hugging Faceがまずまずのスコアを出しており「WebSight VLM-8B performs better than Gemini direct prompting (54% win rate and 35% lose rate), suggesting that finetuning on a large amount of data can match commercial models in specific domains.」とされているのも興味深い。
リポジトリはDesign2Code: How Far Are We From Automating Front-End Engineering (salt-nlp.github.io)

The (R)Evolution of Multimodal Large Language Models: A Survey

The (R)Evolution of Multimodal Large Language Models: A Survey [48.6]
MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティを、入力と出力の両方としてシームレスに統合することができる。本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
論文参考訳（メタデータ） (Mon, 19 Feb 2024 19:01:01 GMT)
マルチモーダルなLLMのサーベイ
本当にいっぱいあるなーという印象と、公開されているものが多いのも興味深い

MM-LLMs: Recent Advances in MultiModal Large Language Models

MM-LLMs: Recent Advances in MultiModal Large Language Models [51.5]
過去1年間で、MM-LLM(MultiModal Large Language Models)が大幅に進歩している。 MM-LLMのさらなる研究を促進するための総合的な調査を行う。
論文参考訳（メタデータ） (Thu, 25 Jan 2024 03:46:15 GMT)
マルチモーダルLLMのサーベイ
SOTA-LLM、ベンチマーク結果表などとてもありがたい、一方ですぐ情報がアップデートされるのだろうなとも。。。
プロジェクトサイトはhttps://mm-llms.github.io/とのことだが現状４０４

SynCDR

SynCDR : Training Cross Domain Retrieval Models with Synthetic Data [90.5]
クロスドメイン検索では、同じ意味圏から2つの視覚領域にまたがるイメージを識別するためにモデルが必要である。本稿では、これらの欠落したカテゴリの例をドメイン間で補うために合成データを生成するための簡単な解を提案する。我々は、この翻訳のために訓練された2つのドメインと、プロンプトを介して大規模に訓練されたテキストから画像への拡散モデルを使用するドメインを比較した。
論文参考訳（メタデータ） (Sun, 31 Dec 2023 08:06:53 GMT)
クロスドメイン検索へのデータ合成の応用
リポジトリはsamarth4149/SynCDR: Code for SynCDR (github.com)

UniHuman

UniHuman: A Unified Model for Editing Human Images in the Wild [52.4]
実環境における画像編集の複数の側面に対処する統一モデルUniHumanを提案する。モデルの生成品質と一般化能力を向上させるために,人間の視覚エンコーダからのガイダンスを利用する。ユーザスタディでは、UniHumanは平均して77%のケースでユーザに好まれる。
論文参考訳（メタデータ） (Fri, 22 Dec 2023 05:00:30 GMT)
人間の画像を編集するためのモデルの提案、Adobeがかかわっており、「 we curated 400K high-quality image-text pairs for training and collected 2K human image pairs for out-of-domain testing.」はさすが。

2024年4月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30