マルチモーダル – ページ 7 – arXiv最新論文の紹介

Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions

Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions [122.4]
最近、MLLM(Multimodal Large Language Models)が大きな関心を集め、様々な視覚言語タスクの汎用モデルとして機能する創発的な能力を示している。既存の手法は主に、1つのイメージを視覚的コンテキストとする限られたタイプの命令に焦点を当てており、MLLMの普及を妨げている。本稿では,トランスフォーマーをベースとしたMLLMであるCheetorについて述べる。
論文参考訳（メタデータ） (Thu, 10 Aug 2023 07:02:13 GMT)
包括的なVision-Language instruction followingベンチマークる I4 (Interconnected, Interleaved Image-Text Instruction-Following)ベンチマークの構築と、CLORI（controllable knowledge re-injection）フレームワークの提案。これらを適用したCheetorは他のVLモデルと比べても優れた性能とのこと。
リポジトリはGitHub – DCDmllm/Cheetah

UnIVAL

Unified Model for Image, Video, Audio and Language Tasks [94.8]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文参考訳（メタデータ） (Sun, 30 Jul 2023 09:48:36 GMT)
Image、Video、Audio、Languageとマルチモーダルなモデルの提案、「 0.25B parameter model achieves competitive performance to existing modality-customized work」とのことで小規模だが強力そう
リポジトリはGitHub – mshukor/UnIVAL: Official implementation of UnIVAL: Unified Model for Image, Video, Audio and Language Tasks.

Dynalang

Learning to Model the World with Language [98.2]
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学び、想像されたモデルロールアウトから行動を学ぶエージェントであるDynalangを紹介する。アクションを予測するためにのみ言語を使用する従来のエージェントとは異なり、Dynalangは、過去の言語を使用して、将来の言語、ビデオ、報酬を予測することによって、リッチな言語理解を得る。
論文参考訳（メタデータ） (Mon, 31 Jul 2023 17:57:49 GMT)
エージェントが未来を予測すために言語を用い、タスクを解決する手法の提案。今現在を理解するために言語を用いるのではなく、将来予測にも使っている点が特徴的。
プロジェクトサイトはLearning to Model the World with Language (dynalang.github.io)

How Good is Google Bard’s Visual Understanding? An Empirical Study on Open Challenges

How Good is Google Bard’s Visual Understanding? An Empirical Study on Open Challenges [134.4]
GoogleのBardは、会話型AIの分野で、OpenAIのChatGPTの強力なライバルとして登場した。テキスト質問による視覚データの理解と解釈におけるBardの機能について検討する。
論文参考訳（メタデータ） (Thu, 27 Jul 2023 17:19:32 GMT)
Bardの機能に関する報告、事例は多く考察も参考なるが、ベンチマークでの評価がなくそこは残念。
リポジトリはGitHub – htqin/GoogleBard-VisUnderstand: How Good is Google Bard’s Visual Understanding? An Empirical Study on Open Challenges

Med-PaLM Multimodal

Towards Generalist Biomedical AI [28.7]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。 Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文参考訳（メタデータ） (Wed, 26 Jul 2023 17:52:22 GMT)
マルチモーダルな医療用LLMの提案、PaLM-E を医療ドメインにfinetuning して構成。ベンチマーク結果はオリジナルのPaLM-Eより優れており、特化型モデルを超える例もあるとのこと。
パラメータサイズ12B、84B、562Bの比較もあるが、84B < 562Bが成り立たない例も多いのが興味深い。

InternVid

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation [85.8]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。 InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文参考訳（メタデータ） (Thu, 13 Jul 2023 17:58:32 GMT)
ビデオ-テキストのマルチモーダルデータセット
リポジトリはInternVideo/Data/InternVid at main · OpenGVLab/InternVideo · GitHub

MMBench

MMBench: Is Your Multi-modal Model an All-around Player? [90.7]
大規模な視覚言語モデルを評価する方法は依然として大きな障害であり、将来のモデル開発を妨げる。従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非破壊評価の指標が欠如している。近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。 MMBenchは、視覚言語モデルの様々な能力を頑健に評価するための、体系的に設計された客観的ベンチマークである。
論文参考訳（メタデータ） (Wed, 12 Jul 2023 16:23:09 GMT)
Vision/Languageのベンチマーク。検証する能力が20あり、包括的なものになっている。プロジェクトサイトはOpenCompass

CausalVLRとLLMを用いた因果グラフの同定

CausalVLR: A Toolbox and Benchmark for Visual-Linguistic Causal Reasoning [120.6]
CausalVLR(Causal Visual-Linguistic Reasoning)は、最先端の因果関係の発見と因果推論方法の豊富なセットを含むオープンソースのツールボックスである。これらのメソッドはNVIDIAコンピューティングシステムの下でPyTorchを実装したツールボックスに含まれている。
論文参考訳（メタデータ） (Fri, 30 Jun 2023 08:17:38 GMT)
因果関係の発見と因果推論を言語/画像の面で処理できるツールの詰め合わせ。
リポジトリはGitHub – HCPLab-SYSU/CausalVLR: CausalVLR: A Toolbox and Benchmark for Visual-Linguistic Causal Reasoning

Causal Discovery with Language Models as Imperfect Experts [119.2]
専門知識を用いて因果グラフの同定を改善する方法について検討する。整合性に基づく専門家の知識を改良するための戦略を提案する。本稿では,不完全な専門家として大規模言語モデルを用いる実データを用いたケーススタディについて報告する。
論文参考訳（メタデータ） (Wed, 5 Jul 2023 16:01:38 GMT)
別の研究でLLMを用いた因果グラフの道程に関する論文も出ていた。LLMを完全ではない専門家として用いる場合のケーススタディがあり、専門家ほどではないが一定の効果はありそうとのこと。

Kosmos-2

Kosmos-2: Grounding Multimodal Large Language Models to the World [107.3]
マルチモーダル大言語モデル(MLLM)であるKosmos-2を紹介する。オブジェクト記述(例えば、バウンディングボックス)の認識と、視覚の世界へのテキストの接地を可能にする。この研究は、Embodiment AIの開発の基礎を定めている。
論文参考訳（メタデータ） (Tue, 27 Jun 2023 09:11:34 GMT)
マルチモーダルなLLM Kosmos-2の論文、Markdownのリンクとして画像などを参照する点が面白い。Kosmos-1より優れている？（KOSMOS-2 achieves impressive results ）との結果。GRIT（Grounded Image-Text pairs）というデータセットも公開予定とのこと。
リポジトリはunilm/kosmos-2 at master · microsoft/unilm · GitHub

One-2-3-45 & DreamEditor

One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization [31.0]
単一画像の3D再構成は、我々の自然界に関する広範な知識を必要とする重要な課題であるが、難しい課題である。本研究では,任意の物体の1つの画像を入力として取り込み,360度3次元テクスチャメッシュを1回のフィードフォワードパスで生成する手法を提案する。
論文参考訳（メタデータ） (Thu, 29 Jun 2023 13:28:16 GMT)
1枚の画像からの3D再構成、 Text to 3D Meshにもほんの少し言及がある
プロジェクトサイトはOne-2-3-45

DreamEditor: Text-Driven 3D Scene Editing with Neural Fields [118.1]
テキストプロンプトを用いてニューラルフィールドを編集できる新しいフレームワークを提案する。 DreamEditorは非常に現実的なテクスチャと幾何学を生成し、量的および質的な評価において、以前の作品を大きく上回っている。
論文参考訳（メタデータ） (Thu, 29 Jun 2023 10:38:04 GMT)
こちらはテキストを用いた3Dモデルの編集

2025年10月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31