コンテンツへスキップ
- MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents [26.4]
この研究はMMDocIRと呼ばれる新しいベンチマークを導入し、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含んでいる。 MMDocIRベンチマークは,1,685問の注釈付きラベルと173,843問の自己ストラップ付きラベルを備えた,豊富なデータセットで構成されている。
論文 参考訳(メタデータ) (Wed, 15 Jan 2025 14:30:13 GMT)
- マルチモーダル、長い文書への検索ベンチマーク、document page-level and layout-level retrievalの2つがあるのが特徴的。
- リポジトリはMMDocIR (MMDocIR)
- Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues [56.0]
我々の目的は、連続手話から音声言語テキストへの翻訳である。 署名ビデオと追加のコンテキストキューを組み込む。 文脈的アプローチが翻訳の質を著しく向上させることを示す。
論文 参考訳(メタデータ) (Thu, 16 Jan 2025 18:59:03 GMT)
- 「(i) we propose a new LLM-based model that integrates visual signing and text features with contextual information, including video background descriptions and previous sentence translations;」というようにコンテキスト情報を活用した手話への機械翻訳アプローチの提案
- リポジトリはLost in Translation, Found in Context
- M$^3$oralBench: A MultiModal Moral Benchmark for LVLMs [66.8]
LVLMのための最初のMultiModal Moral BenchmarkであるM$3$oralBenchを紹介する。 M$3$oralBench は Moral Foundations Vignettes (MFVs) の日常的なモラルシナリオを拡張し、テキストから画像への拡散モデル SD3.0 を用いて対応するシナリオイメージを作成する。 道徳基礎理論(MFT)の6つの道徳的基礎にまたがって道徳的評価を行い、道徳的判断、道徳的分類、道徳的対応の課題を含む。
論文 参考訳(メタデータ) (Mon, 30 Dec 2024 05:18:55 GMT)
- マルチモーダルなモラルベンチマーク、「Care/Harm (dislike for suffering of others), Fairness/Cheating (proportional fairness, Loyalty/Betrayal (group loyalty), Authority/Subversion (respect for authority and tradition), Sanctity/Degradation (concerns for purity and contamination), Liberty/Oppression (concerns on oppression and coercion)」の6つの道徳的基礎がベース
- リポジトリはGitHub – BeiiiY/M3oralBench: The official Github page for “M³oralBench: A MultiModal Moral Benchmark for LVLMs”
- AnySat: An Earth Observation Model for Any Resolutions, Scales, and Modalities [5.8]
本稿では,JEPAと分解能適応型空間エンコーダに基づくマルチモーダルモデルであるAnySatを提案する。 この統一アプローチの利点を示すために、5ドルのマルチモーダルデータセットのコレクションであるGeoPlexをコンパイルする。 次に、これらの多様なデータセット上で、単一の強力なモデルを同時にトレーニングします。
論文 参考訳(メタデータ) (Wed, 18 Dec 2024 18:11:53 GMT)
- 様々な Earth observationデータを統合的に扱える基盤モデルの提案。「We have presented AnySat, a versatile architecture designed to address the diversity of EO data in terms of resolutions, scales, and modalities.」ということで効果も検証されている。
- リポジトリはGitHub – gastruc/AnySat
- TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action [103.6]
複雑・多段階・多モードタスクの性能向上を目的とした多モード大規模アクションモデルであるTACOを提案する。 推論中、TACOはチェーン・オブ・シント・アンド・アクション(CoTA)を生成し、OCR、深さ推定、電卓などの外部ツールを呼び出すことで中間ステップを実行する。 このデータセットにより、TACOは複雑な推論とアクションパスを学習し、直接回答だけでチューニングデータに基づいてトレーニングされた既存のモデルを上回ることができる。
論文 参考訳(メタデータ) (Sat, 07 Dec 2024 00:42:04 GMT)
- 「Our TACO model is able to output a Chain-of Thought-and-Action (CoTA) and answer challenging questions based on the thoughts and action outputs」というモデルの提案。マルチモーダルなAction付きのモデル。GPT-4oなどを使って構築した合成データを活用とのこと。
- プロジェクトサイトはTACO
- Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey [50.0]
マルチモーダル生成モデルは、ビルトインの安全機構をバイパスし、潜在的に有害なコンテンツの生成を誘導できる、ジェイルブレイク攻撃の影響を受けやすい。 本調査は,マルチモーダル生成モデルにおけるジェイルブレイクと防御についてレビューする。
論文 参考訳(メタデータ) (Thu, 14 Nov 2024 07:51:51 GMT)
- マルチモーダル設定におけるJailbreak攻撃のサーベイ。モダリティが増えると攻撃に関するバリエーションも増え、面白い(と同時に防御の難しさが興味深い)
- 本サーベイでは「1) Input Level: Attackers and defenders operate solely on the input data.」、「2) Encoder Level: With access to the encoder, attackers optimize adversarial inputs to inject malicious information into the encoding process, while defenders work to prevent harmful information from being encoded within the latent space」、「3) Generator Level: With full access to the generative models, attackers leverage inference information, such as activations and gradients, and fine-tune models to increase adversarial effectiveness, 」、「4) Output Level: With the output from the generative model, attackers can iteratively refine adversarial inputs,」というレベル分けを採用している
- リポジトリはGitHub – liuxuannan/Awesome-Multimodal-Jailbreak
- Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models [112.0]
Mixture-of-Transformer (MoT) はスパースマルチモーダルトランスアーキテクチャである。 MoTはモデルの非埋め込みパラメータをモダリティで分離する。 複数の設定とモデルスケールでMoTを評価する。
論文 参考訳(メタデータ) (Thu, 07 Nov 2024 18:59:06 GMT)
- 性能がルータに依存するMixture of Expertsに対して、「MoT extends the standard transformer architecture by incorporating modality-specific weights for all non-embedding model parameters, including feed-forward networks, attention matrices, and layer normalization.」というアプローチのMixture of Transformerの提案。「In the Chameleon 7B setting (autoregressive text-and-image generation), MoT matches the dense baseline’s performance using only 55.8% of the FLOPs.」と有効性を主張。
- Harnessing Webpage UIs for Text-Rich Visual Understanding [112.0]
テキストベース大規模言語モデル(LLM)を用いたWebページUIからの汎用マルチモーダル命令の合成を提案する。 これらの命令はUIスクリーンショットと組み合わせて、マルチモーダルモデルのトレーニングを行う。 我々は、100万のWebサイトから730万のサンプルを含むデータセットであるMultiUIを紹介し、多様なマルチモーダルタスクとUIレイアウトをカバーした。
論文 参考訳(メタデータ) (Thu, 17 Oct 2024 17:48:54 GMT)
- 「We introduce MultiUI, a dataset containing 7.3 million samples from 1 million websites, covering diverse multimodal tasks and UI layouts.」というデータセットの構築と、それらデータを用いたMLLMの構築。
- プロジェクトサイトはMultiUI、リポジトリはGitHub – neulab/MultiUI: Code for Paper: Harnessing Webpage Uis For Text Rich Visual Understanding
- MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.2]
MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。 MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。 その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
論文 参考訳(メタデータ) (Thu, 10 Oct 2024 17:55:02 GMT)
- マルチモーダルなRAGのベンチマーク、様々なモデルのスコア一覧表もとても参考になる。
- リポジトリはMRAG-Bench (mragbench.github.io)