UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG

  • UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.8]
    マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。 UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。 実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
    論文  参考訳(メタデータ)   (Thu, 09 Oct 2025 05:30:23 GMT)
  • マルチモーダルなRAGのためのベンチマーク。下記のように包括的で大規模(リポジトリの記載より引用)
    • 70,000 real-world PDF pages across 8 diverse domains
    • 1,600 multimodal QA pairs with 20% expert validation
    • Four query types: factual retrieval, comparison, summarization, and logical reasoning
    • Unified evaluation protocol with standardized candidate pools, prompts, and metrics
  • リポジトリはGitHub – SalesforceAIResearch/UniDoc-Bench

MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization 

  • MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.7]
    ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。 我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。 トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
    論文  参考訳(メタデータ)   (Thu, 09 Oct 2025 17:53:58 GMT)
  • 「MM-HELIX contains 42 meticulously curated challeng- ing tasks from diverse online sources, categorized into four domains: Algorithm, Graph, Puzzle, and Game. Each task requires the model to perform careful visual observation, develop a deep understanding of complex rules, and generate an extended chain-of-thought that necessitates reflec- tion and backtracking.」という試行、失敗、修正のような長い思考を必要とするベンチマークの提案。GPT-5の性能が高くOSSモデルとの性能差が大きい。
  • プロジェクトサイトはMM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization

Evaluating Robustness of Large Language Models Against Multilingual Typographical Errors

  • Evaluating Robustness of Large Language Models Against Multilingual Typographical Errors [45.4]
    大規模言語モデル(LLM)は、ユーザ入力を持つマルチリンガルな実世界のアプリケーションにますます多くデプロイされている。 ほとんどのベンチマークはクリーンな入力を前提としており、LLMの堅牢性は、ほとんど探索されていないタイプミスに委ねられている。 MulTypoは,言語固有のキーボードレイアウトとタイピング行動に基づいて,ヒューマンライクなエラーをシミュレートする多言語型タイポ生成アルゴリズムである。
    論文  参考訳(メタデータ)   (Fri, 10 Oct 2025 16:49:12 GMT)
  • タイプミスがLLMのパフォーマンスにどのくらい影響を与えるかの評価、「Our results show that typos consistently degrade performance, particularly in generative tasks and those requiring reasoning – while the natural language inference task is comparatively more robust.」とのこと。日本語での影響が気になる。
  • リポジトリはGitHub – mainlp/Multypo-Eval

AccidentBench: Benchmarking Multimodal Understanding and Reasoning in Vehicle Accidents and Beyond 

  • AccidentBench: Benchmarking Multimodal Understanding and Reasoning in Vehicle Accidents and Beyond [101.2]
    AccidentBenchは、自動車事故シナリオとBeyondドメインを組み合わせた大規模なベンチマークである。 このベンチマークには、約2000のビデオと19000以上の人間による質問応答ペアが含まれている。
    論文  参考訳(メタデータ)   (Tue, 30 Sep 2025 17:59:13 GMT)
  • 事故シナリオのベンチマーク、「AccidentBench targets understanding and reasoning across diverse vehicle accident scenarios (83.0%), while also encompassing airspace (10.2%) and waterway (6.8%) domains, in which safety, perception, and decision-making are deeply interdependent. Unlike benchmarks that emphasize isolated skills or single domains, AccidentBench systematically challenges models across several critical understanding and reasoning capabilities: temporal understanding and reasoning (tracking event sequences and causality over extended periods); spatial understanding and reasoning (understanding dynamic spatial relationships and multi-agent trajectories); and intent and goal reasoning (inferring agent intentions and planning goals), which further includes complex strategic and counterfactual reasoning (evaluating higher-order strategies, action implications, and “what-if” scenarios).」
  • リポジトリはGitHub – SafeRL-Lab/AccidentBench: AccidentBench: Benchmarking Multimodal Understanding and Reasoning in Vehicle Accidents and Beyond

Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles 

  • Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles [81.9]
    SciTrekは、科学論文を用いた大規模言語モデル(LLM)の長文推論能力を評価するために設計された、新しい質問応答ベンチマークである。 本分析により,モデルの基本的数値演算を行ない,特定の情報を長い文脈で正確に特定する能力において,系統的な欠点が明らかとなった。
    論文  参考訳(メタデータ)   (Thu, 25 Sep 2025 11:36:09 GMT)
  • 「This paper introduced SciTrek, a benchmark designed for testing the ability of LLMs to perform multi-document information synthesis and structured reasoning over full-text scientific articles. 」と科学分野のマルチドキュメント・長文ベンチマーク。
  • リポジトリはGitHub – oaimli/SciTrek: Benchmarking long-context language models on scientific articles

MuSLR: Multimodal Symbolic Logical Reasoning 

  • MuSLR: Multimodal Symbolic Logical Reasoning [133.9]
    マルチモーダルな論理的推論は、自律運転や診断などの高度な応用において重要である。 形式論理規則を基礎としたマルチモーダルな記号論理的推論のための最初のベンチマーク Mu SLR を導入する。 我々は,GPT-4.1のChain-of-Thought性能を14.13%向上させるモジュール型フレームワークであるLogiCAMを提案する。
    論文  参考訳(メタデータ)   (Tue, 30 Sep 2025 06:42:20 GMT)
  • Multimodal symbolic logical reasoningを対象とするベンチマークMuSLRの構築。またベースラインとしてモジュラー構成のLogiCAMを提案している。現在のフロンティアなモデルでも難しいベンチマークのよう。
  • 改善のための「First, integrating dedicated symbolic modules is essential: the LogiCAM outperforms base VLMs precisely because it extracts multimodalities based on logic and embeds explicit symbolic reasoning steps. Second, existing VLMs struggle to align and fuse visual and textual information when performing formal logic; Future work should explore tighter multimodal integration, such as cross-modal architectures trained with logic-grounded objectives, to bridge this gap.」という指摘が興味深く、現行モデルは形式的な処理に苦労しているように見える。
  • リポジトリはMuSLR: Multimodal Symbolic Logical Reasoning

MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents 

  • MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents [15.0]
    本稿ではGUIショートカットハイブリッドエージェントの評価の先駆けとなるベンチマークであるMAS-Benchを紹介する。 11の現実世界アプリケーションに139の複雑なタスク、88のショートカットの知識ベース、RPAスクリプト、そして7つの評価メトリクスがある。 実験の結果、ハイブリッドエージェントはGUIのみのエージェントよりも成功率と効率が著しく高いことがわかった。
    論文  参考訳(メタデータ)   (Mon, 08 Sep 2025 09:43:48 GMT)
  • GUI操作をショートカットする(画面を操作せずにAPIコールするなど)ことも含めたベンチマークの提案。
  • プロジェクトサイトはMAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents

Fluid Language Model Benchmarking 

  • Fluid Language Model Benchmarking [126.9]
    我々は,複数の次元にわたるLMベンチマークを進展させる新しい評価手法であるFluid Benchmarkingを紹介する。 サイコメトリックスにインスパイアされたFluid Benchmarkingは、ベンチマーク項目の相対値がLMの能力レベルに依存するという洞察に基づいている。 効率性,妥当性,分散性,飽和性の4つの次元を検証した結果,Fluid Benchmarkingがすべてにおいて優れた性能を発揮することがわかった。
    論文  参考訳(メタデータ)   (Sun, 14 Sep 2025 05:49:42 GMT)
  • 「we introduce FLUID BENCHMARKING, a new evaluation approach that advances LM benchmarking across multiple dimensions. Inspired by psychometrics, FLUID BENCHMARKING is based on the insight that the relative value of benchmark items depends on an LM’s capability level, suggesting that evaluation should adapt to each LM. Methodologically, FLUID BENCH- MARKING estimates an item response model based on existing LM evaluation results and uses the inferred quantities to select evaluation items dynamically, similar to computerized adaptive testing in education.」との評価方法の提案。
  • リポジトリはGitHub – allenai/fluid-benchmarking: Fluid Language Model Benchmarking

SafeToolBench: Pioneering a Prospective Benchmark to Evaluating Tool Utilization Safety in LLMs

  • SafeToolBench: Pioneering a Prospective Benchmark to Evaluating Tool Utilization Safety in LLMs [35.2]
    大規模言語モデル(LLM)は、外部環境において様々なツールを自律的に呼び出す上で、優れたパフォーマンスを示している。 本稿では, LLMツール利用の安全性を評価するために, ツールを直接実行することによって生じる不可逆的な害を避けることを目的としている。 ツール利用セキュリティを総合的に評価する最初のベンチマークであるSafeToolBenchを提案する。 ツール利用セキュリティに対するLCMの認識を3つの観点から向上することを目的とした,新しいフレームワークであるSafeInstructToolも提案する。
    論文  参考訳(メタデータ)   (Tue, 09 Sep 2025 01:31:25 GMT)
  • LLMのツール利用におけるセキュリティを評価するベンチマーク、「we further pro- pose SafeInstructTool, the first framework to evaluate risks across these three perspectives from nine dimensions: User Instruction Perspective (Data Sensitivity, Harmfulness of the Instruction, Urgency of the Instruction, Frequency of Tool Utilization in the Instruction), Tool Itself Perspective (Key Sensitivity, Type of Operation, Impact Scope of the Operation) and Joint Instruction-Tool Perspective (Alignment Between Instruction and Tool, Value Sensitivity). Thus, it can enhance LLMs’ awareness of tool utilization safety, leading to more safer and trustworthy language agents.」とのこと
  • リポジトリはGitHub – BITHLP/SafeToolBench: [2025 EMNLP Findings] SafeToolBench: Pioneering a Prospective Benchmark to Evaluating Tool Utilization Safety in LLMs

SafeProtein: Red-Teaming Framework and Benchmark for Protein Foundation Models 

  • SafeProtein: Red-Teaming Framework and Benchmark for Protein Foundation Models [48.3]
    本稿では,タンパク質基盤モデル用に設計された最初のレッドチームフレームワークであるSafeProteinを紹介する。 SafeProteinはマルチモーダルプロンプトエンジニアリングを組み合わせ、ビームサーチを生成して、レッドチーム方式を体系的に設計する。 また、手動で構築したレッドチームベンチマークデータセットと包括的な評価プロトコルを含むSafeProtein-Benchをキュレートした。
    論文  参考訳(メタデータ)   (Wed, 03 Sep 2025 17:13:56 GMT)
  • 「• SafeProtein: the first systematic red-teaming approach for protein foundation models, combining multimodal prompt engineering with heuristic beam search, achieving up to a 70% jailbreak success rate against the latest ESM3 model.」というフレームワークと、関連するベンチマークの紹介。
  • リポジトリはGitHub – jigang-fan/SafeProtein: Official Repository for SafeProtein and SafeProtein-Bench