コンテンツへスキップ
- Global PIQA: Evaluating Physical Commonsense Reasoning Across 100+ Languages and Cultures [118.0]
我々は100以上の言語を対象とした参加型コモンセンス推論ベンチマークであるGlobal PIQAを提案する。 グローバルPIQAの116の言語変種は、5つの大陸、14の言語族、23の文字体系をカバーしている。 グローバルPIQAの非並列分割では、50%以上の例が地元の食品、習慣、伝統、その他の文化的特有な要素を参照している。
論文 参考訳(メタデータ) (Tue, 28 Oct 2025 05:46:25 GMT)
- 「we have presented Global PIQA, a physical commonsense reasoning benchmark covering 116 language varieties. Unlike previous benchmarks, Global PIQA is a participatory benchmark, constructed by hand by 335 researchers across 65 countries.」とマルチリンガルなベンチマーク。
- 日本語のデータも入っている。(不穏なデータっぽく見えるものもあり、全体的にチェックしてみようかと思わなくもない)
- データはmrlbenchmarks/global-piqa-nonparallel · Datasets at Hugging Face、プロジェクトサイトはMRL Benchmarks
- ImpossibleBench: Measuring LLMs’ Propensity of Exploiting Test Cases [58.4]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。 我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。 実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文 参考訳(メタデータ) (Thu, 23 Oct 2025 06:58:32 GMT)
- 「we introduce ImpossibleBench, a benchmark framework that systematically measures LLM agents’ propensity to exploit test cases.」と不正行為を測るためのベンチマーク。「frontier models frequently cheat when faced with these impossible tasks, and stronger models generally exhibit higher cheating rates.」という指摘が興味深いし感覚にも合う・・・
- リポジトリはGitHub – safety-research/impossiblebench
- ResearchGPT: Benchmarking and Training LLMs for End-to-End Computer Science Research Workflows [109.3]
CS-54k(CS-54k)は、コンピュータ科学におけるQ&Aペアの高品質なコーパスである。 CS-4kは、科学研究を支援するAIの能力を評価するためのベンチマークである。 CS-50kは大規模なトレーニングデータセットである。
論文 参考訳(メタデータ) (Thu, 23 Oct 2025 07:07:35 GMT)
- 「We introduce CS-4k, the first benchmark that systematically evaluates the end-to-end research workflow in computer science through open-ended scientific question answering, offering a rigorous yardstick to assess LLMs’ ability to assist scientific research.」というベンチマーク。また、これらデータを用いたポストトレーニングの有効性を主張。
- リポジトリはGitHub – wph6/ResearchGPT: Official repo for ReseachGPT
- When Agents Trade: Live Multi-Market Trading Benchmark for LLM Agents [74.6]
Agent Market Arena (AMA)は、LLM(Large Language Model)ベースのトレーディングエージェントを評価するための、初めてのリアルタイムベンチマークである。 AMAは、検証済みのトレーディングデータ、専門家チェックされたニュース、および統一されたトレーディングフレームワーク内に多様なエージェントアーキテクチャを統合する。 GPT-4o、GPT-4.1、Claude-3.5-haiku、Claude-sonnet-4、Gemini-2.0-flashにまたがる評価する。
論文 参考訳(メタデータ) (Mon, 13 Oct 2025 17:54:09 GMT)
- トレーニングエージェント評価のための環境
- プロジェクトサイトはFinAI、
- LM Fight Arena: Benchmarking Large Multimodal Models via Game Competition [104.8]
本稿では,Mortal Kombat IIにおける大規模マルチモーダルモデルを評価する新しいフレームワークであるLM Fight Arenaを紹介する。 静的評価とは異なり、LM Fight Arenaは完全に自動化され、再現可能で、LMMの戦略的推論能力の客観的評価を提供する。
論文 参考訳(メタデータ) (Fri, 10 Oct 2025 02:19:21 GMT)
- 「Unlike static evaluations, LM Fight Arena provides a fully automated, reproducible, and objective assessment of an LMM’s strategic reasoning capabilities in a dynamic setting. This work introduces a challenging and engaging benchmark that bridges the gap between AI evaluation and interactive entertainment.」とのことだが、なぜにMortal Kombat…
- Claude 3.5 Sonnetがとても強いらしい。
- FinDeepResearch: Evaluating Deep Research Agents in Rigorous Financial Analysis [110.6]
HisRubricは階層的な分析構造ときめ細かいグレーディングルーブリックを備えた新しい評価フレームワークである。 FinDeepResearchは、4つの言語にまたがる8つの金融市場から64の上場企業からなるベンチマークである。 6つのDRエージェント、深い推論能力と探索能力を備えた5つのLLM、深い推論能力を持つ5つのLLMを含む16の代表的な手法を用いてFinDeepResearchに関する広範な実験を行った。
論文 参考訳(メタデータ) (Wed, 15 Oct 2025 17:21:56 GMT)
- 金融ドメインのDeepResearchの評価。o3 deepresearchの性能が高い(Grok4やGemini 2.5 Proとは僅差)が「Our experiments suggest that even top-performing DR agents struggle to consistently balance a coherent analytical structure with factual accuracy. This imbalance remains the primary barrier to their deployment in high-stakes applications.」とのこと。。
- UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.8]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。 UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。 実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (Thu, 09 Oct 2025 05:30:23 GMT)
- マルチモーダルなRAGのためのベンチマーク。下記のように包括的で大規模(リポジトリの記載より引用)
- 70,000 real-world PDF pages across 8 diverse domains
- 1,600 multimodal QA pairs with 20% expert validation
- Four query types: factual retrieval, comparison, summarization, and logical reasoning
- Unified evaluation protocol with standardized candidate pools, prompts, and metrics
- リポジトリはGitHub – SalesforceAIResearch/UniDoc-Bench
- MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.7]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。 我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。 トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (Thu, 09 Oct 2025 17:53:58 GMT)
- 「MM-HELIX contains 42 meticulously curated challeng- ing tasks from diverse online sources, categorized into four domains: Algorithm, Graph, Puzzle, and Game. Each task requires the model to perform careful visual observation, develop a deep understanding of complex rules, and generate an extended chain-of-thought that necessitates reflec- tion and backtracking.」という試行、失敗、修正のような長い思考を必要とするベンチマークの提案。GPT-5の性能が高くOSSモデルとの性能差が大きい。
- プロジェクトサイトはMM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization
- Evaluating Robustness of Large Language Models Against Multilingual Typographical Errors [45.4]
大規模言語モデル(LLM)は、ユーザ入力を持つマルチリンガルな実世界のアプリケーションにますます多くデプロイされている。 ほとんどのベンチマークはクリーンな入力を前提としており、LLMの堅牢性は、ほとんど探索されていないタイプミスに委ねられている。 MulTypoは,言語固有のキーボードレイアウトとタイピング行動に基づいて,ヒューマンライクなエラーをシミュレートする多言語型タイポ生成アルゴリズムである。
論文 参考訳(メタデータ) (Fri, 10 Oct 2025 16:49:12 GMT)
- タイプミスがLLMのパフォーマンスにどのくらい影響を与えるかの評価、「Our results show that typos consistently degrade performance, particularly in generative tasks and those requiring reasoning – while the natural language inference task is comparatively more robust.」とのこと。日本語での影響が気になる。
- リポジトリはGitHub – mainlp/Multypo-Eval
- AccidentBench: Benchmarking Multimodal Understanding and Reasoning in Vehicle Accidents and Beyond [101.2]
AccidentBenchは、自動車事故シナリオとBeyondドメインを組み合わせた大規模なベンチマークである。 このベンチマークには、約2000のビデオと19000以上の人間による質問応答ペアが含まれている。
論文 参考訳(メタデータ) (Tue, 30 Sep 2025 17:59:13 GMT)
- 事故シナリオのベンチマーク、「AccidentBench targets understanding and reasoning across diverse vehicle accident scenarios (83.0%), while also encompassing airspace (10.2%) and waterway (6.8%) domains, in which safety, perception, and decision-making are deeply interdependent. Unlike benchmarks that emphasize isolated skills or single domains, AccidentBench systematically challenges models across several critical understanding and reasoning capabilities: temporal understanding and reasoning (tracking event sequences and causality over extended periods); spatial understanding and reasoning (understanding dynamic spatial relationships and multi-agent trajectories); and intent and goal reasoning (inferring agent intentions and planning goals), which further includes complex strategic and counterfactual reasoning (evaluating higher-order strategies, action implications, and “what-if” scenarios).」
- リポジトリはGitHub – SafeRL-Lab/AccidentBench: AccidentBench: Benchmarking Multimodal Understanding and Reasoning in Vehicle Accidents and Beyond