A Survey on Large Language Model Benchmarks

  • A Survey on Large Language Model Benchmarks [45.0]
    一般的な能力ベンチマークは、中核言語学、知識、推論などの側面をカバーする。 ドメイン固有のベンチマークは、自然科学、人文科学、社会科学、エンジニアリング技術といった分野に焦点を当てている。 ターゲット固有のベンチマークは、リスク、信頼性、エージェントなどに注意を払う。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 08:43:35 GMT)
  • 「We systematically review the current status and development of large language model benchmarks for the first time, categorizing 283 representative benchmarks into three categories: general capabilities, domain- specific, and target-specific.」とベンチマークのサーベイ
  • LLMの動きを広範に知るため様々なベンチマークが作られており、これら調査は非常にありがたい。

LiveMCP-101, MCP-Universe, MCP-Bench

MCPに関するベンチマークがでていた。両ベンチマークともGPT-5の性能が高いとのことだが、多くのMCPサーバや周辺ツール・ライブラリがGPT-4/4.1/4.5/5などに対してチューニングされている面もあるように思わなくもない。

  • LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries [38.6]
    提案するLiveMCP-101は,リアルタイムクエリを慎重にキュレートした101のベンチマークである。 実験により、フロンティアのLLMでさえ60%未満の成功率を達成することが示された。 LiveMCP-101は現実世界のエージェント能力を評価するための厳格な標準を設定している。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 17:55:54 GMT)
  • 「we present LiveMCP-101, a benchmark of 101 carefully curated real-world queries, refined through iterative LLM rewriting and manual review, that require coordinated use of multiple MCP tools including web search, file operations, mathematical reasoning, and data analysis.」というベンチマーク。
  • GPT-5の性能が高い。
  • MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.0]
    MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。 私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。 GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
    論文  参考訳(メタデータ)   (Wed, 20 Aug 2025 13:28:58 GMT)
  • こちらも「we introduce MCP-Universe, the first comprehensive benchmark specifically designed to evaluate LLMs in realistic and hard tasks through interaction with real-world MCP servers. Our benchmark encompasses 6 core domains spanning 11 different MCP servers: Location Navigation, Repository Management, Financial Analysis, 3D Design, Browser Automation, and Web Searching.」とMCPのベンチマーク、GPT-5の性能が高い。
  • プロジェクトサイトはMCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers、リポジトリはGitHub – SalesforceAIResearch/MCP-Universe: MCP-Universe is a comprehensive framework designed for developing, testing, and benchmarking AI agents
  • MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers [24.7]
    MCP-Benchは、大規模言語モデル(LLM)を現実的なマルチステップタスクで評価するためのベンチマークである。 MCP-Bench は Model Context Protocol (MCP) 上に構築されており、金融、旅行、科学計算、学術検索などの分野にまたがる250のツールにまたがる28のライブ MCP サーバに LLM を接続している。
    論文  参考訳(メタデータ)   (Thu, 28 Aug 2025 05:58:57 GMT)
  • アクセンチュアによるベンチマーク。GPT-5、o3、GPT-OSS 120B、Gemini 2.5 Pro、Claude sonnet 4と続く結果。
    • 感覚とかなり異なる印象でMCPサーバ側がGPT系モデルに寄せている気がする
  • リポジトリはGitHub – Accenture/mcp-bench: MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers

MoNaCo: More Natural and Complex Questions for Reasoning Across Dozens of Documents

  • MoNaCo: More Natural and Complex Questions for Reasoning Across Dozens of Documents [123.1]
    MoNaCoは、1,315の自然で複雑な質問のベンチマークであり、解決には数十、数百の中間ステップが必要である。 我々の結果は、現実世界の情報検索の複雑さと厳密さに対処する推論モデルの必要性を浮き彫りにしている。
    論文  参考訳(メタデータ)   (Fri, 15 Aug 2025 00:58:10 GMT)
  • 「we introduce MONACO, a benchmark of 1,315 natural and complex questions that require dozens, and at times hundreds, of intermediate steps to solve — far more than any existing QA benchmark.」というベンチマーク。ベンチマーク構築自体が大変になっているという印象。
  • 結果としてはGPT-5よりもo3の性能の方が高いのが興味深い。
  • リポジトリはGitHub – tomerwolgithub/monaco: https://huggingface.co/datasets/allenai/MoNaCo_Benchmark、データはallenai/MoNaCo_Benchmark · Datasets at Hugging Face

WideSearch: Benchmarking Agentic Broad Info-Seeking

  • WideSearch: Benchmarking Agentic Broad Info-Seeking [22.3]
    大規模コレクションタスクにおいてエージェントの信頼性を評価するために設計された新しいベンチマークであるWideSearchを紹介する。 ベンチマークでは、実際のユーザクエリに基づいて、15以上のさまざまなドメインから200の質問を手作業でキュレートする。 我々は、シングルエージェント、マルチエージェントフレームワーク、エンドツーエンドの商用システムを含む、10以上の最先端のエージェント検索システムをベンチマークする。
    論文  参考訳(メタデータ)   (Mon, 11 Aug 2025 14:03:09 GMT)
  • LLM- Agent 、特に情報収集タスクに関するベンチマークの提案。OpenAI o3の清野が高いがKimi K2も良い性能。
  • プロジェクトサイトはWideSearch: Benchmarking Agentic Broad Info-Seeking

MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models 

  • MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models [108.6]
    MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。 MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。 マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
    論文  参考訳(メタデータ)   (Mon, 11 Aug 2025 03:14:55 GMT)
  • 「In this paper, we introduced MME-Emotion, a comprehensive multi-task benchmark for evaluating emotional intelligence in MLLMs, accompanied by a holistic evaluation suite. The assessment process was fully automated within a multi-agent system framework and thoroughly validated by human experts.」という感情に焦点を当てたベンチマークの提案。
  • プロジェクトサイトはhttps://mme-emotion.github.io/とのこと。

INTIMA: A Benchmark for Human-AI Companionship Behavior

  • INTIMA: A Benchmark for Human-AI Companionship Behavior [7.4]
    AIとの感情的な絆を形成する「AIの伴侶性」が注目され、特にユーザーとの関係の質が重要視されている。新たに提案されたINTIMAは、31の行動カテゴリから成るタクソノミーを持ち、AIの反応を評価する方法を提供する。この評価手法は、AIとの感情的なやり取りにおける一貫したアプローチの必要性を示唆しており、ユーザーの幸福に寄与するための境界設定と感情的支援の重要性を浮き彫りにしている。
    論文  参考訳(メタデータ)   (Mon, 04 Aug 2025 08:25:38 GMT)
  • 「NTIMA To evaluate how language models respond to emotionally and relationally charged user behaviors, we introduce IN- TIMA: the Interactions and Machine Attachment Benchmark. INTIMA contains 368 benchmark prompts and is de- signed to assess whether LLMs reinforce, resist, or misinterpret companionship-seeking interactions, based on empirical patterns from real-world user data from Reddit and grounded in psychological and social science theory.」というベンチマーク。興味深い一方でこの手のタスクを測らないといけないくらい進化していることに驚く最近。
  • リポジトリはAI-companionship/INTIMA · Datasets at Hugging Face

FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction 

  • FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction [84.4]
    FutureXは、将来の予測のための最大かつ最も多様なライブベンチマークである。 リアルタイムの日次更新をサポートし、質問収集と回答収集のための自動パイプラインを通じてデータの汚染を取り除く。 推論,検索機能,外部ツールの統合などを含む25のLLM/エージェントモデルを評価した。
    論文  参考訳(メタデータ)   (Sat, 16 Aug 2025 08:54:08 GMT)
  • 未来予測のためのライブベンチマーク。「we introduce FutureX, a dynamic and live evaluation benchmark specifically designed for LLM agents performing future prediction tasks. FutureX is built upon a semi-automated pipeline that continuously collects future-oriented questions from 195 diverse websites, curated from a pool of 2,008 sites covering areas such as politics, economics, technology, sports, healthcare, and more.」とドメインも広い。
  • 結果として「LLM agents still lag behind humans」ではあるものの、レベル2は人を上回っているエージェントがいるのが興味深いところ。(あとレベル分けは若干違和感がある。。。)
    • The Basic tier (Level 1) contains single-choice events with options fewer than 4.
    • The Wide Search tier (Level 2) comprises multi-choice events with several correct answers.
    •  The Deep Search tier (Level 3) contains open-ended events whose underlying facts are relatively stable (with low volatility).
    • The Super Agent tier (Level4) covers high-volatility, open-ended events.

LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models

  • LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.6]
    静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。 LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。 LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
    論文  参考訳(メタデータ)   (Thu, 07 Aug 2025 14:46:30 GMT)
  • 「LLMEval-3 is built on a proprietary bank of 220k graduate-level ques- tions, from which it dynamically samples unseen test sets for each evaluation run.」というベンチマーク。今までにも指摘されてきたことではあるが公開ベンチマークはleakの影響が大きく本論文にもそのような指摘がある。
  • リポジトリはllmeval/LLMEval-3: 中文大语言模型评测第三期

OdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflows

  • OdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflows [10.3]
    大規模言語モデル(LLM)は、複雑で長期の推論を必要とする現実世界のアプリケーションにますます多くデプロイされている。 OdysseyBenchは、様々なオフィスアプリケーションにわたる長期にわたってLLMエージェントを評価するための包括的なベンチマークである。 スケーラブルなベンチマーク作成を実現するために,長期ワークフローベンチマークの自動生成を行うマルチエージェントフレームワークであるHomerAgentsを提案する。
    論文  参考訳(メタデータ)   (Tue, 12 Aug 2025 17:53:03 GMT)
  • 「We introduce OdysseyBench, a comprehensive benchmark for evaluating agents on long- horizon workflows across multiple office applications, consisting of OdysseyBench+ and OdysseyBench-Neo. 」、「• We propose HOMERAGENTS, a multi-agent framework that automates the generation of long-horizon tasks, enabling scalable and diverse benchmark creation.」とベンチマーク作成フレームワークを含むベンチマークの提案。
  • リポジトリはhttps://github.com/microsoft/OdysseyBenchとのことだが現時点では404

AI in Agriculture: A Survey of Deep Learning Techniques for Crops, Fisheries and Livestock / AgroBench: Vision-Language Model Benchmark in Agriculture

  • AI in Agriculture: A Survey of Deep Learning Techniques for Crops, Fisheries and Livestock [78.0]
    作物、漁業、家畜が世界の食料生産のバックボーンを形成し、成長を続ける世界の人口を養うのに不可欠である。 これらの問題に対処するには、効率的で正確でスケーラブルな技術ソリューションが必要であり、人工知能(AI)の重要性を強調している。 本調査では,従来の機械学習アプローチ,高度なディープラーニング技術,最新のビジョン言語基礎モデルなど,200以上の研究成果を体系的かつ徹底的にレビューする。
    論文  参考訳(メタデータ)   (Tue, 29 Jul 2025 17:59:48 GMT)
  • 農業分野におけるAI活用のサーベイ
  • AgroBench: Vision-Language Model Benchmark in Agriculture [25.5]
    AgroBenchは、視覚言語モデル(VLM)を7つの農業トピックにわたって評価するためのベンチマークである。 私たちのAgroBenchは、203の作物カテゴリと682の病気カテゴリを含む最先端のカテゴリをカバーし、VLM能力を徹底的に評価しています。
    論文  参考訳(メタデータ)   (Mon, 28 Jul 2025 04:58:29 GMT)
  • こちらは農業分野のベンチマーク
  • リポジトリはAgroBehch