- EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies [61.3]
対話型経済における継続的計画・実行意思決定のためのベンチマークであるEcoGymを紹介する。 EcoGymは、透明性のある長期的なエージェント評価のためのオープンなテストベッドとしてリリースされ、現実的な経済環境下でのコントロール可能性とユーティリティのトレードオフを研究するためのものだ。
論文 参考訳(メタデータ) (Wed, 11 Feb 2026 08:59:16 GMT) - 「EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies.」というベンチマーク。「Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions.」というのは興味深く得意・不得意があるよう(安定性が良くないという指摘もある)
- リポジトリはGitHub – OPPO-PersonalAI/EcoGym: Official Repo for “EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies”
タグ: ベンチマーク
When AI Benchmarks Plateau: A Systematic Study of Benchmark Saturation
- When AI Benchmarks Plateau: A Systematic Study of Benchmark Saturation [80.7]
主要モデル開発者のテクニカルレポートから選択した60のLarge Language Model (LLM)ベンチマークのベンチマーク飽和を分析した。 分析の結果、ベンチマークのほぼ半数が飽和しており、ベンチマークの年齢とともに上昇していることがわかった。 専門家によるベンチマークは、クラウドソースのベンチマークよりも飽和に抵抗する。
論文 参考訳(メタデータ) (Wed, 18 Feb 2026 16:51:37 GMT) - 多くのベンチマークが急速に解かれるように感じる状況について整理した論文。「Benchmarks with held-out or private test data do not exhibit systematically lower saturation than public ones. While contamination and memorization are well- documented risks (Zhou et al , 2023b; Balloccu et al , 2024; Deng et al , 2024; Sainz et al , 2024), secrecy alone does not prevent compression once distributional characteristics become widely known.」というのは若干意外だった。
- プロジェクトサイトはEvalEval Coalition | We are a researcher community developing scientifically grounded research outputs and robust deployment infrastructure for broader impact evaluations.
OS-Marathon: Benchmarking Computer-Use Agents on Long-Horizon Repetitive Tasks
- OS-Marathon: Benchmarking Computer-Use Agents on Long-Horizon Repetitive Tasks [37.0]
ロングホライズンで反復的なタスクは、プロフェッショナルな設定で一般的である。 これらのタスクは、処理するデータのサイズに比例して極端な長さまで拡張できるため、人間にとって退屈な作業であることが多い。 我々は2つのドメインにまたがる242の長期的反復的なタスクからなるOS-Marathonを構築し、SOTA(State-of-the-art)エージェントを評価する。
論文 参考訳(メタデータ) (Wed, 28 Jan 2026 14:35:23 GMT) - 「OS-Marathon is specifically tailored to evaluate CUA performance in long- horizon, repetitive execution scenarios, comprising 242 tasks across 2 domains and 7 distinct execution environments. 」と長期かつ反復的なタスクがあるGUIエージェントベンチマーク。かなり難しいベンチマークに見える。
- プロジェクトサイトはOS-Marathon Benchmark
Automated Safety Benchmarking: A Multi-agent Pipeline for LVLMs
- Automated Safety Benchmarking: A Multi-agent Pipeline for LVLMs [61.0]
大規模視覚言語モデル(LVLM)は、クロスモーダルタスクにおいて顕著な能力を示すが、重大な安全性上の課題に直面している。 既存のベンチマークは、労働集約的な建設プロセス、静的な複雑さ、限定的な差別力によって妨げられている。 LVLMの安全性ベンチマークのための最初の自動システムであるVLSafetyBencherを提案する。
論文 参考訳(メタデータ) (Tue, 27 Jan 2026 11:51:30 GMT) - LVLMのための安全性評価ベンチマーク、「Ex-eriments validates that VLSafetyBencher can construct high-quality safety benchmarks within one week at a minimal cost. The generated benchmark effectively distinguish safety, with a safety rate disparity of 70% between the most and least safe models.」とのこと。
- この手のベンチマークではGPT系モデルの優位性が目立つことが多いが、本論文ではClaude-Sonnet-4がトップ。LVLMとしての評価だからだろうか。
MALLOC: Benchmarking the Memory-aware Long Sequence Compression for Large Sequential Recommendation
- MALLOC: Benchmarking the Memory-aware Long Sequence Compression for Large Sequential Recommendation [84.5]
MALLOCは、メモリを意識したロングシーケンス圧縮のベンチマークである。 最先端のレコメンデータに統合され、再現性と評価のプラットフォームを可能にする。
論文 参考訳(メタデータ) (Wed, 28 Jan 2026 04:11:50 GMT) - 「In this work, we introduce MALLOC, the first comprehensive benchmark that systematically restructures the landscape of long- sequence compression through a novel taxonomy centered on memory allocation granularity. By categorizing existing compression techniques within a unified framework and evaluating them along the dimensions of predictive accuracy, computational cost, memory utilization, and scalability, we deliver a comprehensive view of the practical trade-offs underlying long-sequence recommendation.」とメモリ機能を意識したベンチマーク。本論文が対象としているのは、モデルそのものによる長文圧縮での扱いであり、AgenticRAGの派生形としてのAI Memoryとは異なる。
- リポジトリはAnonymized Repository – Anonymous GitHub
Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces
- Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.2]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。 ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。 将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文 参考訳(メタデータ) (Sat, 17 Jan 2026 01:29:30 GMT) - 「we present Terminal-Bench 2.0: a carefully curated hard benchmark composed of 89 tasks in computer terminal environments inspired by problems from real workflows. Each task features a unique environment, human- written solution, and comprehensive tests for verification.」というベンチマーク。現時点での最高性能はDroid (GPT-5.2)、ベースモデルもだがエージェントフレームワークも良く寄与していそうな結果。
- プロジェクトサイトはTerminal-Bench
ViDoRe V3: A Comprehensive Evaluation of Retrieval Augmented Generation in Complex Real-World Scenarios
- ViDoRe V3: A Comprehensive Evaluation of Retrieval Augmented Generation in Complex Real-World Scenarios [8.3]
ViDoRe v3は、視覚的にリッチなドキュメントコーパス上のマルチタイプクエリを特徴とする総合マルチモーダルRAGベンチマークである。 さまざまな専門家ドメインにまたがる10のデータセットをカバーしており、26,000のドキュメントページと3,099の人間認証クエリをペアにしている。
論文 参考訳(メタデータ) (Tue, 13 Jan 2026 15:00:33 GMT) - 「We introduce ViDoRe V3, a comprehensive multi- modal RAG benchmark featuring multi-type queries over visually rich document corpora. It covers 10 datasets across diverse professional domains, comprising 26,000 document pages paired with 3,099 human-verified queries, each available in 6 languages.」というベンチマーク。「Evaluating state-of-the-art RAG pipelines, we find that visual retrievers outperform textual ones, late interaction and textual reranking yield substantial gains, and visual context improves answer generation quality.」が意外。
- リポジトリはvidore (Vidore)
The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios
- The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios [34.3]
本稿では,新しい環境を継続的に探索する「訓練」エージェントをシミュレートする動的評価環境である方法を紹介する。 従来のベンチマークとは違って,(1)優先度の異なるストリーミングタスクのコンテキストアウェアスケジューリング,(2)能動的探索による幻覚の低減のための巧妙な情報取得,(3)規則に基づく動的生成タスクから一般化戦略を抽出した継続的進化,の3つの側面に沿ってエージェントを評価する。 私たちの研究は、エージェントの信頼性を評価するためのフレームワークを確立し、静的テストから現実的な実運用指向のシナリオに評価をシフトします。
論文 参考訳(メタデータ) (Tue, 13 Jan 2026 03:09:18 GMT) - 「We introduce Trainee-Bench, a benchmark designed to bridge the gap between static setups and dynamic and uncertain workplace scenarios. Constructed via a bottom-up strategy that links atomic skills to holistic workflows, Trainee-Bench orchestrates rule-based meta-task templates into complex, time-constrained scenarios, supported by an auto- mated verification mechanism for rigorous assessment.」というベンチマーク。この手のベンチマークが一定成立できるようになった進化がすごいと思いつつ、公開モデルはかなり苦労している。
- リポジトリはGitHub – KnowledgeXLab/EvoEnv
All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection
- All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection [67.9]
RFC Benchは、現実的なニュースの下で財務的な誤情報に関する大規模な言語モデルを評価するためのベンチマークである。 このベンチマークでは、2つの補完的なタスクが定義されている。
論文 参考訳(メタデータ) (Wed, 07 Jan 2026 18:18:28 GMT) - 金融の誤情報検知を目指したベンチマーク。「The benchmark defines two complementary tasks: reference-free misinformation detection and comparison-based diagnosis using paired original–perturbed inputs. Experiments reveal a consistent pattern: performance is substantially stronger when comparative con- text is available, while reference-free settings expose significant weaknesses, including un- stable predictions and elevated invalid outputs.
These results indicate that current models struggle to maintain coherent belief states without external grounding. By highlighting this gap, RFC-BENCH provides a structured testbed for studying reference-free reasoning and advancing more reliable financial misinformation detection in real-world settings.」 - リポジトリはGitHub – lzw108/FMD: This is a continuous project on Financial Misinformation Detection (FMD).
SciEvalKit, HiSciBench
科学に関するベンチマークが複数出ていた。AI for Scienceの流行もあってベンチマークが充実しつつある、
- SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence [99.3]
SciEvalKitは、科学知能のコア能力に焦点を当てている。 物理学、化学から天文学、材料科学まで6つの主要な科学領域をサポートしている。 このツールキットはオープンソースで、コミュニティ主導の開発とAI4Scienceの進歩を促進するために積極的にメンテナンスされている。
論文 参考訳(メタデータ) (Fri, 26 Dec 2025 17:36:02 GMT) - プロジェクトサイトはOpenCompass司南、現状、Gemini 3 Pro > Qwen3 MAX > GPT-5とQwenが上位に入っているのが興味深い
- HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery [50.9]
HiSciBenchは、完全な科学的ワークフローを反映した5つのレベルにわたる基礎モデルを評価するために設計された階層的なベンチマークである。 HiSciBenchには、6つの主要な科学分野にまたがる8,735件の慎重に管理された事例が含まれている。
論文 参考訳(メタデータ) (Sun, 28 Dec 2025 12:08:05 GMT) - こちらは「The benchmark will be publicly released to facilitate future research.」とあるが、データはまだ公開されていない?