- OS-Marathon: Benchmarking Computer-Use Agents on Long-Horizon Repetitive Tasks [37.0]
ロングホライズンで反復的なタスクは、プロフェッショナルな設定で一般的である。 これらのタスクは、処理するデータのサイズに比例して極端な長さまで拡張できるため、人間にとって退屈な作業であることが多い。 我々は2つのドメインにまたがる242の長期的反復的なタスクからなるOS-Marathonを構築し、SOTA(State-of-the-art)エージェントを評価する。
論文 参考訳(メタデータ) (Wed, 28 Jan 2026 14:35:23 GMT) - 「OS-Marathon is specifically tailored to evaluate CUA performance in long- horizon, repetitive execution scenarios, comprising 242 tasks across 2 domains and 7 distinct execution environments. 」と長期かつ反復的なタスクがあるGUIエージェントベンチマーク。かなり難しいベンチマークに見える。
- プロジェクトサイトはOS-Marathon Benchmark
タグ: ベンチマーク
Automated Safety Benchmarking: A Multi-agent Pipeline for LVLMs
- Automated Safety Benchmarking: A Multi-agent Pipeline for LVLMs [61.0]
大規模視覚言語モデル(LVLM)は、クロスモーダルタスクにおいて顕著な能力を示すが、重大な安全性上の課題に直面している。 既存のベンチマークは、労働集約的な建設プロセス、静的な複雑さ、限定的な差別力によって妨げられている。 LVLMの安全性ベンチマークのための最初の自動システムであるVLSafetyBencherを提案する。
論文 参考訳(メタデータ) (Tue, 27 Jan 2026 11:51:30 GMT) - LVLMのための安全性評価ベンチマーク、「Ex-eriments validates that VLSafetyBencher can construct high-quality safety benchmarks within one week at a minimal cost. The generated benchmark effectively distinguish safety, with a safety rate disparity of 70% between the most and least safe models.」とのこと。
- この手のベンチマークではGPT系モデルの優位性が目立つことが多いが、本論文ではClaude-Sonnet-4がトップ。LVLMとしての評価だからだろうか。
MALLOC: Benchmarking the Memory-aware Long Sequence Compression for Large Sequential Recommendation
- MALLOC: Benchmarking the Memory-aware Long Sequence Compression for Large Sequential Recommendation [84.5]
MALLOCは、メモリを意識したロングシーケンス圧縮のベンチマークである。 最先端のレコメンデータに統合され、再現性と評価のプラットフォームを可能にする。
論文 参考訳(メタデータ) (Wed, 28 Jan 2026 04:11:50 GMT) - 「In this work, we introduce MALLOC, the first comprehensive benchmark that systematically restructures the landscape of long- sequence compression through a novel taxonomy centered on memory allocation granularity. By categorizing existing compression techniques within a unified framework and evaluating them along the dimensions of predictive accuracy, computational cost, memory utilization, and scalability, we deliver a comprehensive view of the practical trade-offs underlying long-sequence recommendation.」とメモリ機能を意識したベンチマーク。本論文が対象としているのは、モデルそのものによる長文圧縮での扱いであり、AgenticRAGの派生形としてのAI Memoryとは異なる。
- リポジトリはAnonymized Repository – Anonymous GitHub
Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces
- Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.2]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。 ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。 将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文 参考訳(メタデータ) (Sat, 17 Jan 2026 01:29:30 GMT) - 「we present Terminal-Bench 2.0: a carefully curated hard benchmark composed of 89 tasks in computer terminal environments inspired by problems from real workflows. Each task features a unique environment, human- written solution, and comprehensive tests for verification.」というベンチマーク。現時点での最高性能はDroid (GPT-5.2)、ベースモデルもだがエージェントフレームワークも良く寄与していそうな結果。
- プロジェクトサイトはTerminal-Bench
ViDoRe V3: A Comprehensive Evaluation of Retrieval Augmented Generation in Complex Real-World Scenarios
- ViDoRe V3: A Comprehensive Evaluation of Retrieval Augmented Generation in Complex Real-World Scenarios [8.3]
ViDoRe v3は、視覚的にリッチなドキュメントコーパス上のマルチタイプクエリを特徴とする総合マルチモーダルRAGベンチマークである。 さまざまな専門家ドメインにまたがる10のデータセットをカバーしており、26,000のドキュメントページと3,099の人間認証クエリをペアにしている。
論文 参考訳(メタデータ) (Tue, 13 Jan 2026 15:00:33 GMT) - 「We introduce ViDoRe V3, a comprehensive multi- modal RAG benchmark featuring multi-type queries over visually rich document corpora. It covers 10 datasets across diverse professional domains, comprising 26,000 document pages paired with 3,099 human-verified queries, each available in 6 languages.」というベンチマーク。「Evaluating state-of-the-art RAG pipelines, we find that visual retrievers outperform textual ones, late interaction and textual reranking yield substantial gains, and visual context improves answer generation quality.」が意外。
- リポジトリはvidore (Vidore)
The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios
- The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios [34.3]
本稿では,新しい環境を継続的に探索する「訓練」エージェントをシミュレートする動的評価環境である方法を紹介する。 従来のベンチマークとは違って,(1)優先度の異なるストリーミングタスクのコンテキストアウェアスケジューリング,(2)能動的探索による幻覚の低減のための巧妙な情報取得,(3)規則に基づく動的生成タスクから一般化戦略を抽出した継続的進化,の3つの側面に沿ってエージェントを評価する。 私たちの研究は、エージェントの信頼性を評価するためのフレームワークを確立し、静的テストから現実的な実運用指向のシナリオに評価をシフトします。
論文 参考訳(メタデータ) (Tue, 13 Jan 2026 03:09:18 GMT) - 「We introduce Trainee-Bench, a benchmark designed to bridge the gap between static setups and dynamic and uncertain workplace scenarios. Constructed via a bottom-up strategy that links atomic skills to holistic workflows, Trainee-Bench orchestrates rule-based meta-task templates into complex, time-constrained scenarios, supported by an auto- mated verification mechanism for rigorous assessment.」というベンチマーク。この手のベンチマークが一定成立できるようになった進化がすごいと思いつつ、公開モデルはかなり苦労している。
- リポジトリはGitHub – KnowledgeXLab/EvoEnv
All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection
- All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection [67.9]
RFC Benchは、現実的なニュースの下で財務的な誤情報に関する大規模な言語モデルを評価するためのベンチマークである。 このベンチマークでは、2つの補完的なタスクが定義されている。
論文 参考訳(メタデータ) (Wed, 07 Jan 2026 18:18:28 GMT) - 金融の誤情報検知を目指したベンチマーク。「The benchmark defines two complementary tasks: reference-free misinformation detection and comparison-based diagnosis using paired original–perturbed inputs. Experiments reveal a consistent pattern: performance is substantially stronger when comparative con- text is available, while reference-free settings expose significant weaknesses, including un- stable predictions and elevated invalid outputs.
These results indicate that current models struggle to maintain coherent belief states without external grounding. By highlighting this gap, RFC-BENCH provides a structured testbed for studying reference-free reasoning and advancing more reliable financial misinformation detection in real-world settings.」 - リポジトリはGitHub – lzw108/FMD: This is a continuous project on Financial Misinformation Detection (FMD).
SciEvalKit, HiSciBench
科学に関するベンチマークが複数出ていた。AI for Scienceの流行もあってベンチマークが充実しつつある、
- SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence [99.3]
SciEvalKitは、科学知能のコア能力に焦点を当てている。 物理学、化学から天文学、材料科学まで6つの主要な科学領域をサポートしている。 このツールキットはオープンソースで、コミュニティ主導の開発とAI4Scienceの進歩を促進するために積極的にメンテナンスされている。
論文 参考訳(メタデータ) (Fri, 26 Dec 2025 17:36:02 GMT) - プロジェクトサイトはOpenCompass司南、現状、Gemini 3 Pro > Qwen3 MAX > GPT-5とQwenが上位に入っているのが興味深い
- HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery [50.9]
HiSciBenchは、完全な科学的ワークフローを反映した5つのレベルにわたる基礎モデルを評価するために設計された階層的なベンチマークである。 HiSciBenchには、6つの主要な科学分野にまたがる8,735件の慎重に管理された事例が含まれている。
論文 参考訳(メタデータ) (Sun, 28 Dec 2025 12:08:05 GMT) - こちらは「The benchmark will be publicly released to facilitate future research.」とあるが、データはまだ公開されていない?
OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models
- OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models [54.4]
クロスプラットフォームGUI批判データのためのスケーラブルなデータパイプライン、教師付き微調整と一貫性保護グループによる相対的なポリシー最適化を組み合わせた2段階のトレーニングパラダイム、モバイル、Web、デスクトッププラットフォームにおける批判モデルのパフォーマンスを評価するための総合ベンチマークであるOS-Critic Benchの3つのコアコントリビューションを紹介します。 結果として得られた批判モデルであるOS-Oracle-7Bは、OS-Critic Bench上のオープンソースのVLMの最先端のパフォーマンスを達成し、モバイルドメインのプロプライエタリモデルを上回っている。
論文 参考訳(メタデータ) (Thu, 18 Dec 2025 08:29:50 GMT) - 「we present OS-Oracle, a comprehensive framework for GUI critic models. By introducing a scalable cross-platform data pipeline, we systematically synthesize both positive and negative samples that capture di- verse GUI failure modes. Together with a two-stage training recipe combining supervised fine-tuning and consistency- preserving GRPO, our approach enables robust and generalizable critic learning across Mobile, Web, and Desktop environments. Extensive experiments demonstrate that our critic model not only achieves impressive performance on the OS-Critic Bench but also effectively enhances the reliability and task success of native GUI agents.」とのこと。GUI Agentが盛り上がる中重要なデータセット、モデル、ベンチマークだと思う。
- リポジトリはGitHub – numbmelon/OS-Oracle、OS-Copilot/OS-Critic-Bench · Datasets at Hugging Face
A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos
- A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos [77.0]
LongShOTBenchは、長めのマルチモーダルビデオ理解のための診断ベンチマークである。 これには、オープンエンド、インテント駆動の質問、シングルターンとマルチターンの対話、マルチモーダル推論とエージェントツールの使用を必要とするタスクが含まれる。 LongShOTAgentは、前処理、検索、反復的な精細化を通じて、長いビデオを分析するエージェントシステムである。
論文 参考訳(メタデータ) (Thu, 18 Dec 2025 18:59:27 GMT) - 「We present LongShOTBench, a comprehensive diagnostic benchmark for evaluating MLLMs on long-form, multi- modal video understanding, integrating vision, speech, and audio across hour-long contexts. Its open-ended, intent- driven questions and rubric-based evaluation provide fine- grained, interpretable diagnostics across perception, reason- ing, and agentic tool-use tasks.」というベンチマーク。フロンティアモデルでも解くのが難しいのが興味深いのと、うまくパイプラインを構成しAgenticに使うと小規模モデルでも一定対応できるという点も興味深い。
- リポジトリは、GitHub – mbzuai-oryx/LongShOT: A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos