CUBE: A Standard for Unifying Agent Benchmarks [139.0] MCPとGymをベースとしたユニバーサルプロトコル標準CUBE(Common Unified Benchmark Environments)を提案する。 CUBEは、任意の準拠プラットフォームがカスタム統合なしで、評価、RLトレーニング、データ生成のための準拠ベンチマークにアクセスできるようにする。 論文参考訳(メタデータ) (Mon, 16 Mar 2026 18:31:37 GMT)
「We propose CUBE (Common Unified Benchmark Envi- ronments), a protocol standard designed to unify the ML Community by establishing a universal interface between benchmarks and evaluation frameworks.1 The core insight is simple: if we define a consistent API contract, any CUBE- compliant benchmark becomes immediately usable by any CUBE-compliant platform.」と、ベンチマーク評価基盤を統合していこうという取り組み。「The importance of multi-benchmarking cannot be overstated. There are currently over 300 agentic benchmarks available, many of which are highly innovative but remain largely unknown because they are too difficult to set up.」はその通りで重要な取り組み(だが簡単ではない・・・)