Establishing Best Practices for Building Rigorous Agentic Benchmarks 

  • Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.7]
    多くのエージェントベンチマークではタスク設定や報酬設計が問題となっている。 このような問題は、相対的な用語で、過小評価または過大評価エージェントのパフォーマンスを最大100%向上させる可能性がある。 我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
    論文  参考訳(メタデータ)   (Thu, 03 Jul 2025 17:35:31 GMT)
  • 構築が難しいエージェント系ベンチマークの注意点をまとめた論文。
  • 「the issues found in τ-bench-Airline, some other example issues we found are: (1) an agent can score 100% on SWE-Lancer without resolving any tasks;」のような問題は相応にある気がするし、「Based on ABC, we assessed ten widely used agentic benchmarks and identified significant evaluation issues that cases up to 100% errors (in relative terms) when estimating agents’ performance.」も驚愕という感じではない。
  • リポジトリはGitHub – uiuc-kang-lab/agentic-benchmarks

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です