Towards a Science of AI Agent Reliability

  • Towards a Science of AI Agent Reliability [9.6]
    AIエージェントは、重要なタスクを実行するためにますますデプロイされる。 標準ベンチマークにおける精度の上昇は急速な進歩を示唆する一方で、多くのエージェントが実際に失敗し続けている。 エージェントの信頼性を4つの重要な次元(一貫性、堅牢性、予測可能性、安全性)に沿って分解する12のメトリクスを提案する。
    論文  参考訳(メタデータ)   (Wed, 18 Feb 2026 18:05:44 GMT)
  • 通常のパフォーマンスではなく信頼性の4軸(consistency, robustness, predictability, safety)からのベンチマーク比較、「14 models across two complementary benchmarks. Our results show that 18 months of rapid capability gains have produced only small improvements in reli- ability: models that are substantially more accurate remain inconsistent across runs, brittle to prompt rephrasings, and often fail to understand when they are likely to succeed.」とのこと。
  • プロジェクトサイトはHAL Reliability Dashboard

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です