Towards a Science of AI Agent Reliability [9.6] AIエージェントは、重要なタスクを実行するためにますますデプロイされる。 標準ベンチマークにおける精度の上昇は急速な進歩を示唆する一方で、多くのエージェントが実際に失敗し続けている。 エージェントの信頼性を4つの重要な次元(一貫性、堅牢性、予測可能性、安全性)に沿って分解する12のメトリクスを提案する。 論文参考訳(メタデータ) (Wed, 18 Feb 2026 18:05:44 GMT)
通常のパフォーマンスではなく信頼性の4軸(consistency, robustness, predictability, safety)からのベンチマーク比較、「14 models across two complementary benchmarks. Our results show that 18 months of rapid capability gains have produced only small improvements in reli- ability: models that are substantially more accurate remain inconsistent across runs, brittle to prompt rephrasings, and often fail to understand when they are likely to succeed.」とのこと。