- HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants [5.5]
エージェントの哲学的・科学的理論とAIを用いた評価手法を統合することにより、人間エージェントの考え方を発展させる。 我々は、典型的なAIのユースケースに基づいて、6次元の人間エージェントを持つスケーラブルで適応的なベンチマークであるHumanBench(HAB)を開発した。
論文 参考訳(メタデータ) (Wed, 10 Sep 2025 11:10:10 GMT) - AIエージェントが人間の主体性をどのように扱うかに関するベンチマーク。複数のカテゴリ(Experimental-Orange/HumanAgencyBench_Evaluation_Results · Datasets at Hugging Face)に対して評価可能。「There is substantial variation across model developers—with Anthropic’s Claude models tending to most support human agency—and across dimensions. We encourage further research into human agency as more human tasks and decisions are delegated to AI systems, ensuring humans maintain appropriate levels of control.」とモデルによって挙動が異なるよう。
- リポジトリはGitHub – BenSturgeon/HumanAgencyBench: A code repository for the paper: “HUMANAGENCYBENCH: Scalable Evaluation of Human Agency Support in AI Assistants”