Survey on Evaluation of LLM-based Agents [28.9] LLMベースのエージェントの出現は、AIのパラダイムシフトを表している。 本稿では,これらのエージェントに対する評価手法に関する総合的な調査を初めて実施する。 論文参考訳(メタデータ) (Thu, 20 Mar 2025 17:59:23 GMT)
「We systematically analyze evaluation benchmarks and frameworks across four critical dimensions: (1) fundamental agent capabilities, including planning, tool use, self-reflection, and memory; (2) applicationspecific benchmarks for web, software engineering, scientific, and conversational agents; (3) benchmarks for generalist agents; and (4) frameworks for evaluating agents.」とエージェントの評価に関するサーベイ