Agent-as-a-Judge: Evaluate Agents with Agents

  • Agent-as-a-Judge: Evaluate Agents with Agents [61.3]
    本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。 これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。 55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
    論文  参考訳(メタデータ)   (Mon, 14 Oct 2024 17:57:02 GMT)
  • LLM-as-a-Judgeならぬ、Agent-as-a-Judge。確かに有効なのだろうと思う。「We benchmark three of the popular agentic systems using Agent-as-a-Judge and find it dramatically outperforms LLM-as-a-Judge and is as reliable as our human evaluation baseline.」とのこと。
  • データセットがDEVAI-benchmark (DEVAI-benchmark)で公開されている。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です