Agent-as-a-Judge Agent-as-a-Judge [20.9]LLM-as-a-Judgeは、スケーラブルな評価に大規模言語モデルを活用することで、AI評価に革命をもたらした。 評価が複雑化し、専門化され、多段階化されるにつれて、LLM-as-a-Judgeの信頼性は、固有のバイアス、浅いシングルパス推論、現実世界の観測に対する評価の欠如によって制約されている。 これはエージェント・アズ・ア・ジャッジ(Agen-as-a-Judge)への移行を触媒し、エージェント・ジャッジは計画、ツール強化された検証、マルチエージェント・コラボレーション、永続メモリを採用し、より堅牢で検証可能な、ニュアンスな評価を可能にする。論文 参考訳(メタデータ) (Thu, 08 Jan 2026 16:58:10 GMT) 「We identify and characterize the shift from LLM- as-a-Judge to Agent-as-a-Judge and summarize the agentic judges’ development trend into three progressive stages」と、最近のLLM as a judgeの進化がよく分かるサーベイ。 リポジトリはGitHub – ModalityDance/Awesome-Agent-as-a-Judge: “A Survey on Agent-as-a-Judge”