- ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.7]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。 分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (Mon, 14 Aug 2023 15:13:04 GMT) - マルチエージェントでディベートをしながら生成テキストの品質を評価するフレームワークの提案、人が合議で判定しているようで面白い。
- A Task-Solving Agent through Multi-Persona Self-Collaboration – arXiv最新論文の紹介 (devneko.jp)でも思ったがアンサンブルモデルのようにマルチエージェントを前提としたLLM活用は有望なのかもしれない
- リポジトリはGitHub – chanchimin/ChatEval: Codes for our paper “ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate”