MATEval: A “Multi-Agent Text Evaluation framework”
MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation [22.2] 生成型大規模言語モデル(LLM)は注目に値するが、これらのモデルによって生成されたテキストの品質は、しばしば永続的な問題を示す。 MATEval: “Multi-Agent Text Evaluation framework”を提案する。 本フレームワークは,評価プロセスの深度と広さを高めるために,自己回帰と整合性戦略とフィードバック機構を取り入れている。 論文参考訳(メタデータ) (Thu, 28 Mar 2024 10:41:47 GMT)
マルチエージェントなself-reflectionとCoTで評価するフレームワークの提案。「We mainly apply our framework to the evaluation of story texts generated by LLMs in Alipay business scenarios.」 とのことで現実的なデータ&様々な手法と比較されているのは興味深い。