MATEval: A “Multi-Agent Text Evaluation framework”

MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation [22.2]
生成型大規模言語モデル(LLM)は注目に値するが、これらのモデルによって生成されたテキストの品質は、しばしば永続的な問題を示す。 MATEval: “Multi-Agent Text Evaluation framework”を提案する。本フレームワークは,評価プロセスの深度と広さを高めるために,自己回帰と整合性戦略とフィードバック機構を取り入れている。
論文参考訳（メタデータ） (Thu, 28 Mar 2024 10:41:47 GMT)
マルチエージェントなself-reflectionとCoTで評価するフレームワークの提案。「We mainly apply our framework to the evaluation of story texts generated by LLMs in Alipay business scenarios.」とのことで現実的なデータ＆様々な手法と比較されているのは興味深い。
リポジトリはAnonymized Repository – Anonymous GitHub (4open.science)

コメントを残す

コメントを残す コメントをキャンセル