Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models

Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.9]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
論文参考訳（メタデータ） (Wed, 26 Feb 2025 04:50:43 GMT)
RAGを対象とした評価手法、「 Judge-Consistency (ConsJudge), a method that enhances LLM-based judgment models to generate more accurate evaluations for RAG models in a self-improvement framework.」の提案。
リポジトリはGitHub – OpenBMB/ConsJudge

コメントを残す

コメントを残す コメントをキャンセル