Can LLMs Produce Faithful Explanations For Fact-checking? Towards Faithful Explainable Fact-Checking via Multi-Agent Debate
Can LLMs Produce Faithful Explanations For Fact-checking? Towards Faithful Explainable Fact-Checking via Multi-Agent Debate [75.1] 大規模言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおいて忠実な説明を生成する能力は依然として過小評価されている。 多様な役割を持つエージェントとして複数のLSMを利用するマルチエージェント・デベート・リファインメント(MADR)フレームワークを提案する。 MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。 論文参考訳(メタデータ) (Mon, 12 Feb 2024 04:32:33 GMT)
「Our findings reveal that zero-shot prompting LLMs often fails to yield faithful explanations.80% of the generated explanations include hallucinated details.」なので、Multi-Agent Debate Refinement によって改善したという報告。ベースラインより改善しているが、まだまだ厳しい結果に思える。
「LLMs cannot reliably assess the faithfulness of the generated explanations and discover the most suitable evaluation protocols for LLM-based automatic evaluation」というfindingsは重要