Language Models Hallucinate, but May Excel at Fact Verification
Language Models Hallucinate, but May Excel at Fact Verification [95.6] 大規模言語モデル(LLM)はしばしば「幻惑(hallucinate)」し、結果として非実効出力となる。 GPT-3.5でさえ、事実の出力は25%以下である。 これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。 論文参考訳(メタデータ) (Mon, 23 Oct 2023 04:39:01 GMT)
様々なモデルや条件でのハルシネーションについて検証した論文。「Surprisingly, FLAN-T511B, the least factual generator in our study, performs the best as a fact verifier, even outperforming more capable LLMs like GPT3.5 and ChatGPT.」という結果。
「The overall inferior performance of not using evidence reveals the importance of retrieval.」は個人的な感覚にもあう。