Language Models Hallucinate, but May Excel at Fact Verification

Language Models Hallucinate, but May Excel at Fact Verification [95.6]
大規模言語モデル(LLM)はしばしば「幻惑(hallucinate)」し、結果として非実効出力となる。 GPT-3.5でさえ、事実の出力は25%以下である。これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文参考訳（メタデータ） (Mon, 23 Oct 2023 04:39:01 GMT)
様々なモデルや条件でのハルシネーションについて検証した論文。「Surprisingly, FLAN-T511B, the least factual generator in our study, performs the best as a fact verifier, even outperforming more capable LLMs like GPT3.5 and ChatGPT.」という結果。
「The overall inferior performance of not using evidence reveals the importance of retrieval.」は個人的な感覚にもあう。

コメントを残す

コメントを残す コメントをキャンセル