- FELM: Benchmarking Factuality Evaluation of Large Language Models [40.8]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。 我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。 その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (Sun, 1 Oct 2023 17:37:31 GMT) - world knowledge、 science/technology、 writing/recommendation、 reasoning、mathのドメインからなるベンチマーク、アノテーションがめっちゃしんどそう。。。
- リポジトリはGitHub – hkust-nlp/felm: Github repository for “FELM: Benchmarking Factuality Evaluation of Large Language Models”