コンテンツへスキップ
- FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation [130.4]
FActScoreは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。 我々は、最先端の商用LMが生み出した人々のFActScoreを得るために、広範囲にわたる人的評価を行う。 また、検索と強力な言語モデルを用いてFActScoreを2%未満のエラー率で推定する自動モデルも導入する。
論文 参考訳(メタデータ) (Tue, 23 May 2023 17:06:00 GMT)
- 生成されたテキストの事実性を判定する手法の提案と評価。生成分を事実情報まで分割し、知識ソースとの整合性を確認するアプローチのよう。
- 検証結果も非常に興味深い。特にOSSモデルのスコアはベースモデルの性能が影響しているように見え、チャットの模倣と基礎モデルの能力は別物であることを示唆(The False Promise of Imitating Proprietary LLMsと同じ示唆)している気がする。