CoverBench: A Challenging Benchmark for Complex Claim Verification

CoverBench: A Challenging Benchmark for Complex Claim Verification [31.7]
複雑な推論条件下でのLM出力の検証に重点を置いたベンチマークであるCoverBenchを紹介する。 CoverBenchは、さまざまなドメインにおける複雑なクレーム検証のための多彩な評価を提供する。低レベルのラベルノイズを確実にするために、手動でデータの品質を検証します。
論文参考訳（メタデータ） (Tue, 6 Aug 2024 17:58:53 GMT)
LLMからの出力検証にフォーカスしたベンチマークの提案。Gemini 1.5 Proでも十分なスコアとはいいがたく、非常に難しいタスクに思える。
リポジトリはgoogle/coverbench · Datasets at Hugging Face

コメントを残す

コメントを残す コメントをキャンセル