- CoverBench: A Challenging Benchmark for Complex Claim Verification [31.7]
複雑な推論条件下でのLM出力の検証に重点を置いたベンチマークであるCoverBenchを紹介する。 CoverBenchは、さまざまなドメインにおける複雑なクレーム検証のための多彩な評価を提供する。 低レベルのラベルノイズを確実にするために、手動でデータの品質を検証します。
論文 参考訳(メタデータ) (Tue, 6 Aug 2024 17:58:53 GMT) - LLMからの出力検証にフォーカスしたベンチマークの提案。Gemini 1.5 Proでも十分なスコアとはいいがたく、非常に難しいタスクに思える。
- リポジトリはgoogle/coverbench · Datasets at Hugging Face