CoverBench: A Challenging Benchmark for Complex Claim Verification 

  • CoverBench: A Challenging Benchmark for Complex Claim Verification [31.7]
    複雑な推論条件下でのLM出力の検証に重点を置いたベンチマークであるCoverBenchを紹介する。 CoverBenchは、さまざまなドメインにおける複雑なクレーム検証のための多彩な評価を提供する。 低レベルのラベルノイズを確実にするために、手動でデータの品質を検証します。
    論文  参考訳(メタデータ)   (Tue, 6 Aug 2024 17:58:53 GMT)
  • LLMからの出力検証にフォーカスしたベンチマークの提案。Gemini 1.5 Proでも十分なスコアとはいいがたく、非常に難しいタスクに思える。
  • リポジトリはgoogle/coverbench · Datasets at Hugging Face

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です