xVerify: Efficient Answer Verifier for Reasoning Model Evaluations

  • xVerify: Efficient Answer Verifier for Reasoning Model Evaluations [24.1]
    推論モデル評価のための効率的な答え検証器であるxVerifyを提案する。 xVerifyは同値判定において強い能力を示し、推論モデルによって生成された答えが参照回答と等価であるかどうかを効果的に決定できる。 テストセットと一般化セットの両方で実施された評価実験では、すべてのxVerifyモデルが全体のF1スコアと95%を超える精度を達成する。
    論文  参考訳(メタデータ)   (Mon, 14 Apr 2025 17:59:36 GMT)
  • LRM向けの「Verify Answer for Reasoning (VAR) dataset」と回答検証モデルの提案。「xVerify demonstrates strong capability in equivalence judgment, enabling it to effectively determine whether the answers produced by reasoning models are equivalent to reference answers across various types of objective questions.」とのことで、「xVerify-0.5B-I, outperforms all evaluation methods except GPT-4o, while xVerify-3B-Ib surpasses GPT-4o in overall performance.」という性能。
  • リポジトリはGitHub – IAAR-Shanghai/xVerify: xVerify: Efficient Answer Verifier for Reasoning Model Evaluations

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です