JudgeBench: A Benchmark for Evaluating LLM-based Judges

  • JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.0]
    judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLLMベースの判断を評価するためのベンチマークである。 審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
    論文  参考訳(メタデータ)   (Wed, 16 Oct 2024 17:58:19 GMT)
  • LLMベースの評価者を評価するためのベンチマーク。「Among all the models, OpenAI’s latest o1-preview and o1-mini perform the best overall, achieving 75.43% and 65.71% accuracy respectively.」とのことでo1の能力が高いのが興味深い。
  • リポジトリはGitHub – ScalerLab/JudgeBench

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です