2024年11月1日 – arXiv最新論文の紹介

JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.0]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLLMベースの判断を評価するためのベンチマークである。審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文参考訳（メタデータ） (Wed, 16 Oct 2024 17:58:19 GMT)
LLMベースの評価者を評価するためのベンチマーク。「Among all the models, OpenAI’s latest o1-preview and o1-mini perform the best overall, achieving 75.43% and 65.71% accuracy respectively.」とのことでo1の能力が高いのが興味深い。
リポジトリはGitHub – ScalerLab/JudgeBench

日: 2024年11月1日