LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models

  • LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.6]
    静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。 LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。 LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
    論文  参考訳(メタデータ)   (Thu, 07 Aug 2025 14:46:30 GMT)
  • 「LLMEval-3 is built on a proprietary bank of 220k graduate-level ques- tions, from which it dynamically samples unseen test sets for each evaluation run.」というベンチマーク。今までにも指摘されてきたことではあるが公開ベンチマークはleakの影響が大きく本論文にもそのような指摘がある。
  • リポジトリはllmeval/LLMEval-3: 中文大语言模型评测第三期

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です