- When AI Benchmarks Plateau: A Systematic Study of Benchmark Saturation [80.7]
主要モデル開発者のテクニカルレポートから選択した60のLarge Language Model (LLM)ベンチマークのベンチマーク飽和を分析した。 分析の結果、ベンチマークのほぼ半数が飽和しており、ベンチマークの年齢とともに上昇していることがわかった。 専門家によるベンチマークは、クラウドソースのベンチマークよりも飽和に抵抗する。
論文 参考訳(メタデータ) (Wed, 18 Feb 2026 16:51:37 GMT) - 多くのベンチマークが急速に解かれるように感じる状況について整理した論文。「Benchmarks with held-out or private test data do not exhibit systematically lower saturation than public ones. While contamination and memorization are well- documented risks (Zhou et al , 2023b; Balloccu et al , 2024; Deng et al , 2024; Sainz et al , 2024), secrecy alone does not prevent compression once distributional characteristics become widely known.」というのは若干意外だった。
- プロジェクトサイトはEvalEval Coalition | We are a researcher community developing scientifically grounded research outputs and robust deployment infrastructure for broader impact evaluations.