FrontierCS: Evolving Challenges for Evolving Intelligence
FrontierCS: Evolving Challenges for Evolving Intelligence [174.8] コンピュータ科学の様々な領域にまたがる156のオープンエンド問題のベンチマークであるFrontierCSを紹介する。 各問題に対して、専門家の参照ソリューションと自動評価器を提供する。 私たちは、アルゴリズムと研究のトラックに関して、フロンティア推論モデルが人間の専門家よりずっと遅れていることに気付きました。 論文参考訳(メタデータ) (Wed, 17 Dec 2025 18:52:45 GMT)
「we introduce FrontierCS, a coding benchmark that evaluates LLMs on solving open- ended computer science problems, where no known closed-form or deterministic optimal solution exists in practice. 」というベンチマーク。「Empirically, we find that even the strongest frontier reasoning models remain far behind human experts on both the algorithmic and research tracks of FrontierCS. Simply scaling up context length or reasoning budgets yields diminishing returns on the hardest problems, and models frequently converge to locally workable but clearly suboptimal algorithms.」とのこと。