ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning
ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning [118.5] ATLASは、約800のオリジナルの問題からなる大規模で、高精度で、学際横断的な評価スイートである。 主な特徴は次のとおりである。 テストデータの漏洩を防ぐために新しく作成されたり、実質的に適応されたすべての質問を含む、高いオリジン性と汚染抵抗。 先行モデルに関する予備的な結果は、ATLASが先進的な科学的推論能力の差別化に有効であることを証明している。 論文参考訳(メタデータ) (Thu, 20 Nov 2025 06:27:38 GMT)
「We release a new, highly challenging evaluation benchmark containing approximately 800 expert-created original problems. The benchmark focuses on multidisciplinary scientific reasoning, with a target difficulty set to a pass rate of less than 20% for current state-of-the- art models, to effectively measure the true capabilities of frontier models.」と非常に難しいベンチマーク