ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning

  • ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning [118.5]
    ATLASは、約800のオリジナルの問題からなる大規模で、高精度で、学際横断的な評価スイートである。 主な特徴は次のとおりである。 テストデータの漏洩を防ぐために新しく作成されたり、実質的に適応されたすべての質問を含む、高いオリジン性と汚染抵抗。 先行モデルに関する予備的な結果は、ATLASが先進的な科学的推論能力の差別化に有効であることを証明している。
    論文  参考訳(メタデータ)   (Thu, 20 Nov 2025 06:27:38 GMT)
  • 「We release a new, highly challenging evaluation benchmark containing approximately 800 expert-created original problems. The benchmark focuses on multidisciplinary scientific reasoning, with a target difficulty set to a pass rate of less than 20% for current state-of-the- art models, to effectively measure the true capabilities of frontier models.」と非常に難しいベンチマーク
  • リポジトリはGitHub – open-compass/ATLAS: ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning、Gemini 3 Proの結果が気になるところ。

Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey 

  • Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey [14.1]
    大型言語モデル (LLMs) は科学的アイデアの有望な生成元として登場した。 この調査は、科学的健全性による創造性へのアプローチの違いについて調査する。
    論文  参考訳(メタデータ)   (Wed, 12 Nov 2025 01:00:43 GMT)

MagicWorld: Interactive Geometry-driven Video World Exploration 

  • MagicWorld: Interactive Geometry-driven Video World Exploration [30.5]
    我々は、3次元幾何学的先行と歴史的検索を統合したインタラクティブなビデオワールドモデルMagicWorldを提案する。 本稿では,Action-Guided 3D Geometry Module (AG3D)を紹介した。 さらに、生成時に関連する履歴フレームを検索し、条件付き信号として注入するHistory Cache Retrieval (HCR) 機構を提案する。
    論文  参考訳(メタデータ)   (Mon, 24 Nov 2025 08:41:28 GMT)
  • ユーザアクション可能なビデオ生成モデル
  • リポジトリはMagicWorld: Interactive Geometry-driven Video World Exploration