Towards Execution-Grounded Automated AI Research

  • Towards Execution-Grounded Automated AI Research [106.9]
    現在のLLMはしばしばもっともらしく見えるが効果のないアイデアを生成します。実行基盤化は役に立つかもしれないが、自動実行が実現可能かどうか、LLMが実行フィードバックから学べるかどうかは不明だ。 我々は、アイデアを実装する自動化エグゼキュータを構築し、その有効性を検証するために大規模な並列GPU実験をローンチする。 本研究では,進化的探索と強化学習という,実行フィードバックから学習する2つの方法を分析する。
    論文  参考訳(メタデータ)   (Tue, 20 Jan 2026 22:35:44 GMT)
  • 「we develop a large-scale automated idea executor system that can implement research ideas for open-ended and realistic research problems. Using this automated executor, we conduct an in-depth analysis of how well LLM ideators can learn from execution feedback to improve effectiveness through evolutionary search and RL. Execution- guided evolutionary search is sample-efficient and effective, but shows limited scaling. RL from execution reward suffers from diversity collapse and does not improve the upperbound.」とのことで可能性とともに限界を感じる結果
  • リポジトリはGitHub – NoviScl/Automated-AI-Researcher

Towards LLM-enabled autonomous combustion research: A literature-aware agent for self-corrective modeling workflows 

  • Towards LLM-enabled autonomous combustion research: A literature-aware agent for self-corrective modeling workflows [9.4]
    FlamePilotは、自動および自己補正CFDによる燃焼モデリング研究を促進するように設計されている。 システムは、科学的な記事から学び、初期設定から最適化された結果までシミュレーションを導くための重要な情報を抽出することができる。 ケーススタディでは、FlamePilotが研究論文を自動で構成されたシミュレーションに変換し、シミュレーションを実行し、結果を後処理し、エビデンスに基づく改善を提案し、収束のために多段階のパラメータスタディを管理した。
    論文  参考訳(メタデータ)   (Sun, 04 Jan 2026 04:00:28 GMT)
  • 「we introduce FlamePilot, an LLM agent designed to empower combustion modeling research through automated and self-corrective CFD workflows. FlamePilot differentiates itself through an architecture that leverages atomic tools to ensure the robust setup and execution of complex simulations in both OpenFOAM and extended frameworks such as DeepFlame.」とドメインを特化した研究支援エージェント。

SciEvalKit, HiSciBench

    科学に関するベンチマークが複数出ていた。AI for Scienceの流行もあってベンチマークが充実しつつある、

    • SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence [99.3]
      SciEvalKitは、科学知能のコア能力に焦点を当てている。 物理学、化学から天文学、材料科学まで6つの主要な科学領域をサポートしている。 このツールキットはオープンソースで、コミュニティ主導の開発とAI4Scienceの進歩を促進するために積極的にメンテナンスされている。
      論文  参考訳(メタデータ)   (Fri, 26 Dec 2025 17:36:02 GMT)
    • プロジェクトサイトはOpenCompass司南、現状、Gemini 3 Pro > Qwen3 MAX > GPT-5とQwenが上位に入っているのが興味深い
    • HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery [50.9]
      HiSciBenchは、完全な科学的ワークフローを反映した5つのレベルにわたる基礎モデルを評価するために設計された階層的なベンチマークである。 HiSciBenchには、6つの主要な科学分野にまたがる8,735件の慎重に管理された事例が含まれている。
      論文  参考訳(メタデータ)   (Sun, 28 Dec 2025 12:08:05 GMT)
    • こちらは「The benchmark will be publicly released to facilitate future research.」とあるが、データはまだ公開されていない?

    Training AI Co-Scientists Using Rubric Rewards

    • Training AI Co-Scientists Using Rubric Rewards [36.9]
      AIの共同研究者の重要な特徴は、目的と制約のセットから研究計画を生成する能力である。 本研究では,既存の研究論文の膨大なコーパスを活用して,より良い研究計画を生み出す言語モデルを訓練する方法について検討する。 複数のドメインにわたる論文から研究目標と目標固有のグルーブを自動抽出することで、スケーラブルで多様なトレーニングコーパスを構築します。
      論文  参考訳(メタデータ)   (Mon, 29 Dec 2025 18:59:33 GMT)
    • 「we leverage existing scientific papers to improve language models at generating research plans for diverse open-ended research goals. We propose a scalable training procedure that uses a language model to extract research goals and grading rubrics from papers, and trains the plan generator with self-grading using the goal-specific rubrics as privileged information.」とのことで既存の研究論文を用いてLRMの研究計画再生能力を強化。 Qwen-3-30B-A3B-Instructベースであることを考えると「The obtained performance makes our 30B model competitive with Grok-4-Thinking (xAI, 2025), though it remains behind the best performing model, GPT-5-Thinking (OpenAI, 2025).」は健闘しているように思える。
    • データセットが公開されている facebook/research-plan-gen · Datasets at Hugging Face

    Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

    • Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [203.4]
      PIM(Practical Inquiry Model)に基づく運用SGI定義を提案する。 深層研究、アイデア生成、ドライ/ウェット実験、実験推論の4つのタスクを通じて運用しています。 私たちのPIMによる定義、ワークフロー中心のベンチマーク、実証的な洞察は、真に科学的な発見に参加するAIシステムの基盤を確立します。
      論文  参考訳(メタデータ)   (Thu, 18 Dec 2025 12:44:36 GMT)
    • scientific general intelligence (SGI)、「SGI is an AI that can autonomously navigate the complete, iterative cycle of scientific inquiry with the versatility and proficiency of a human scientist」の研究、ベンチマーク等も提案している。「Experiments reveal a consistent pattern: in Deep Research, models show step-level alignment but low exact-match accuracy (10–20%), with brittleness in quantitative reasoning; in Idea Generation, hypotheses are fluent but underspecified and infeasible; in Dry Experiment, code is executable but PassAll@k remains low; in Wet Experiment, sequences show omissions and misordering; and in Experimental Reasoning, causal reasoning outperforms comparative, with persistent multimodal challenges. These highlight gaps between linguistic fluency and integrated scientific cognition.」とあるなど道半ばという感じではあるが非常に流行っている分野だと思う。
    • SGI-Benchの上位はGemini 3 Pro, Claude Sonnet 4.5, Qwen3 Max, GPT-4.1, GPT-5.2 Proと各社のフロンティアモデルが並ぶ。
    • リポジトリはSGI-Bench — Scientific General Intelligence

    Evaluating Large Language Models in Scientific Discovery

    • Evaluating Large Language Models in Scientific Discovery [91.7]
      大規模言語モデル (LLMs) は科学研究にますます応用されてきているが、科学ベンチマークでは非文脈化された知識を探索している。 生物, 化学, 材料, 物理にまたがるLSMを評価するシナリオグラウンドベンチマークを提案する。 このフレームワークは、(i)シナリオタイドアイテムの質問レベル精度と(ii)プロジェクトレベルのパフォーマンスの2つのレベルでモデルを評価する。
      論文  参考訳(メタデータ)   (Wed, 17 Dec 2025 16:20:03 GMT)
    • AIに科学的発見はできるのか?という問いに対する評価。クイズのような形式ではなく、研究プロジェクト、現場の研究シナリオに基づく評価。「Large performance variation in research scenarios leads to changing choices of the best performing model on scientific discovery projects evaluated, suggesting all current LLMs are distant to general scientific “superintelligence”.」とのことではあるが、有効性も感じる印象を持った。
    • 「we observe striking exceptions to the positive correlation between question- and project-level performance. 」「This suggests that rigorous knowledge of explicit structure-property relationships is not a strict prerequisite for LLM-driven discovery. Rather, the capacity to discern optimization directions and facilitate serendipitous exploration appears more critical.」という指摘が面白い。どのモデルが良いかも問題によってかなり状況が変わるよう。

    ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning

    • ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning [118.5]
      ATLASは、約800のオリジナルの問題からなる大規模で、高精度で、学際横断的な評価スイートである。 主な特徴は次のとおりである。 テストデータの漏洩を防ぐために新しく作成されたり、実質的に適応されたすべての質問を含む、高いオリジン性と汚染抵抗。 先行モデルに関する予備的な結果は、ATLASが先進的な科学的推論能力の差別化に有効であることを証明している。
      論文  参考訳(メタデータ)   (Thu, 20 Nov 2025 06:27:38 GMT)
    • 「We release a new, highly challenging evaluation benchmark containing approximately 800 expert-created original problems. The benchmark focuses on multidisciplinary scientific reasoning, with a target difficulty set to a pass rate of less than 20% for current state-of-the- art models, to effectively measure the true capabilities of frontier models.」と非常に難しいベンチマーク
    • リポジトリはGitHub – open-compass/ATLAS: ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning、Gemini 3 Proの結果が気になるところ。

    Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey 

    • Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey [14.1]
      大型言語モデル (LLMs) は科学的アイデアの有望な生成元として登場した。 この調査は、科学的健全性による創造性へのアプローチの違いについて調査する。
      論文  参考訳(メタデータ)   (Wed, 12 Nov 2025 01:00:43 GMT)

    What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity 

    • What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity [40.3]
      エージェントのパフォーマンスにおいて,アイデアの多様性が果たす役割について検討する。 異なるモデルとエージェントの足場は、様々なアイデアの多様性をもたらす。 高いパフォーマンスのエージェントは、アイデアの多様性を増す傾向にある。
      論文  参考訳(メタデータ)   (Wed, 19 Nov 2025 16:32:18 GMT)
    • 「This work started from the hypothesis that ideation diversity is a key bottleneck in AI research agents’ performance. We have confirmed this hypothesis by conducting a large-scale analysis on AI research agents’ trajectories and performing a controlled experiment.」とのこと。
    • 科学へのAI適用に関する研究が急速に進んでいる状況で、このような検証はとても興味深い。

    OmniScientist: Toward a Co-evolving Ecosystem of Human and AI Scientists 

    • OmniScientist: Toward a Co-evolving Ecosystem of Human and AI Scientists [47.4]
      我々は、人間の研究の基盤となるメカニズムをAI科学ワークフローにエンコードするフレームワークであるOmniScientistを紹介します。 OmniScientistは、データ基盤全体にわたるエンドツーエンドの自動化、文献レビュー、研究のアイデア、実験の自動化、科学的執筆、ピアレビューを実現している。 このインフラは、エージェントが人間の知識システムを理解し、活用するだけでなく、協力し、共同開発することを可能にする。
      論文  参考訳(メタデータ)   (Fri, 21 Nov 2025 03:55:19 GMT)
    • 「OmniScientist not only achieves end-to-end automation across data foundation, literature review, research ideation, experiment automation, scientific writing, and peer review, but also provides comprehensive infrastructural support by simulating the human scientific system, comprising: (1) a structured knowledge system built upon citation networks and conceptual correlations; (2) a collaborative research protocol (OSP), which enables seamless multi-agent collaboration and human researcher participation; and (3) an open evaluation platform (ScienceArena) based on blind pairwise user voting and Elo rankings. This infrastructure em- powers agents to not only comprehend and leverage human knowledge systems but also to collaborate and co-evolve, fostering a sustainable and scalable innovation ecosystem.」と非常に強力なエージェントであることを主張、ケーススタディで有効性を確認している。現時点ではAI研究が主たるターゲットになっているよう。
    • OmniScientistにサイトが公開されている