IV Co-Scientist: Multi-Agent LLM Framework for Causal Instrumental Variable Discovery

  • IV Co-Scientist: Multi-Agent LLM Framework for Causal Instrumental Variable Discovery [61.2]
    内因性変数と結果との相同性の存在下では、インストゥルメンタル変数(IVs)を用いて内因性変数の因果効果を分離する。 大規模言語モデル(LLM)がこの課題に有効かどうかを検討する。 本稿では,多エージェントシステムであるIV Co-Scientistを紹介する。
    論文  参考訳(メタデータ)   (Sun, 08 Feb 2026 12:28:29 GMT)
  • 「in this paper, we investigate whether large language models can assist in the discovery of instrumental variables through a structured, multi-agent framework in which LLM-based agents propose, critique, and refine candidate instruments.」とinstrumental variablesを発見するためのマルチエージェントシステムの提案。「Our empirical results on real-world data demonstrate that LLM-suggested instruments show meaningful consistency, providing a first step to- ward principled use of LLMs in variable discovery.」と一定有望な結果。

Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision

  • Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision [15.8]
    Sci-CoEは2段階の科学的共進化フレームワークであり、モデルが解法と検証器の両方として自己進化することを可能にする。 最初の段階では、モデルは注釈付きデータの小さなセットを使用して、検証器の正当性判定アンカーを確立する。 第2段階では、コンセンサス、信頼性、多様性を共同で考慮し、大規模な自己評価を促進する幾何学的報酬機構を導入する。
    論文  参考訳(メタデータ)   (Thu, 12 Feb 2026 16:46:00 GMT)
  • 「we introduce Sci-CoE, a scientific co-evolving framework that consists of a Solver and a Verifier, both implemented within a single LLM.」と協調的に進化していくタイプのモデル。ベースモデルよりも性能が向上。
  • リポジトリはGitHub – InternScience/Sci-CoE: Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision

InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery

  • InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery [138.0]
    InternAgent-1.5は、エンドツーエンドの科学的発見を目的とした統合システムである。 このシステムは、生成、検証、進化のための3つの調整されたサブシステムで構成される構造化アーキテクチャ上に構築されている。 InternAgent-1.5をGAIA,HLE,GPQA,FrontierScienceなどの科学的推論ベンチマークで評価した。
    論文  参考訳(メタデータ)   (Mon, 09 Feb 2026 18:36:06 GMT)
  • 「A Unified Architecture for End-to-end Scientific Discovery: InternAgent-1.5 organizes the scientific discovery process into three coherent subsystems for Generation, Verification, and Evolution. These subsystems support the full cycle of hypothesis formulation, methodological evaluation, and evidence driven refinement through foundational capabilities for deep research, solution refinement, and long horizon memory.」と科学的な発見を目指したAgentic Frameworkの提案。
  • リポジトリはGitHub – InternScience/InternAgent: InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery

Towards Execution-Grounded Automated AI Research

  • Towards Execution-Grounded Automated AI Research [106.9]
    現在のLLMはしばしばもっともらしく見えるが効果のないアイデアを生成します。実行基盤化は役に立つかもしれないが、自動実行が実現可能かどうか、LLMが実行フィードバックから学べるかどうかは不明だ。 我々は、アイデアを実装する自動化エグゼキュータを構築し、その有効性を検証するために大規模な並列GPU実験をローンチする。 本研究では,進化的探索と強化学習という,実行フィードバックから学習する2つの方法を分析する。
    論文  参考訳(メタデータ)   (Tue, 20 Jan 2026 22:35:44 GMT)
  • 「we develop a large-scale automated idea executor system that can implement research ideas for open-ended and realistic research problems. Using this automated executor, we conduct an in-depth analysis of how well LLM ideators can learn from execution feedback to improve effectiveness through evolutionary search and RL. Execution- guided evolutionary search is sample-efficient and effective, but shows limited scaling. RL from execution reward suffers from diversity collapse and does not improve the upperbound.」とのことで可能性とともに限界を感じる結果
  • リポジトリはGitHub – NoviScl/Automated-AI-Researcher

Towards LLM-enabled autonomous combustion research: A literature-aware agent for self-corrective modeling workflows 

  • Towards LLM-enabled autonomous combustion research: A literature-aware agent for self-corrective modeling workflows [9.4]
    FlamePilotは、自動および自己補正CFDによる燃焼モデリング研究を促進するように設計されている。 システムは、科学的な記事から学び、初期設定から最適化された結果までシミュレーションを導くための重要な情報を抽出することができる。 ケーススタディでは、FlamePilotが研究論文を自動で構成されたシミュレーションに変換し、シミュレーションを実行し、結果を後処理し、エビデンスに基づく改善を提案し、収束のために多段階のパラメータスタディを管理した。
    論文  参考訳(メタデータ)   (Sun, 04 Jan 2026 04:00:28 GMT)
  • 「we introduce FlamePilot, an LLM agent designed to empower combustion modeling research through automated and self-corrective CFD workflows. FlamePilot differentiates itself through an architecture that leverages atomic tools to ensure the robust setup and execution of complex simulations in both OpenFOAM and extended frameworks such as DeepFlame.」とドメインを特化した研究支援エージェント。

SciEvalKit, HiSciBench

    科学に関するベンチマークが複数出ていた。AI for Scienceの流行もあってベンチマークが充実しつつある、

    • SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence [99.3]
      SciEvalKitは、科学知能のコア能力に焦点を当てている。 物理学、化学から天文学、材料科学まで6つの主要な科学領域をサポートしている。 このツールキットはオープンソースで、コミュニティ主導の開発とAI4Scienceの進歩を促進するために積極的にメンテナンスされている。
      論文  参考訳(メタデータ)   (Fri, 26 Dec 2025 17:36:02 GMT)
    • プロジェクトサイトはOpenCompass司南、現状、Gemini 3 Pro > Qwen3 MAX > GPT-5とQwenが上位に入っているのが興味深い
    • HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery [50.9]
      HiSciBenchは、完全な科学的ワークフローを反映した5つのレベルにわたる基礎モデルを評価するために設計された階層的なベンチマークである。 HiSciBenchには、6つの主要な科学分野にまたがる8,735件の慎重に管理された事例が含まれている。
      論文  参考訳(メタデータ)   (Sun, 28 Dec 2025 12:08:05 GMT)
    • こちらは「The benchmark will be publicly released to facilitate future research.」とあるが、データはまだ公開されていない?

    Training AI Co-Scientists Using Rubric Rewards

    • Training AI Co-Scientists Using Rubric Rewards [36.9]
      AIの共同研究者の重要な特徴は、目的と制約のセットから研究計画を生成する能力である。 本研究では,既存の研究論文の膨大なコーパスを活用して,より良い研究計画を生み出す言語モデルを訓練する方法について検討する。 複数のドメインにわたる論文から研究目標と目標固有のグルーブを自動抽出することで、スケーラブルで多様なトレーニングコーパスを構築します。
      論文  参考訳(メタデータ)   (Mon, 29 Dec 2025 18:59:33 GMT)
    • 「we leverage existing scientific papers to improve language models at generating research plans for diverse open-ended research goals. We propose a scalable training procedure that uses a language model to extract research goals and grading rubrics from papers, and trains the plan generator with self-grading using the goal-specific rubrics as privileged information.」とのことで既存の研究論文を用いてLRMの研究計画再生能力を強化。 Qwen-3-30B-A3B-Instructベースであることを考えると「The obtained performance makes our 30B model competitive with Grok-4-Thinking (xAI, 2025), though it remains behind the best performing model, GPT-5-Thinking (OpenAI, 2025).」は健闘しているように思える。
    • データセットが公開されている facebook/research-plan-gen · Datasets at Hugging Face

    Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

    • Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [203.4]
      PIM(Practical Inquiry Model)に基づく運用SGI定義を提案する。 深層研究、アイデア生成、ドライ/ウェット実験、実験推論の4つのタスクを通じて運用しています。 私たちのPIMによる定義、ワークフロー中心のベンチマーク、実証的な洞察は、真に科学的な発見に参加するAIシステムの基盤を確立します。
      論文  参考訳(メタデータ)   (Thu, 18 Dec 2025 12:44:36 GMT)
    • scientific general intelligence (SGI)、「SGI is an AI that can autonomously navigate the complete, iterative cycle of scientific inquiry with the versatility and proficiency of a human scientist」の研究、ベンチマーク等も提案している。「Experiments reveal a consistent pattern: in Deep Research, models show step-level alignment but low exact-match accuracy (10–20%), with brittleness in quantitative reasoning; in Idea Generation, hypotheses are fluent but underspecified and infeasible; in Dry Experiment, code is executable but PassAll@k remains low; in Wet Experiment, sequences show omissions and misordering; and in Experimental Reasoning, causal reasoning outperforms comparative, with persistent multimodal challenges. These highlight gaps between linguistic fluency and integrated scientific cognition.」とあるなど道半ばという感じではあるが非常に流行っている分野だと思う。
    • SGI-Benchの上位はGemini 3 Pro, Claude Sonnet 4.5, Qwen3 Max, GPT-4.1, GPT-5.2 Proと各社のフロンティアモデルが並ぶ。
    • リポジトリはSGI-Bench — Scientific General Intelligence

    Evaluating Large Language Models in Scientific Discovery

    • Evaluating Large Language Models in Scientific Discovery [91.7]
      大規模言語モデル (LLMs) は科学研究にますます応用されてきているが、科学ベンチマークでは非文脈化された知識を探索している。 生物, 化学, 材料, 物理にまたがるLSMを評価するシナリオグラウンドベンチマークを提案する。 このフレームワークは、(i)シナリオタイドアイテムの質問レベル精度と(ii)プロジェクトレベルのパフォーマンスの2つのレベルでモデルを評価する。
      論文  参考訳(メタデータ)   (Wed, 17 Dec 2025 16:20:03 GMT)
    • AIに科学的発見はできるのか?という問いに対する評価。クイズのような形式ではなく、研究プロジェクト、現場の研究シナリオに基づく評価。「Large performance variation in research scenarios leads to changing choices of the best performing model on scientific discovery projects evaluated, suggesting all current LLMs are distant to general scientific “superintelligence”.」とのことではあるが、有効性も感じる印象を持った。
    • 「we observe striking exceptions to the positive correlation between question- and project-level performance. 」「This suggests that rigorous knowledge of explicit structure-property relationships is not a strict prerequisite for LLM-driven discovery. Rather, the capacity to discern optimization directions and facilitate serendipitous exploration appears more critical.」という指摘が面白い。どのモデルが良いかも問題によってかなり状況が変わるよう。

    ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning

    • ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning [118.5]
      ATLASは、約800のオリジナルの問題からなる大規模で、高精度で、学際横断的な評価スイートである。 主な特徴は次のとおりである。 テストデータの漏洩を防ぐために新しく作成されたり、実質的に適応されたすべての質問を含む、高いオリジン性と汚染抵抗。 先行モデルに関する予備的な結果は、ATLASが先進的な科学的推論能力の差別化に有効であることを証明している。
      論文  参考訳(メタデータ)   (Thu, 20 Nov 2025 06:27:38 GMT)
    • 「We release a new, highly challenging evaluation benchmark containing approximately 800 expert-created original problems. The benchmark focuses on multidisciplinary scientific reasoning, with a target difficulty set to a pass rate of less than 20% for current state-of-the- art models, to effectively measure the true capabilities of frontier models.」と非常に難しいベンチマーク
    • リポジトリはGitHub – open-compass/ATLAS: ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning、Gemini 3 Proの結果が気になるところ。