The Ideation-Execution Gap: Execution Outcomes of LLM-Generated versus Human Research Ideas / Position: Intelligent Science Laboratory Requires the Integration of Cognitive and Embodied AI 

  • The Ideation-Execution Gap: Execution Outcomes of LLM-Generated versus Human Research Ideas [90.3]
    良いアイデアは単に斬新なものではなく、実行後により良い研究がもたらされるべきである。 AIが生み出すアイデアがより良い研究成果をもたらすかどうかをテストするために、我々は実行研究を行う。 実行前後の同じアイデアのレビュースコアを比較すると、LLM生成のアイデアのスコアは専門家によるアイデアよりも大幅に減少する。
    論文  参考訳(メタデータ)   (Wed, 25 Jun 2025 19:47:23 GMT)
  • LLMが出したアイデアと専門家のアイデアを「Our execution participants spend an average of 103 hours executing the assigned idea and then submit the codebase and paper to document their experiments. All projects are then reviewed blindly by our recruited expert reviewers」と評価したところ「Average scores of AI ideas drop significantly more than Human ideas in the execution study across all the evaluation metrics.」という指摘。
  • やはり人間の専門家は深く考えているようという興味深い結果。同時に、アイデアのみだとAIの評価が高いということはアイデアだしでは有効なのではないか?とか最終的なスコアでもそこそこ健闘しているのではないか?と見えなくもない。下記論文のようにAI科学者の実現可能性は高まっているように思う。
  • リポジトリはGitHub – NoviScl/AI-Researcher
  • Position: Intelligent Science Laboratory Requires the Integration of Cognitive and Embodied AI [98.2]
    知的科学研究所(ISL)のパラダイムを提案する。 ISLは、認知と具体的知性を深く統合した多層クローズドループフレームワークである。 このようなシステムは、現在の科学的発見の限界を克服するために不可欠である、と我々は主張する。
    論文  参考訳(メタデータ)   (Tue, 24 Jun 2025 13:31:44 GMT)
  • 「1) Foundation Models provide multi-modal scientific knowledge representation and closed-loop learning capabilities, supporting complex reasoning and domain adaptation; (2) Agent Layer dynamically orchestrates scientific workflows—including hypothesis generation, literature review, experimental planning, execution, and analysis—while integrating model/toolkit via MCP integration; (3) Embodied Layer realizes robust physical interaction through advanced perception, navigation, and manipulation modules, enabling precise, adaptive operations in real-world laboratory environments.」からなるAI科学者・AIラボフレームワークの提案。
  • 現状と課題がとても参考になる。

Language Modeling by Language Models

  • Language Modeling by Language Models [28.8]
    本稿では,従来の研究段階をシミュレートするマルチエージェント言語モデル(LM)を提案する。 新しいデザインが提案され、反対にレビューされ、実装され、選択的に検証される。 新たに発見された1,162個の設計に関する実験を報告する。
    論文  参考訳(メタデータ)   (Wed, 25 Jun 2025 08:46:10 GMT)
  • 「We introduce Genesys, an autonomous system for discovering novel LM designs, featuring a novel unit-based design agent and cost-effective distributed evolution. We also present LMADE, a resource environment to support further research in this field.」というAIによるAIの研究。
  • 「Genesys produced highly competitive designs; some outperformed human baselines such as the GPT and Mamba2 models in common downstream tasks. These results show the feasibility and lay the groundwork for autonomous evolutionary systems in scientifically complex and costly domains.」と現時点でも一定の成果、実現可能性がありそうなのが興味深い。
  • プロジェクトサイトはGenesys、リポジトリはGitHub – allenai/genesys: Source code and utilities for the Genesys distributed language model architecture discovery system.

Scientists’ First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning 

  • Scientists’ First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning [59.5]
    我々は,Multimodal Large Language Models (MLLM) の科学的認知能力を評価するために設計された,Scientists’ First Exam (SFE) ベンチマークを提示する。 SFEは3つの質問タイプにまたがる830のエキスパート検証VQAペアで構成され、5つの高価値分野にまたがる66のマルチモーダルタスクにまたがる。 実験の結果、現在最先端のGPT-o3とInternVL-3はSFEでわずか34.08%と26.52%しか達成できず、MLLMが科学領域で改善する余地があることが明らかになった。
    論文  参考訳(メタデータ)   (Thu, 12 Jun 2025 09:29:16 GMT)
  • 「we introduce the Scientists’ First Exam (SFE) benchmark, designed to comprehensively evaluate the scientific cognitive capabilities of MLLMs through three cognitive levels (cog-levels): Scientific Signal Perception (L1) characterizes the capacity to discern critical components within visualizations of scientific raw data; Scientific Attribute Understanding (L2) demonstrates the ability to interpret domain-expert knowledge; Scientific Comparative Reasoning (L3) manifests the ability to derive phenomenological insights through structured comparison of multiple scientific visual sources. SFE encompasses 66 expert-curated, high-value multimodal tasks across five disciplines: Astronomy, Chemistry, Earth, Life, and Materials Sciences (Fig. 1b).」というベンチマーク。MLLM向け、VQAとして構成されている。
  • リポジトリはPrismaX/SFE · Datasets at Hugging Face、プロジェクトサイトはPrismaX

From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery

  • From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery [43.3]
    大規模言語モデル(LLM)は科学的発見のパラダイムシフトを触媒している。 この調査は、この急成長する分野を体系的に分析し、科学におけるLLMの役割の変化とエスカレーション能力に重点を置いている。
    論文  参考訳(メタデータ)   (Mon, 19 May 2025 15:41:32 GMT)
  • LLMを用いた科学的発見やそのサポートに関するサーベイ。「In scientific dis- covery, this convergence of advanced LLM capa- bilities and agentic functionalities is catalyzing a significant paradigm shift. This shift is poised not only to accelerate the research lifecycle but also to fundamentally alter the collaborative dynamics be- tween human researchers and artificial intelligence in the pursuit of knowledge.」と強力なLLMの登場により現実的になりつつある分野。
  • リポジトリはGitHub – HKUST-KnowComp/Awesome-LLM-Scientific-Discovery: From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery
  • When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research [20.0]
    大規模言語モデル(LLM)は、AIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。 大規模言語モデル(LLM)の最近の進歩は、しばしばAIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
    論文  参考訳(メタデータ)   (Sat, 17 May 2025 05:45:16 GMT)
  • 別方向から失敗例の分析も面白い。amphora/SPOT-MetaData · Datasets at Hugging Face

MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback

  • MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback [128.3]
    本研究では,事前試験の結果に基づいて仮説を優先順位付けすることを目的とした,実験誘導ランキングの課題について紹介する。 本稿では,3つのドメインインフォームド仮定に基づいて,仮説性能を既知の基底的真理仮説に類似した関数としてモデル化するシミュレータを提案する。 実験結果を用いて,124の化学仮説のデータセットをキュレートし,シミュレーションの有効性を検証した。
    論文  参考訳(メタデータ)   (Fri, 23 May 2025 13:24:50 GMT)
  • 「a systematic framework for experiment-guided hypothesis ranking in chemistry」に対するデータセットの作成と手法の提案。有望そうな結果になっているのがすごい・・・
  • リポジトリはGitHub – wanhaoliu/MOOSE-Chem3

R&D-Agent: Automating Data-Driven AI Solution Building Through LLM-Powered Automated Research, Development, and Evolution 

34 Examples of LLM Applications in Materials Science and Chemistry: Towards Automation, Assistants, Agents, and Accelerated Scientific Discovery

  • 34 Examples of LLM Applications in Materials Science and Chemistry: Towards Automation, Assistants, Agents, and Accelerated Scientific Discovery [26.0]
    大規模言語モデル(LLM)は、材料科学と化学研究の多くの側面を再構築している。 最近の進歩は、最新のモデルのクラスが構造化データと非構造化データを統合することができることを示している。 第2回Large Language Model Hackathon for Applications in Materials Science and Chemistryで開発された34のプロジェクトを通して,LLMの応用を概観する。
    論文  参考訳(メタデータ)   (Mon, 05 May 2025 22:08:37 GMT)
  • 「To explore the frontier of LLM capabilities across the research lifecycle, we review applications of LLMs through 34 total projects developed during the second annual Large Language Model Hackathon for Applications in Materials Science and Chemistry, a global hybrid event. These projects spanned seven key research areas: (1) molecular and material property prediction, (2) molecular and material design, (3) automation and novel interfaces, (4) scientific communication and education, (5) research data management and automation, (6) hypothesis generation and evaluation, and (7) knowl- edge extraction and reasoning from the scientific literature.」というハッカソンのまとめ
  • 興味深いトライもあり、面白い。

Foundation Models for Environmental Science: A Survey of Emerging Frontiers

  • Foundation Models for Environmental Science: A Survey of Emerging Frontiers [27.8]
    本調査は,環境科学における基礎的応用の概要を概観する。 これは、フォワード予測、データ生成、データ同化、ダウンスケーリング、逆モデリング、モデルエンハンブル、ドメイン間の意思決定など、一般的な環境ユースケースにおける進歩を強調している。 我々は、重要な環境問題に対処する上での発見を促進するために、機械学習の進歩を加速する学際的なコラボレーションを促進することを目的としている。
    論文  参考訳(メタデータ)   (Sat, 05 Apr 2025 20:56:38 GMT)
  • 「This survey presents a comprehensive overview of foundation model applications in environmental science, highlighting advancements in common environmental use cases including forward prediction, data generation, data assimilation, downscaling, inverse modeling, model ensembling, and decision-making across domains.」というサーベイ。

Ai2 Scholar QA: Organized Literature Synthesis with Attribution, Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol

  • Ai2 Scholar QA: Organized Literature Synthesis with Attribution [40.8]
    Ai2 Scholar QAは無料のオンライン科学質問応答アプリケーションである。 カスタマイズ可能なオープンソースPythonパッケージとして、インタラクティブなWebアプリとして、パイプライン全体を公開しています。 最近の科学的QAベンチマークでは、Ai2 Scholar QAが競合するシステムより優れていることが判明した。
    論文  参考訳(メタデータ)   (Tue, 15 Apr 2025 04:48:18 GMT)
  • 「we introduce Ai2 Scholar QA, a free-to-use scientific QA system (qa.allen.ai), and share our key components as open source software and public APIs.」という科学に関する質問へのレポートを生成するOSS実装
  • Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.9]
    文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。 学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。 我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
    論文  参考訳(メタデータ)   (Mon, 14 Apr 2025 14:52:28 GMT)
  • こちらは文献レビュー表を作成する研究、比較検証を行う上で重要なタスク。最近のLLMであれば解けそうなタスクに見えてシンプルな方針では意外とうまくいかないよう。
  • リポジトリはGitHub – JHU-CLSP/arXiv2Table

Can LLM feedback enhance review quality? A randomized study of 20K reviews at ICLR 2025 

  • Can LLM feedback enhance review quality? A randomized study of 20K reviews at ICLR 2025 [115.9]
    Review Feedback Agentは、あいまいなコメント、コンテンツの誤解、レビュアーへの専門的でない発言に対する自動的なフィードバックを提供する。 ICLR 2025で大規模なランダム化制御研究として実装された。 フィードバックを受けたレビュアーの27%がレビューを更新し、エージェントからの12,000以上のフィードバック提案がレビュアーによって取り入れられた。
    論文  参考訳(メタデータ)   (Sun, 13 Apr 2025 22:01:25 GMT)
  • ICLRによるReview Feedback Agentの効果検証、「This suggests that many reviewers found the AI-generated feedback sufficiently helpful to merit updating their reviews. Incorporating AI feedback led to significantly longer reviews (an average increase of 80 words among those who updated after receiving feedback) and more informative reviews, as evaluated by blinded researchers.」と肯定的な結果。
  • リポジトリはGitHub – zou-group/review_feedback_agent
  • 本論とは関係ないが「Authors at AI conferences increasingly report receiving short, vague reviews with criticisms like ‘not novel’ or ‘not state-of-the-art (SOTA)’ 」というのは大変そうな・・・

似て非なる論文ではあるが、「We evaluated The AI Scientist-v2 by submitting three fully autonomous manuscripts to a peer-reviewed ICLR workshop. Notably, one manuscript achieved high enough scores to exceed the average human acceptance threshold, marking the first instance of a fully AI-generated paper successfully navigating a peer review.」というAI Scientist-v2も興味深い。

  • The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search [16.9]
    AI Scientist-v2は、AIが生成した最初のピアレビュー受け入れワークショップ用紙を生産できるエンドツーエンドのエージェントシステムである。 科学的な仮説を反復的に定式化し、実験を設計し、実行し、データを分析し、視覚化し、科学的な原稿を自律的に作成する。 ある写本は、平均的な人間の受け入れ閾値を超える十分なスコアを達成し、完全なAI生成論文がピアレビューをうまくナビゲートした最初の事例となった。
    論文  参考訳(メタデータ)   (Thu, 10 Apr 2025 18:44:41 GMT)
  • リポジトリはGitHub – SakanaAI/AI-Scientist-v2: The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search