コンテンツへスキップ
- Training AI Co-Scientists Using Rubric Rewards [36.9]
AIの共同研究者の重要な特徴は、目的と制約のセットから研究計画を生成する能力である。 本研究では,既存の研究論文の膨大なコーパスを活用して,より良い研究計画を生み出す言語モデルを訓練する方法について検討する。 複数のドメインにわたる論文から研究目標と目標固有のグルーブを自動抽出することで、スケーラブルで多様なトレーニングコーパスを構築します。
論文 参考訳(メタデータ) (Mon, 29 Dec 2025 18:59:33 GMT)
- 「we leverage existing scientific papers to improve language models at generating research plans for diverse open-ended research goals. We propose a scalable training procedure that uses a language model to extract research goals and grading rubrics from papers, and trains the plan generator with self-grading using the goal-specific rubrics as privileged information.」とのことで既存の研究論文を用いてLRMの研究計画再生能力を強化。 Qwen-3-30B-A3B-Instructベースであることを考えると「The obtained performance makes our 30B model competitive with Grok-4-Thinking (xAI, 2025), though it remains behind the best performing model, GPT-5-Thinking (OpenAI, 2025).」は健闘しているように思える。
- データセットが公開されている facebook/research-plan-gen · Datasets at Hugging Face
- Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [203.4]
PIM(Practical Inquiry Model)に基づく運用SGI定義を提案する。 深層研究、アイデア生成、ドライ/ウェット実験、実験推論の4つのタスクを通じて運用しています。 私たちのPIMによる定義、ワークフロー中心のベンチマーク、実証的な洞察は、真に科学的な発見に参加するAIシステムの基盤を確立します。
論文 参考訳(メタデータ) (Thu, 18 Dec 2025 12:44:36 GMT)
- scientific general intelligence (SGI)、「SGI is an AI that can autonomously navigate the complete, iterative cycle of scientific inquiry with the versatility and proficiency of a human scientist」の研究、ベンチマーク等も提案している。「Experiments reveal a consistent pattern: in Deep Research, models show step-level alignment but low exact-match accuracy (10–20%), with brittleness in quantitative reasoning; in Idea Generation, hypotheses are fluent but underspecified and infeasible; in Dry Experiment, code is executable but PassAll@k remains low; in Wet Experiment, sequences show omissions and misordering; and in Experimental Reasoning, causal reasoning outperforms comparative, with persistent multimodal challenges. These highlight gaps between linguistic fluency and integrated scientific cognition.」とあるなど道半ばという感じではあるが非常に流行っている分野だと思う。
- SGI-Benchの上位はGemini 3 Pro, Claude Sonnet 4.5, Qwen3 Max, GPT-4.1, GPT-5.2 Proと各社のフロンティアモデルが並ぶ。
- リポジトリはSGI-Bench — Scientific General Intelligence
- Evaluating Large Language Models in Scientific Discovery [91.7]
大規模言語モデル (LLMs) は科学研究にますます応用されてきているが、科学ベンチマークでは非文脈化された知識を探索している。 生物, 化学, 材料, 物理にまたがるLSMを評価するシナリオグラウンドベンチマークを提案する。 このフレームワークは、(i)シナリオタイドアイテムの質問レベル精度と(ii)プロジェクトレベルのパフォーマンスの2つのレベルでモデルを評価する。
論文 参考訳(メタデータ) (Wed, 17 Dec 2025 16:20:03 GMT)
- AIに科学的発見はできるのか?という問いに対する評価。クイズのような形式ではなく、研究プロジェクト、現場の研究シナリオに基づく評価。「Large performance variation in research scenarios leads to changing choices of the best performing model on scientific discovery projects evaluated, suggesting all current LLMs are distant to general scientific “superintelligence”.」とのことではあるが、有効性も感じる印象を持った。
- 「we observe striking exceptions to the positive correlation between question- and project-level performance. 」「This suggests that rigorous knowledge of explicit structure-property relationships is not a strict prerequisite for LLM-driven discovery. Rather, the capacity to discern optimization directions and facilitate serendipitous exploration appears more critical.」という指摘が面白い。どのモデルが良いかも問題によってかなり状況が変わるよう。
- ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning [118.5]
ATLASは、約800のオリジナルの問題からなる大規模で、高精度で、学際横断的な評価スイートである。 主な特徴は次のとおりである。 テストデータの漏洩を防ぐために新しく作成されたり、実質的に適応されたすべての質問を含む、高いオリジン性と汚染抵抗。 先行モデルに関する予備的な結果は、ATLASが先進的な科学的推論能力の差別化に有効であることを証明している。
論文 参考訳(メタデータ) (Thu, 20 Nov 2025 06:27:38 GMT)
- 「We release a new, highly challenging evaluation benchmark containing approximately 800 expert-created original problems. The benchmark focuses on multidisciplinary scientific reasoning, with a target difficulty set to a pass rate of less than 20% for current state-of-the- art models, to effectively measure the true capabilities of frontier models.」と非常に難しいベンチマーク
- リポジトリはGitHub – open-compass/ATLAS: ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning、Gemini 3 Proの結果が気になるところ。
- Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey [14.1]
大型言語モデル (LLMs) は科学的アイデアの有望な生成元として登場した。 この調査は、科学的健全性による創造性へのアプローチの違いについて調査する。
論文 参考訳(メタデータ) (Wed, 12 Nov 2025 01:00:43 GMT)
- What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity [40.3]
エージェントのパフォーマンスにおいて,アイデアの多様性が果たす役割について検討する。 異なるモデルとエージェントの足場は、様々なアイデアの多様性をもたらす。 高いパフォーマンスのエージェントは、アイデアの多様性を増す傾向にある。
論文 参考訳(メタデータ) (Wed, 19 Nov 2025 16:32:18 GMT)
- 「This work started from the hypothesis that ideation diversity is a key bottleneck in AI research agents’ performance. We have confirmed this hypothesis by conducting a large-scale analysis on AI research agents’ trajectories and performing a controlled experiment.」とのこと。
- 科学へのAI適用に関する研究が急速に進んでいる状況で、このような検証はとても興味深い。
- OmniScientist: Toward a Co-evolving Ecosystem of Human and AI Scientists [47.4]
我々は、人間の研究の基盤となるメカニズムをAI科学ワークフローにエンコードするフレームワークであるOmniScientistを紹介します。 OmniScientistは、データ基盤全体にわたるエンドツーエンドの自動化、文献レビュー、研究のアイデア、実験の自動化、科学的執筆、ピアレビューを実現している。 このインフラは、エージェントが人間の知識システムを理解し、活用するだけでなく、協力し、共同開発することを可能にする。
論文 参考訳(メタデータ) (Fri, 21 Nov 2025 03:55:19 GMT)
- 「OmniScientist not only achieves end-to-end automation across data foundation, literature review, research ideation, experiment automation, scientific writing, and peer review, but also provides comprehensive infrastructural support by simulating the human scientific system, comprising: (1) a structured knowledge system built upon citation networks and conceptual correlations; (2) a collaborative research protocol (OSP), which enables seamless multi-agent collaboration and human researcher participation; and (3) an open evaluation platform (ScienceArena) based on blind pairwise user voting and Elo rankings. This infrastructure em- powers agents to not only comprehend and leverage human knowledge systems but also to collaborate and co-evolve, fostering a sustainable and scalable innovation ecosystem.」と非常に強力なエージェントであることを主張、ケーススタディで有効性を確認している。現時点ではAI研究が主たるターゲットになっているよう。
- OmniScientistにサイトが公開されている
- AlphaResearch: Accelerating New Algorithm Discovery with Language Models [60.5]
大規模言語モデルは複雑だが検証が容易な問題において大きな進歩を遂げてきたが、未知の発見に苦戦している。 オープンエンド問題に対する新しいアルゴリズムの発見を目的とした,自律型研究エージェントである AlphaResearch を提示する。
論文 参考訳(メタデータ) (Wed, 12 Nov 2025 02:03:05 GMT)
- 「The novel algorithms discovered by AlphaResearch not only surpass best-of-human performance but also significantly outperform the state-of-the-art results achieved by AlphaEvolve.」と驚く結果を報告。「Our approach demonstrates the potential of employing LLM to discover unexplored research area, enabling language models to effectively tackle complex open-ended tasks. We construct AlphaResearchComp, including 8 open-ended algorithmic problems, where AlphaResearch outperforms human researchers in 2/8 algorithmic problems but lags behind in the remaining 6 problems.」とのこと。評価は難しいが、人間を上回っても驚かないようなすごい時代になっている。
- リポジトリはGitHub – answers111/alpha-research: Repo for “AlphaResearch: Accelerating New Algorithm Discovery with Language Models”
- A Survey of AI Scientists: Surveying the automatic Scientists and Research [34.9]
人工知能は、計算機器から科学知識の自律的創始者へと大きく移行している。 本調査では, エンド・ツー・エンドの科学的プロセスを, 文献レビュー, イデオロギー生成, 実験準備, 実験実施, 科学著作, 論文生成に分解する, 統合された6段階の方法論的枠組みを紹介する。
論文 参考訳(メタデータ) (Mon, 27 Oct 2025 06:13:21 GMT)
- 「This survey provides a systematic and comprehensive synthesis of this emerging domain by introducing a unified, six-stage methodological framework that deconstructs the scientific process into: Literature Review, Idea Generation, Experimental Preparation, Experimental Execution, Scientific Writing, and Paper Generation. Through this analytical lens, we systematically map and analyze dozens of seminal works from 2022 to late 2025, revealing a clear three-phase evolutionary trajectory.」と科学へのAI活用に関するサーベイ。
- リポジトリはGitHub – Mr-Tieguigui/Survey-for-AI-Scientist: A comprehensive survey for AI Scientist.