A Survey of Large Language Models in Discipline-specific Research: Challenges, Methods and Opportunities

  • A Survey of Large Language Models in Discipline-specific Research: Challenges, Methods and Opportunities [33.7]
    大規模言語モデル (LLM) は、多くの学際的な研究でその変容の可能性を示している。 本稿では,学際研究におけるLSMの適用について概観する。
    論文  参考訳(メタデータ)   (Fri, 11 Jul 2025 09:11:18 GMT)
  • 「From the perspective of their applicability, this paper explores how LLMs are contributing to various disciplines including mathematics, physics, chemistry, biology, and the humanities and social sciences, demonstrating their role in discipline-specific tasks. The prevailing challenges are critically examined and the promising research directions are highlighted alongside the recent advances in LLMs.」というサーベイ。

Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers

  • Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers [22.8]
    本稿では,科学文献におけるスキーマ図の解釈能力を評価するための最初のベンチマークであるMIS-QAを紹介する。 MISS-QAは465以上の科学論文に1500の専門家が注釈を付けた例で構成されている。 我々は、o4-mini、Gemini-2.5-Flash、Qwen2.5-VLを含む18のフロンティアマルチモーダル基盤モデルの性能を評価する。
    論文  参考訳(メタデータ)   (Mon, 14 Jul 2025 20:35:25 GMT)
  • 「We present MISS-QA, the first benchmark specifically designed to assess the ability of foundation models to comprehend schematic diagrams in scientific literature.」ということで、概念図等を理解するためのベンチマークの提案。o4-miniの性能が高めだが、人間との差は大きい。
  • データはyale-nlp/MISS-QA · Datasets at Hugging Face、リポジトリはGitHub – yilunzhao/MISS-QA

Expert-Guided LLM Reasoning for Battery Discovery: From AI-Driven Hypothesis to Synthesis and Characterization

  • Expert-Guided LLM Reasoning for Battery Discovery: From AI-Driven Hypothesis to Synthesis and Characterization [48.0]
    大型言語モデル(LLM)は複雑な問題に対処するためにチェーン・オブ・シント(CoT)技術を利用する。 ドメイン知識を統合した新しいエージェントフレームワークであるChatBatteryを,材料設計におけるより効果的な推論に向けて導入する。 新規リチウムイオン電池陰極材料3種を同定,合成,特性評価し,28.8%,25.2%,18.5%の実用能力向上を実現した。
    論文  参考訳(メタデータ)   (Mon, 21 Jul 2025 23:46:11 GMT)
  • 科学的発見を支援するAI、「ChatBattery is an AI-driven material optimization platform structured into two synergistic phases: exploration and exploitation. Together, these phases encompass eight sequential stages, orchestrated by seven specialized agents.」とかなり複雑な構成のマルチエージェントシステムになっている。加えて、人間とのコラボレーションが重視されているように見える。
    • This suggests that ChatBattery, in its present form, is more adept at optimizing within known paradigms than at generating fundamentally new chemistries. As such, expert input remains essential to expand the system’s exploration boundaries and push beyond conventional chemical spaces. Importantly, this interplay between AI-driven generation and human-guided refinement also creates unexpected opportunities, as demonstrated in the refinement of AI-suggested materials into even more advanced cathode compositions. However, advances anticipated with future reasoning AIs are likely to provide greater exploration and creativity.という記載がある。
  • 「ChatBattery, we successfully identify, synthesize, and characterize three novel lithiumion battery cathode materials, which achieve practical capacity improvements of 28.8%, 25.2%, and 18.5%, respectively, over the widely used cathode material, LiNi0.8Mn0.1Co0.1O2 (NMC811).」と効果があったとのこと。

AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research

AI4Research: A Survey of Artificial Intelligence for Scientific Research 

  • AI4Research: A Survey of Artificial Intelligence for Scientific Research [55.5]
    我々はAI for Research(AI4Research)に関する総合的な調査を行う。 まず、AI4Researchの5つの主要なタスクを分類する系統分類を導入する。 主要な研究ギャップを特定し、将来有望な方向性を明らかにする。
    論文  参考訳(メタデータ)   (Wed, 02 Jul 2025 17:19:20 GMT)
  • ResearchへのAI適用に関するサーベイ。下記を主要タスクとしている。
    • (1) AI for Scientific Comprehension
    • (2) AI for Academic Surveys
    • (3) AI for Scientific Discovery
    • (4) AI for Academic Writing
    • (5) AI for Academic Reviewing
  • プロジェクトサイトはAI4Research: A Survey of Artificial Intelligence for Scientific Research

Can LLMs Identify Critical Limitations within Scientific Research? A Systematic Evaluation on AI Research Papers 

  • Can LLMs Identify Critical Limitations within Scientific Research? A Systematic Evaluation on AI Research Papers [31.5]
    LimitGenは、初期のフィードバックをサポートし、人間のピアレビューを補完するLLMの能力を評価するための最初のベンチマークである。 提案手法は, LLMシステムによる研究論文の限界を生じさせる能力を高め, より具体的で建設的なフィードバックを提供する。
    論文  参考訳(メタデータ)   (Thu, 03 Jul 2025 15:04:38 GMT)
  • 「We propose LIMITGEN, a comprehensive bench- mark specifically designed to assess the ability of models to identify and address limitations in scientific research, with a reliable and systematic evaluation framework.」というベンチマークの提案と検証。「Even the best-performing LLM, GPT-4o, can only identify about half of the limitations that humans consider very obvious. Although MARG lever- ages multi-agent collaboration and generates more comments, successfully identifying more limita- tions, the feedback it provides still lacks specificity, which is reflected in the fine-grained scores.」とのこと。MARGはマルチエージェントフレームワーク。
  • リポジトリはGitHub – yale-nlp/LimitGen: Data and Code for ACL 2025 Paper “Can LLMs Identify Critical Limitations within Scientific Research? A Systematic Evaluation on AI Research Papers”

The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements 

The Ideation-Execution Gap: Execution Outcomes of LLM-Generated versus Human Research Ideas / Position: Intelligent Science Laboratory Requires the Integration of Cognitive and Embodied AI 

  • The Ideation-Execution Gap: Execution Outcomes of LLM-Generated versus Human Research Ideas [90.3]
    良いアイデアは単に斬新なものではなく、実行後により良い研究がもたらされるべきである。 AIが生み出すアイデアがより良い研究成果をもたらすかどうかをテストするために、我々は実行研究を行う。 実行前後の同じアイデアのレビュースコアを比較すると、LLM生成のアイデアのスコアは専門家によるアイデアよりも大幅に減少する。
    論文  参考訳(メタデータ)   (Wed, 25 Jun 2025 19:47:23 GMT)
  • LLMが出したアイデアと専門家のアイデアを「Our execution participants spend an average of 103 hours executing the assigned idea and then submit the codebase and paper to document their experiments. All projects are then reviewed blindly by our recruited expert reviewers」と評価したところ「Average scores of AI ideas drop significantly more than Human ideas in the execution study across all the evaluation metrics.」という指摘。
  • やはり人間の専門家は深く考えているようという興味深い結果。同時に、アイデアのみだとAIの評価が高いということはアイデアだしでは有効なのではないか?とか最終的なスコアでもそこそこ健闘しているのではないか?と見えなくもない。下記論文のようにAI科学者の実現可能性は高まっているように思う。
  • リポジトリはGitHub – NoviScl/AI-Researcher
  • Position: Intelligent Science Laboratory Requires the Integration of Cognitive and Embodied AI [98.2]
    知的科学研究所(ISL)のパラダイムを提案する。 ISLは、認知と具体的知性を深く統合した多層クローズドループフレームワークである。 このようなシステムは、現在の科学的発見の限界を克服するために不可欠である、と我々は主張する。
    論文  参考訳(メタデータ)   (Tue, 24 Jun 2025 13:31:44 GMT)
  • 「1) Foundation Models provide multi-modal scientific knowledge representation and closed-loop learning capabilities, supporting complex reasoning and domain adaptation; (2) Agent Layer dynamically orchestrates scientific workflows—including hypothesis generation, literature review, experimental planning, execution, and analysis—while integrating model/toolkit via MCP integration; (3) Embodied Layer realizes robust physical interaction through advanced perception, navigation, and manipulation modules, enabling precise, adaptive operations in real-world laboratory environments.」からなるAI科学者・AIラボフレームワークの提案。
  • 現状と課題がとても参考になる。

Language Modeling by Language Models

  • Language Modeling by Language Models [28.8]
    本稿では,従来の研究段階をシミュレートするマルチエージェント言語モデル(LM)を提案する。 新しいデザインが提案され、反対にレビューされ、実装され、選択的に検証される。 新たに発見された1,162個の設計に関する実験を報告する。
    論文  参考訳(メタデータ)   (Wed, 25 Jun 2025 08:46:10 GMT)
  • 「We introduce Genesys, an autonomous system for discovering novel LM designs, featuring a novel unit-based design agent and cost-effective distributed evolution. We also present LMADE, a resource environment to support further research in this field.」というAIによるAIの研究。
  • 「Genesys produced highly competitive designs; some outperformed human baselines such as the GPT and Mamba2 models in common downstream tasks. These results show the feasibility and lay the groundwork for autonomous evolutionary systems in scientifically complex and costly domains.」と現時点でも一定の成果、実現可能性がありそうなのが興味深い。
  • プロジェクトサイトはGenesys、リポジトリはGitHub – allenai/genesys: Source code and utilities for the Genesys distributed language model architecture discovery system.

Scientists’ First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning 

  • Scientists’ First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning [59.5]
    我々は,Multimodal Large Language Models (MLLM) の科学的認知能力を評価するために設計された,Scientists’ First Exam (SFE) ベンチマークを提示する。 SFEは3つの質問タイプにまたがる830のエキスパート検証VQAペアで構成され、5つの高価値分野にまたがる66のマルチモーダルタスクにまたがる。 実験の結果、現在最先端のGPT-o3とInternVL-3はSFEでわずか34.08%と26.52%しか達成できず、MLLMが科学領域で改善する余地があることが明らかになった。
    論文  参考訳(メタデータ)   (Thu, 12 Jun 2025 09:29:16 GMT)
  • 「we introduce the Scientists’ First Exam (SFE) benchmark, designed to comprehensively evaluate the scientific cognitive capabilities of MLLMs through three cognitive levels (cog-levels): Scientific Signal Perception (L1) characterizes the capacity to discern critical components within visualizations of scientific raw data; Scientific Attribute Understanding (L2) demonstrates the ability to interpret domain-expert knowledge; Scientific Comparative Reasoning (L3) manifests the ability to derive phenomenological insights through structured comparison of multiple scientific visual sources. SFE encompasses 66 expert-curated, high-value multimodal tasks across five disciplines: Astronomy, Chemistry, Earth, Life, and Materials Sciences (Fig. 1b).」というベンチマーク。MLLM向け、VQAとして構成されている。
  • リポジトリはPrismaX/SFE · Datasets at Hugging Face、プロジェクトサイトはPrismaX