Evaluating Large Language Models in Scientific Discovery

  • Evaluating Large Language Models in Scientific Discovery [91.7]
    大規模言語モデル (LLMs) は科学研究にますます応用されてきているが、科学ベンチマークでは非文脈化された知識を探索している。 生物, 化学, 材料, 物理にまたがるLSMを評価するシナリオグラウンドベンチマークを提案する。 このフレームワークは、(i)シナリオタイドアイテムの質問レベル精度と(ii)プロジェクトレベルのパフォーマンスの2つのレベルでモデルを評価する。
    論文  参考訳(メタデータ)   (Wed, 17 Dec 2025 16:20:03 GMT)
  • AIに科学的発見はできるのか?という問いに対する評価。クイズのような形式ではなく、研究プロジェクト、現場の研究シナリオに基づく評価。「Large performance variation in research scenarios leads to changing choices of the best performing model on scientific discovery projects evaluated, suggesting all current LLMs are distant to general scientific “superintelligence”.」とのことではあるが、有効性も感じる印象を持った。
  • 「we observe striking exceptions to the positive correlation between question- and project-level performance. 」「This suggests that rigorous knowledge of explicit structure-property relationships is not a strict prerequisite for LLM-driven discovery. Rather, the capacity to discern optimization directions and facilitate serendipitous exploration appears more critical.」という指摘が面白い。どのモデルが良いかも問題によってかなり状況が変わるよう。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です