Evaluating Large Language Models in Scientific Discovery

  • Evaluating Large Language Models in Scientific Discovery [91.7]
    大規模言語モデル (LLMs) は科学研究にますます応用されてきているが、科学ベンチマークでは非文脈化された知識を探索している。 生物, 化学, 材料, 物理にまたがるLSMを評価するシナリオグラウンドベンチマークを提案する。 このフレームワークは、(i)シナリオタイドアイテムの質問レベル精度と(ii)プロジェクトレベルのパフォーマンスの2つのレベルでモデルを評価する。
    論文  参考訳(メタデータ)   (Wed, 17 Dec 2025 16:20:03 GMT)
  • AIに科学的発見はできるのか?という問いに対する評価。クイズのような形式ではなく、研究プロジェクト、現場の研究シナリオに基づく評価。「Large performance variation in research scenarios leads to changing choices of the best performing model on scientific discovery projects evaluated, suggesting all current LLMs are distant to general scientific “superintelligence”.」とのことではあるが、有効性も感じる印象を持った。
  • 「we observe striking exceptions to the positive correlation between question- and project-level performance. 」「This suggests that rigorous knowledge of explicit structure-property relationships is not a strict prerequisite for LLM-driven discovery. Rather, the capacity to discern optimization directions and facilitate serendipitous exploration appears more critical.」という指摘が面白い。どのモデルが良いかも問題によってかなり状況が変わるよう。

Memory in the Age of AI Agents

  • Memory in the Age of AI Agents [217.9]
    この研究は、現在のエージェントメモリ研究の最新の展望を提供することを目的としている。 我々は,エージェントメモリ,すなわちトークンレベル,パラメトリック,潜時メモリの3つの支配的実現を同定する。 実用的な開発を支援するため、メモリベンチマークとオープンソースフレームワークの包括的な概要をコンパイルする。
    論文  参考訳(メタデータ)   (Mon, 15 Dec 2025 17:22:34 GMT)
  • 重要性が増す、というかAGIを目指すための重要なピースであるMemoryのサーベイ。Key Questionsは次の通り。
    • ❶How is agent memory defined, and how does it relate to related concepts such as LLM memory, retrieval-augmented generation (RAG), and context engineering?
    • ❷Forms: What architectural or representational forms can agent memory take?
    • ❸Functions: Why is agent memory needed, and what roles or purposes does it serve?
    • ❹Dynamics: How does agent memory operate, adapt, and evolve over time?
    • ❺What are the promising frontiers for advancing agent memory research?」
  • リポジトリはGitHub – Shichun-Liu/Agent-Memory-Paper-List: The paper list of “Memory in the Age of AI Agents: A Survey”

OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification 

  • OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification [91.2]
    本稿では、長い思考の連鎖から要約された結果の合理化過程を検証する、アウトカムベースプロセス検証(OPV)を提案する。 OPV は 76.3 と比較して F1 スコアが 83.1 の Qwen3-Max-Preview など,はるかに大きなオープンソースモデルよりも優れています。
    論文  参考訳(メタデータ)   (Thu, 11 Dec 2025 15:47:38 GMT)
  • 「We introduced the Outcome-based Process Verifier (OPV), which bridges outcome and process verification by operating on summarized solutions from long CoTs. Through an iterative active learning framework with expert annotations, OPV progressively improves its verification capabilities while minimizing annotation costs.」とCoT的な推論過程を検証するアプローチの提案。

Deep Research: A Systematic Survey

  • Deep Research: A Systematic Survey [118.8]
    Deep Research (DR)は、大規模言語モデルの推論能力と検索エンジンなどの外部ツールを組み合わせることを目的としている。 本調査は,深層研究システムの包括的かつ体系的な概要を提示する。
    論文  参考訳(メタデータ)   (Mon, 24 Nov 2025 15:28:28 GMT)
  • Deep Resaerchに関するサーベイ。関連研究を含め幅広いサーベイになっている。引用論文リストからは(当然と言えば当然だが)2025年以降に非常に盛り上がっている状況が分かる。
  • リポジトリはGitHub – mangopy/Deep-Research-Survey: A Systematic Survey of Deep Research

How Far Are We from Genuinely Useful Deep Research Agents?

  • How Far Are We from Genuinely Useful Deep Research Agents? [48.6]
    Deep Research Agents (DRA) は、反復的な情報検索と合成によってアナリストレベルのレポートを自動的に生成することを目的としている。 レポート合成の現在のベンチマークは、タスクの複雑さと主観的なメトリクスに悩まされている。 我々は,100個の人為的な研究タスクからなる改良されたベンチマークであるFINDER(FinDER)について述べる。
    論文  参考訳(メタデータ)   (Mon, 01 Dec 2025 17:58:59 GMT)
  • 「Fine-grained DEep- Research bench (FINDER), a fine-grained benchmark designed to evaluate DRAs in a more comprehensive manner. Unlike existing benchmarks, DEFT is built upon 100 expert-curated research tasks with 419 detailed check- list items that guide the structure, analytical depth, and citation integrity of generated reports.」というベンチマークの提案。
  • リポジトリはGitHub – OPPO-PersonalAI/FINDER_DEFT: Official implementation for paper “How Far Are We from Genuinely Useful Deep Research Agents?”

MASim: Multilingual Agent-Based Simulation for Social Science 

  • MASim: Multilingual Agent-Based Simulation for Social Science [68.0]
    マルチエージェントロールプレイングは近年,言語エージェントを用いた社会行動研究の公約を示している。 既存のシミュレーションは主に単言語であり、言語間相互作用をモデル化することができない。 我々は、最初の多言語エージェントベースのシミュレーションフレームワークであるMASimを紹介する。
    論文  参考訳(メタデータ)   (Mon, 08 Dec 2025 06:12:48 GMT)
  • 「In this work, we explore multilingual agent-based simulation for social science discovery. We begin with the MAPS dataset, which integrates open- domain survey questionnaires with user demo- graphics from global social science surveys. On top of this resource, we develop the MASIM frame- work, which models social-network interactions among cross-country user agents and news agents, and outputs user attitude dynamics for survey questions. Our evaluation examines real-world cali- bration, global sensitivity, and local consistency, which collectively support the framework’s robust- ness and effectiveness.」とマルチリンガル性に特徴を持つマルチエージェントシミュレーションフレームワークの提案。多言語性は文化に関わる部分など重要なポイントのように思う。

Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution

  • Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution [52.8]
    我々は静的ストレージと動的推論のギャップを埋めるため、$textbfReMe$ ($textitRemember Me, Refine Me$)を提案する。 ReMeは3つのメカニズムを通じてメモリライフサイクルを革新する: $textitmulti-faceted distillation$, きめ細かい経験を抽出する。 BFCL-V3とAppWorldの実験では、ReMeが新しい最先端のエージェントメモリシステムを確立している。
    論文  参考訳(メタデータ)   (Thu, 11 Dec 2025 14:40:01 GMT)
  • 「The ReMe framework comprises three alternating phases. The system first constructs the initial experience pool from the agent’s past trajectories. For new tasks, relevant experiences are recalled and reorganized to guide agent inference. After task execution, ReMe updates the pool, selectively adding new insights and removing outdated ones.」というMemoryフレームワーク
  • リポジトリはGitHub – agentscope-ai/ReMe: ReMe: Memory Management Kit for Agents – Remember Me, Refine Me.

Generative AI for Self-Adaptive Systems: State of the Art and Research Roadmap 

  • Generative AI for Self-Adaptive Systems: State of the Art and Research Roadmap [38.6]
    自己適応システム(SAS)はフィードバックループを通じて変化や不確実性を扱うように設計されている。 GenAIはデータの理解と論理的推論において素晴らしいパフォーマンスを示している。 しかし、SASにおけるGenAIの具体的なメリットと課題は明らかでない。
    論文  参考訳(メタデータ)   (Thu, 04 Dec 2025 11:13:43 GMT)
  • Self-adaptive system(「Effective self-adaptation typically relies on a set of four crucial functions or capabilities (i) to monitor their operational environment and their own state; (ii) to analyze the current situation, determine whether the goals are achieved and if not evaluate the options to adapt the system, (iii) to plan an adaptation of the system for the best adaptation option, and (iv) to execute the plan and adapt the system accordingly.」)のサーベイ。

From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence

  • From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.4]
    大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。 コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。 一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
    論文  参考訳(メタデータ)   (Tue, 02 Dec 2025 17:14:33 GMT)
  • ソフトウェア開発におけるAI活用に関する包括的なサーベイ。
  • 1ページ目の図が攻めている一方で納得感もある。

K2-V2: A 360-Open, Reasoning-Enhanced LLM 

  • K2-V2: A 360-Open, Reasoning-Enhanced LLM [89.7]
    K2-V2は,スクラッチから構築した360度オープンLLMで,推論適応のための優れた基盤となる。 これはQwen2.5-72Bを上回り、Qwen3-235Bの性能に近づいている。
    論文  参考訳(メタデータ)   (Fri, 05 Dec 2025 22:53:45 GMT)
  • 「We introduce K2, the best fully open-source pretrained large language model (LLM) to date, and ranks competitively against the best open-weight models of its class. As the latest base model in the LLM360 family (Liu et al , 2023; Tao et al , 2024; Liu et al , 2025c; Cheng et al , 2025a), Beyond standard competencies like knowledge and conversation, K2 provides advanced capabilities, including long context consistency, deep mathematical knowledge, and reasoning behaviors. These serve as foundational building blocks that enable sophisticated downstream use cases, such as solving complex math problems and executing agentic workflows.」とオープンかつ強力な性能を主張するLLM
  • GitHub – LLM360/k2v2_train: Pre-training codebase for K2-V2LLM360/K2-V2 · Hugging Faceなどコードやモデルウェイトのみではなくデータなども公開されているよう。