Memento: Fine-tuning LLM Agents without Fine-tuning LLMs 

  • Memento: Fine-tuning LLM Agents without Fine-tuning LLMs [36.3]
    本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。 本手法は,メモリベースのオンライン強化学習により,低コストで連続的な適応を可能にする。 我々はエージェントモデルを,GAIA検証でトップ1に達するMementoというディープリサーチ環境でインスタンス化する。
    論文  参考訳(メタデータ)   (Mon, 25 Aug 2025 13:32:12 GMT)
  • 「Memento formalises deep research agents as a memory-based Markov Decision Process (MDP) and implements it within a planner–executor framework, leveraging an episodic case bank to record and retrieve trajectories for continual policy improvement.」というメモリ機構を持つエージェントフレームワークの提案。
  • リポジトリはGitHub – Agent-on-the-Fly/Memento: Official Code of Memento: Fine-tuning LLM Agents without Fine-tuning LLMs

Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit

  • Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.8]
    オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。 推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。 我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
    論文  参考訳(メタデータ)   (Mon, 25 Aug 2025 03:17:17 GMT)
  • overthinking対策のため、</think>出現の監視は不十分として、推論終了ポイント Reasoning Completion Point (RCP)を検知するタスクを提案。推論過程をinsufficient exploration stage, compensatory reasoning stage, reasoning convergence stageに分類し、2ステージ目の終了時点をRCPとしている。
  • 「We explicitly define the Reasoning Completion Point and propose a clear analytical framework for determining the optimal termination point in reasoning. Leveraging feature importance analysis via CatBoost models, we further mine common signals indicative of reasoning completion, from which we distill a concise and efficient set of heuristic rules named Reasoning Completion Point Detection. This rule set precisely identifies RCP with minimal computational over- head, effectively mitigating overthinking in LLMs.」とのこと。トークン数削減だけなく、推論性能上も有利なのが興味深い。

Grok 2.5, HERMES 4, InternVL3.5, VIBEVOICE

先週は公開モデルに関する話題が多かった。X.aiからはアナウンス通りGrok2のウェイトが公開された(https://x.com/elonmusk/status/1959379349322313920 / xai-org/grok-2 · Hugging Face)。Grok3も半年程度で公開とのこと。HERMES, InternVLからも新しいモデルが出ている。アプローチは様々とはいえ、着々とモデルを構築しフロンティアに追いついているのは凄いことである。Microsoft ResearchからはText-to-SpeechのOSSモデルが公開された(VibeVoice)。特化型を使う場面も多々残っていてありがたい。

  • InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency [245.9]
    InternVL 3.5は、多目的性、推論能力、推論効率を大幅に向上させる、オープンソースの新しいマルチモーダルモデルである。 主要なイノベーションはCascade Reinforcement Learningフレームワークで、2段階のプロセスを通じて推論を強化する。 我々の最大のモデルであるInternVL3.5-241B-A28Bは、一般的なマルチモーダル、推論、テキスト、エージェントタスクにわたるオープンソースのMLLMの最先端の結果を得る。
    論文  参考訳(メタデータ)   (Mon, 25 Aug 2025 17:58:17 GMT)
  • InternVLの最新版。LLM部分のベースモデルとしてQwen3シリーズとGPT-OSSを使用。GPT-OSS-20B, Qwen3-30B-A3Bの比較も興味深い。(パラメータサイズの差かQwen3の方が性能が高い。)
  • リポジトリはOpenGVLab/InternVL3_5-241B-A28B · Hugging Face
  • Hermes 4 Technical Report [7.6]
    Hermes 4は、構造化されたマルチターン推論と幅広い命令追従能力を組み合わせたハイブリッド推論モデルのファミリーである。 データキュレーション、合成、トレーニング、評価で直面する課題について述べ、これらの課題を大規模に解決するためのソリューションの概要を述べる。
    論文  参考訳(メタデータ)   (Mon, 25 Aug 2025 17:45:06 GMT)
  • リポジトリはHermes 4 Collection – a NousResearch Collection

From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery 

  • From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery [90.6]
    エージェントAIは仮説生成、実験設計、実行、分析、反復的洗練の能力を示す。 この調査は、生命科学、化学、材料科学、物理学にまたがる自律的な科学的発見のドメイン指向のレビューを提供する。
    論文  参考訳(メタデータ)   (Mon, 18 Aug 2025 05:25:54 GMT)
  • 最近流行りの科学のためのAIに関するサーベイ。「(i) trace the evolution of AI for Science, (ii) identify five core capabilities underpinning scientific agency, (iii) model discovery as a dynamic four-stage workflow, (iv) review applications across life sciences, chemistry, materials science, and physics, and (v) synthesize key challenges and future opportunities. This work establishes a domain-oriented synthesis of autonomous scientific discovery and positions Agentic Science as a structured paradigm for advancing AI-driven research.」と広範な内容。
  • プロジェクトサイトはFrom AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery、リポジトリはGitHub – AgenticScience/Awesome-Agent-Scientists

A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems 

  • A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems [44.2]
    既存のAIシステムは、デプロイ後も静的な手作業による構成に依存している。 近年,インタラクションデータと環境フィードバックに基づいてエージェントシステムを自動拡張するエージェント進化手法が研究されている。 この調査は、自己進化型AIエージェントの体系的な理解を研究者や実践者に提供することを目的としている。
    論文  参考訳(メタデータ)   (Sun, 10 Aug 2025 16:07:32 GMT)
  • 自己進化に関するサーベイ。AGIが近づいている感がある。
  • リポジトリはGitHub – EvoAgentX/Awesome-Self-Evolving-Agents

aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery Generated by AI Scientists 

  • aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery Generated by AI Scientists [22.3]
    私たちは、人間とAI科学者のための次世代オープンアクセスプラットフォームであるaiXivを紹介します。 我々の研究は、AI科学者のための次世代のオープンアクセスエコシステムの基礎を築いた。
    論文  参考訳(メタデータ)   (Wed, 20 Aug 2025 23:16:41 GMT)
  • 「closed-loop review system for both proposals and papers, incorporating automatic retrieval- augmented evaluation, reviewer guidance, and robust defenses against prompt injection.」を持ちAPI,MCPサーバも提供されるプラットフォーム。
  • リポジトリはGitHub – aixiv-org/aiXiv: Preprint server for AI Scientists and Robot Scientists

SurveyGen-I: Consistent Scientific Survey Generation with Evolving Plans and Memory-Guided Writing

  • SurveyGen-I: Consistent Scientific Survey Generation with Evolving Plans and Memory-Guided Writing [4.2]
    SurveyGen-Iは、粗大な検索、適応計画、メモリ誘導生成を組み合わせた自動サーベイ生成フレームワークである。 4つの科学的領域にわたる実験では、SurveyGen-Iはコンテンツ品質、一貫性、引用カバレッジにおいて、従来よりも一貫して優れていた。
    論文  参考訳(メタデータ)   (Wed, 20 Aug 2025 00:03:46 GMT)
  • 凝った構成のサーベイ生成フレームワークの提案
    • (1) Literature Retrieval (LR) performs multi- stage literature retrieval at both survey and subsec- tion levels.
    • (2) Structure Planning with Dynamic Outline Evolution (PlanEvo) generates a hierarchical outline and a dependency-aware writing plan, and dynamically updates both during generation to ensure cross-subsection consistency of the survey.
    • (3) CaM-Writing generates each subsection with strong content consistency and rich citation coverage, combining citation-traced retrieval to recover influential references, memory-guided skeleton planning for content consistency, and best-of-N draft selection to ensure high-quality generation.
  • リポジトリはGitHub – SurveyGens/SurveyGen-I

BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining

  • BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining [13.2]
    プレトレーニングのための高品質な合成データを生成する合成データ生成フレームワークであるBeyondWebを紹介した。 BeyondWebは、従来のWebスケールデータセットの機能を大幅に拡張した。 オープンなWebデータよりも最大7.7倍、Nemotron-Synthより2.7倍高速なトレーニングを提供する。
    論文  参考訳(メタデータ)   (Thu, 14 Aug 2025 17:55:47 GMT)
  • 様々な観点からの評価を行っているが「The data wall is not unsurpassable; it can be broken through strategic synthetic data generation.」という主張に驚き

WideSearch: Benchmarking Agentic Broad Info-Seeking

  • WideSearch: Benchmarking Agentic Broad Info-Seeking [22.3]
    大規模コレクションタスクにおいてエージェントの信頼性を評価するために設計された新しいベンチマークであるWideSearchを紹介する。 ベンチマークでは、実際のユーザクエリに基づいて、15以上のさまざまなドメインから200の質問を手作業でキュレートする。 我々は、シングルエージェント、マルチエージェントフレームワーク、エンドツーエンドの商用システムを含む、10以上の最先端のエージェント検索システムをベンチマークする。
    論文  参考訳(メタデータ)   (Mon, 11 Aug 2025 14:03:09 GMT)
  • LLM- Agent 、特に情報収集タスクに関するベンチマークの提案。OpenAI o3の清野が高いがKimi K2も良い性能。
  • プロジェクトサイトはWideSearch: Benchmarking Agentic Broad Info-Seeking

Deep Think with Confidence

  • Deep Think with Confidence [33.2]
    私たちはDeep Think with Conf(DeepConf)という,テスト時の推論効率とパフォーマンスを両立させる,シンプルかつ強力な手法を紹介します。 DeepConfは、生成時に低品質な推論トレースを動的にフィルタリングし、トークン生成を削減しながら精度を維持または向上させます。評価の結果、DeepConfはAIME 2025などの課題で99.9%の精度を達成し、従来の方法に比べて84.7%のトークン削減を実現しました。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 05:48:38 GMT)
  • モデル内の確信度を活用して推論を制御する手法の提案。シンプルだが強力とのこと。
  • リポジトリはDeep Think with Confidence