コンテンツへスキップ
- Memento: Fine-tuning LLM Agents without Fine-tuning LLMs [36.3]
本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。 本手法は,メモリベースのオンライン強化学習により,低コストで連続的な適応を可能にする。 我々はエージェントモデルを,GAIA検証でトップ1に達するMementoというディープリサーチ環境でインスタンス化する。
論文 参考訳(メタデータ) (Mon, 25 Aug 2025 13:32:12 GMT)
- 「Memento formalises deep research agents as a memory-based Markov Decision Process (MDP) and implements it within a planner–executor framework, leveraging an episodic case bank to record and retrieve trajectories for continual policy improvement.」というメモリ機構を持つエージェントフレームワークの提案。
- リポジトリはGitHub – Agent-on-the-Fly/Memento: Official Code of Memento: Fine-tuning LLM Agents without Fine-tuning LLMs
- Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.8]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。 推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。 我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (Mon, 25 Aug 2025 03:17:17 GMT)
- overthinking対策のため、</think>出現の監視は不十分として、推論終了ポイント Reasoning Completion Point (RCP)を検知するタスクを提案。推論過程をinsufficient exploration stage, compensatory reasoning stage, reasoning convergence stageに分類し、2ステージ目の終了時点をRCPとしている。
- 「We explicitly define the Reasoning Completion Point and propose a clear analytical framework for determining the optimal termination point in reasoning. Leveraging feature importance analysis via CatBoost models, we further mine common signals indicative of reasoning completion, from which we distill a concise and efficient set of heuristic rules named Reasoning Completion Point Detection. This rule set precisely identifies RCP with minimal computational over- head, effectively mitigating overthinking in LLMs.」とのこと。トークン数削減だけなく、推論性能上も有利なのが興味深い。