コンテンツへスキップ
- The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [104.3]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。 本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (Tue, 02 Sep 2025 17:46:26 GMT)
- 「Agentic Reinforcement Learning (Agentic RL) refers to a paradigm in which LLMs, rather than being treated as static conditional generators optimized for single-turn output alignment or benchmark performance, are conceptualized as learnable policies embedded within sequential decision-making loops, where RL endows them with autonomous agentic capabilities, such as planning, reasoning, tool use, memory maintenance, and self-reflection, enabling the emergence of long-horizon cognitive and interactive behaviors in partially observable, dynamic environments.」と定義されるAgenticな強化学習のサーベイ。最近流行りのアプローチだが様々な種類がある。。
- リポジトリはGitHub – xhyumiracle/Awesome-AgenticLLM-RL-Papers
- AI Agents for Web Testing: A Case Study in the Wild [20.7]
本稿では,AIエージェントベースのWebテスティングフレームワークであるWebProberを紹介する。 URLを与えられたWebProberは、Webサイトを自律的に探索し、実際のユーザインタラクションをシミュレートし、バグとユーザビリティの問題を特定し、人間が読めるレポートを生成する。 120の学術的個人Webサイトのケーススタディを通じてWebProberを評価し,29のユーザビリティ問題を明らかにした。
論文 参考訳(メタデータ) (Fri, 05 Sep 2025 15:57:16 GMT)
- WebテストのためのAIエージェント
- リポジトリはGitHub – TianyiPeng/WebProber
- A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems [44.2]
既存のAIシステムは、デプロイ後も静的な手作業による構成に依存している。 近年,インタラクションデータと環境フィードバックに基づいてエージェントシステムを自動拡張するエージェント進化手法が研究されている。 この調査は、自己進化型AIエージェントの体系的な理解を研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (Sun, 10 Aug 2025 16:07:32 GMT)
- 自己進化に関するサーベイ。AGIが近づいている感がある。
- リポジトリはGitHub – EvoAgentX/Awesome-Self-Evolving-Agents
- WideSearch: Benchmarking Agentic Broad Info-Seeking [22.3]
大規模コレクションタスクにおいてエージェントの信頼性を評価するために設計された新しいベンチマークであるWideSearchを紹介する。 ベンチマークでは、実際のユーザクエリに基づいて、15以上のさまざまなドメインから200の質問を手作業でキュレートする。 我々は、シングルエージェント、マルチエージェントフレームワーク、エンドツーエンドの商用システムを含む、10以上の最先端のエージェント検索システムをベンチマークする。
論文 参考訳(メタデータ) (Mon, 11 Aug 2025 14:03:09 GMT)
- LLM- Agent 、特に情報収集タスクに関するベンチマークの提案。OpenAI o3の清野が高いがKimi K2も良い性能。
- プロジェクトサイトはWideSearch: Benchmarking Agentic Broad Info-Seeking
- Web3 x AI Agents: Landscape, Integrations, and Foundational Challenges [29.3]
Web3テクノロジとAIエージェントの収束は、分散化されたエコシステムを再形成する、急速に進化するフロンティアを表している。 本稿では, ランドスケープ, 経済, ガバナンス, セキュリティ, 信頼メカニズムの5つの重要な側面について, Web3 と AI エージェントの交わりについて, 初めてかつ最も包括的な分析を行った。
論文 参考訳(メタデータ) (Mon, 04 Aug 2025 15:44:58 GMT)
- 「This paper presents the first comprehensive systematic analysis of Web3-AI agent integration, examining 133 active projects with $6.9 billion collective market capitalization to reveal how AI agents fundamentally reshape decentralized ecosystems across the landscape, finance, governance, security, and trust dimensions.」というサーベイ
- Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory [11.7]
本稿では,長期記憶を備えた新しいフレームワークであるM3-Agentを紹介する。 M3-Agentは、リアルタイムの視覚および聴覚入力を処理して、長期記憶の構築と更新を行うことができる。 我々は,M3-Benchという長ビデオ質問応答ベンチマークを開発した。
論文 参考訳(メタデータ) (Wed, 13 Aug 2025 12:03:03 GMT)
- こちらも長期記憶を備えたエージェントフレームワークの提案。「Compared to the strongest baseline, Gemini-GPT4o-Hybrid, which implements M3-Agent framework by prompting Gemini-1.5-Pro [41] for memorization and GPT-4o [15] for control, M3-Agent improves accuracy by 6.7%, 7.7%, and 5.3% on M3-Bench-robot, M3-Bench-web, and VideoMME-long, respectively. Our ablation study demonstrates the importance of semantic memory: removing it reduces accuracy by 17.1%, 19.2% and 13.1% on M3-Bench-robot, M3-Bench-web, and VideoMME-long, respectively.」と効果を報告している。
- プロジェクトサイトはSeeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
- Memp: Exploring Agent Procedural Memory [72.4]
LLM(Large Language Models)ベースのエージェントは様々なタスクをこなすが、静的パラメータで手動で設計または絡み合うような不安定なプロシージャメモリに悩まされる。 本稿では,過去のエージェントの軌跡をステップバイステップの細粒度と高レベルなスクリプトライクな抽象化の両方に蒸留するMempを提案する。 メモリレポジトリが洗練されるにつれて、エージェントは着実に高い成功率と類似タスクの効率を達成できることを示す。
論文 参考訳(メタデータ) (Fri, 08 Aug 2025 16:20:56 GMT)
- エージェントへのMemory導入、「Empirical results on housework automation and information-seeking bench- marks show that leveraging procedural memory significantly boosts task success rates and efficiency. Beyond improving individual episodes, Memp supports continual learning and robust generalization, marking a step toward self-improving, resilient agents.」とのこと。
- メモリ管理はシンプルに行っているように見える。
- Teaching Language Models To Gather Information Proactively [53.9]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。 本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。 キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。 このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (Mon, 28 Jul 2025 23:50:09 GMT)
- 「proactive information gathering」を行うよう、Synthetic Conversation EngineとReinforcement Fine-Tuningによってモデルを強化するフレームワークを提案、「Qwen 2.5-7B model significantly outperforms 03-mini by 18% on automatic evaluation metrics. More importantly, human evaluation reveals that clarification questions and final outlines generated by our model are favored by human annotators by 42% and 28% respectively.」とのこと。
- Magentic-UI: Towards Human-in-the-loop Agentic Systems [34.5]
本稿では,ヒューマンエージェントインタラクションの開発と研究のためのオープンソースのWebインターフェースであるMagentic-UIを紹介する。 柔軟なマルチエージェントアーキテクチャに基づいて構築されたMagentic-UIは、Webブラウジング、コード実行、ファイル操作をサポートする。 エージェントベンチマークによる自律的なタスク補完、インタラクション機能のユーザテストのシミュレーション、実際のユーザとの質的研究、ターゲットとする安全性評価の4つの側面でMagentic-UIを評価した。
論文 参考訳(メタデータ) (Wed, 30 Jul 2025 03:49:14 GMT)
- 「Six interaction mechanisms designed to support low-cost, human-agent interaction in Magentic- UI: co-planning, co-tasking, action approval, answer verification, memory, and multi-tasking.」と人間と強調しながら動作するエージェント開発のためのフレームワーク。
- リポジトリはmicrosoft/magentic-ui: A research prototype of a human-centered web agent
- Expert-Guided LLM Reasoning for Battery Discovery: From AI-Driven Hypothesis to Synthesis and Characterization [48.0]
大型言語モデル(LLM)は複雑な問題に対処するためにチェーン・オブ・シント(CoT)技術を利用する。 ドメイン知識を統合した新しいエージェントフレームワークであるChatBatteryを,材料設計におけるより効果的な推論に向けて導入する。 新規リチウムイオン電池陰極材料3種を同定,合成,特性評価し,28.8%,25.2%,18.5%の実用能力向上を実現した。
論文 参考訳(メタデータ) (Mon, 21 Jul 2025 23:46:11 GMT)
- 科学的発見を支援するAI、「ChatBattery is an AI-driven material optimization platform structured into two synergistic phases: exploration and exploitation. Together, these phases encompass eight sequential stages, orchestrated by seven specialized agents.」とかなり複雑な構成のマルチエージェントシステムになっている。加えて、人間とのコラボレーションが重視されているように見える。
- This suggests that ChatBattery, in its present form, is more adept at optimizing within known paradigms than at generating fundamentally new chemistries. As such, expert input remains essential to expand the system’s exploration boundaries and push beyond conventional chemical spaces. Importantly, this interplay between AI-driven generation and human-guided refinement also creates unexpected opportunities, as demonstrated in the refinement of AI-suggested materials into even more advanced cathode compositions. However, advances anticipated with future reasoning AIs are likely to provide greater exploration and creativity.という記載がある。
- 「ChatBattery, we successfully identify, synthesize, and characterize three novel lithiumion battery cathode materials, which achieve practical capacity improvements of 28.8%, 25.2%, and 18.5%, respectively, over the widely used cathode material, LiNi0.8Mn0.1Co0.1O2 (NMC811).」と効果があったとのこと。