- A Survey of WebAgents: Towards Next-Generation AI Agents for Web Automation with Large Foundation Models [45.1]
Webのコンテキストでは、退屈な日々のタスクを扱う人々を支援するために、AI Agents — WebAgents — を活用することで、生産性と効率が劇的に向上する。 LFMの可能性を十分に探求するために、ユーザの指示に従って日々のWebタスクを完了させるように設計されたWebAgentsに広範な研究が登場した。
論文 参考訳(メタデータ) (Mon, 26 May 2025 07:05:18 GMT) - 利用が広がるWebAgentのサーベイ
タグ: Autonomous Agent
Deep Research API, Gemini CLI, Mistral-Small-3.2-24B, Hunyuan-A13B, OpusLM
様々なニュースがあるが、先週の注目はDeepResearchAPIの登場(Introduction to deep research in the OpenAI API)、Gemini CLIのリリース(Gemini CLI : オープンソース AI エージェント | Google Cloud 公式ブログ)のように思う。LLMやLRMなど基盤モデルを提供するベンダーが応用領域にも進出してくるのは生成AI周りでは特徴的。より付加価値を得ていく動きとしては当然ではあるが、API利用で勝負しているベンダーやスタートアップにとってはつらい展開が続く。
Mistralからはmistralai/Mistral-Small-3.2-24B-Instruct-2506 · Hugging Faceが出ていた。また、Tencentからは80B, 13 ActiveなMoE・ReasoningハイブリッドモデルのHunyuan-A13Bが発表されている(GitHub – Tencent-Hunyuan/Hunyuan-A13B: Tencent Hunyuan A13B (short as Hunyuan-A13B), an innovative and open-source LLM built on a fine-grained MoE architecture.)。
別軸でOpenなSpeechLMも発表されている。オープンな動きにも注目したい。
- OpusLM: A Family of Open Unified Speech Language Models [56.1]
OpusLMは、213K時間の音声テキストペアと292Bのテキスト専用トークンで継続的に事前トレーニングされている。 本稿では,トークン化,マルチストリーム言語モデル,マルチステージトレーニング戦略に関するSpeechLMの設計について述べる。
論文 参考訳(メタデータ) (Sat, 21 Jun 2025 06:30:59 GMT) - Open Unified Speech Language Models でOpusLMs
- モデルはespnet/OpusLM_7B_Anneal · Hugging Face
The Ideation-Execution Gap: Execution Outcomes of LLM-Generated versus Human Research Ideas / Position: Intelligent Science Laboratory Requires the Integration of Cognitive and Embodied AI
- The Ideation-Execution Gap: Execution Outcomes of LLM-Generated versus Human Research Ideas [90.3]
良いアイデアは単に斬新なものではなく、実行後により良い研究がもたらされるべきである。 AIが生み出すアイデアがより良い研究成果をもたらすかどうかをテストするために、我々は実行研究を行う。 実行前後の同じアイデアのレビュースコアを比較すると、LLM生成のアイデアのスコアは専門家によるアイデアよりも大幅に減少する。
論文 参考訳(メタデータ) (Wed, 25 Jun 2025 19:47:23 GMT) - LLMが出したアイデアと専門家のアイデアを「Our execution participants spend an average of 103 hours executing the assigned idea and then submit the codebase and paper to document their experiments. All projects are then reviewed blindly by our recruited expert reviewers」と評価したところ「Average scores of AI ideas drop significantly more than Human ideas in the execution study across all the evaluation metrics.」という指摘。
- やはり人間の専門家は深く考えているようという興味深い結果。同時に、アイデアのみだとAIの評価が高いということはアイデアだしでは有効なのではないか?とか最終的なスコアでもそこそこ健闘しているのではないか?と見えなくもない。下記論文のようにAI科学者の実現可能性は高まっているように思う。
- リポジトリはGitHub – NoviScl/AI-Researcher
- Position: Intelligent Science Laboratory Requires the Integration of Cognitive and Embodied AI [98.2]
知的科学研究所(ISL)のパラダイムを提案する。 ISLは、認知と具体的知性を深く統合した多層クローズドループフレームワークである。 このようなシステムは、現在の科学的発見の限界を克服するために不可欠である、と我々は主張する。
論文 参考訳(メタデータ) (Tue, 24 Jun 2025 13:31:44 GMT) - 「1) Foundation Models provide multi-modal scientific knowledge representation and closed-loop learning capabilities, supporting complex reasoning and domain adaptation; (2) Agent Layer dynamically orchestrates scientific workflows—including hypothesis generation, literature review, experimental planning, execution, and analysis—while integrating model/toolkit via MCP integration; (3) Embodied Layer realizes robust physical interaction through advanced perception, navigation, and manipulation modules, enabling precise, adaptive operations in real-world laboratory environments.」からなるAI科学者・AIラボフレームワークの提案。
- 現状と課題がとても参考になる。
SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence
- SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence [28.0]
自動エージェントシステム生成のためのフレームワークであるSwarmAgenticを提案する。 SwarmAgenticはエージェントシステムをスクラッチから構築し、エージェント機能とコラボレーションを共同で最適化する。 提案手法を,高レベル計画,システムレベルの調整,創造的推論を含む6つの実世界,オープンエンド,探索的タスクで評価する。
論文 参考訳(メタデータ) (Wed, 18 Jun 2025 17:54:55 GMT) - 「We propose SwarmAgentic, a framework for fully automated agentic system generation that constructs agentic systems from scratch and jointly optimizes agent functional- ity and collaboration as interdependent com- ponents through language-driven exploration. To enable efficient search over system-level structures, SwarmAgentic maintains a population of candidate systems and evolves them via feedback-guided updates, drawing inspiration from Particle Swarm Optimization (PSO).」というフレームワークの提案。
- 各エージェントを粒子ととらえらParticle Swarm Optimization (PSO)的アプローチで他手法を超える性能とのこと。計算コストがどの程度かはやや気になるところ。
- プロジェクトサイトはAcademic Project Page
Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence
- Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence [109.3]
Embodied Web Agentsは、エンボディメントとWebスケール推論を流動的にブリッジする、AIエージェントのための新しいパラダイムである。 多様なタスクスイートを含むEmbodied Web Agents Benchmarkをリリースする。 その結果、最先端のAIシステムと人間の能力の間には、大きなパフォーマンスのギャップが浮かび上がっている。
論文 参考訳(メタデータ) (Wed, 18 Jun 2025 17:58:17 GMT) - 「we introduce EMBODIED WEB AGENTS as a new conceptual paradigm of AI systems that unify physical embodiment with web-scale knowledge access — capable of perceiving and acting in the real world while reasoning over dynamic, unstructured information from the web.」という提案。ベンチマークも構築されている。よくありそうなシチュエーションだが、現時点では先端モデルも苦戦する難しいタスクとなっている。
- リポジトリはEmbodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence
Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills
- Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills [57.7]
本稿では,知識不足の問題に対処するため,階層型マルチモーダルスキル(HMS)モジュールを提案する。 トラジェクトリを実行スキル、コアスキル、そして最終的にはメタスキルに徐々に抽象化し、長期のタスク計画のための階層的な知識構造を提供する。 ドメインギャップを埋めるために,Skill-Augmented Monte Carlo Tree Search (SA-MCTS)アルゴリズムを提案する。
論文 参考訳(メタデータ) (Thu, 12 Jun 2025 06:21:19 GMT) - 「Hierarchical Multimodal Skills (HMS) module for long-horizon planning」、「A Skill-Augmented Monte Carlo Tree Search (SA-MCTS) algorithm for knowledge exploration in online settings.」をキーとするcross-platform, plug-and-play GUI agent、Mirage-1の提案
- プロジェクトサイトはMirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills
LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback
- LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.8]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。 LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。 本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (Mon, 02 Jun 2025 22:36:02 GMT) - LAM SIMULATOR, a comprehensive frame- work designed for online exploration of agentic tasks with high-quality feedback
The Real Barrier to LLM Agent Usability is Agentic ROI
- The Real Barrier to LLM Agent Usability is Agentic ROI [110.3]
大規模言語モデル(LLM)エージェントは、人間とAIの相互作用において有望な変化を示す。 我々は、需要の高いマスマーケットアプリケーションにおいて、重要なユーザビリティギャップを強調します。
論文 参考訳(メタデータ) (Fri, 23 May 2025 11:40:58 GMT) - 「we argue that the key barrier to the practical usability of LLM agents lies not in model capability alone, but in maximizing the value an agent can provide, while minimizing the costs incurred during real-world use.」というごもっとな主張で、それを測るメトリクスとしてAgentic ROIを提案。「The massive user demand and the low Agentic ROI highlight a critical usability gap in everyday, mass-market applications.」はその通りと思う。
- 色々開発している側としては「In particular, the current generation of LLM agents focuses on specialized, professional tasks such as software development [97] and scientific research [24, 65], where the typical users are already domain experts and occasional errors are acceptable. As a result, these agents remain largely out of reach for the general public, who may lack the necessary expertise.」もその通りで耳が痛い・・・
Mistral Agents API, DeepSeek-R1-0528
先週は企業ニュースというよりarXiv論文の投稿が目立った週だった。更新論文抜きで3700本出ておりチェックがとても大変である。
そんな中注目はMistral AIのBuild AI agents with the Mistral Agents API | Mistral AI。OpenAIにも感じるが単純なAPI提供だけでなくAIの総合的な機能をサポートし多くの部分をクラウド側に持っていく動きは広がっていくんだろうと思う。
NVD – CVE-2025-37899、How I used o3 to find CVE-2025-37899, a remote zeroday vulnerability in the Linux kernel’s SMB implementation – Sean Heelan’s BlogにあるようにAIの能力はとても上がっていて、なくてはならないものになるつつある。Agenticな動作は強力な一方でAPIとの付き合い方は悩ましいところ。
公開モデル関連の話だと、DeepSeek R1の新バージョンがリリースされたよう。上記とは正反対の公開モデルやOSSの動きも要チェック。
WebDancer, EvolveSearch, Can Large Language Models Match the Conclusions of Systematic Reviews?
情報検索・収集でもエージェントの活用が盛ん。
- WebDancer: Towards Autonomous Information Seeking Agency [67.1]
エージェントシステムの最近の進歩は、自律的な多段階研究の可能性を強調している。 データ中心およびトレーニング段階の観点からエージェントを探索するエンドツーエンドのエージェント情報を構築するための凝集パラダイムを提案する。 我々はこのフレームワークを ReAct, WebDancer に基づいた Web エージェントでインスタンス化する。
論文 参考訳(メタデータ) (Wed, 28 May 2025 17:57:07 GMT) - Tongyi Lab , Alibaba による情報探索エージェントの提案。ポストトレーニングを含む4ステージ構成。この手のエージェントを(簡易ではなく本気で)開発するうえで参考になる。
- Step I: Construct diverse and challenging deep information seeking QA pairs based on the real-world web environment (§2.1); Step II: Sample high-quality trajectories from QA pairs using both LLMs and LRMs to guide the agency learning process (§2.2); Step III: Perform fine-tuning to adapt the format instruction following to agentic tasks and environments (§3.1); Step IV: Apply RL to optimize the agent’s decision-making and generalization capabilities in real-world web environments (§3.2).
- GitHub – Alibaba-NLP/WebAgent: 🌐 WebWalker [ACL2025] & WebDancer [Preprint]
- EvolveSearch: An Iterative Self-Evolving Search Agent [98.2]
大規模言語モデル(LLM)は、検索エンジンやWebブラウザなどのツールを統合することで、エージェント情報検索機能を変革した。 本研究では,SFTとRLを組み合わせた新たな反復的自己進化フレームワークであるEvolveSearchを提案する。
論文 参考訳(メタデータ) (Wed, 28 May 2025 15:50:48 GMT) - 上記と同じくTongyi Lab , Alibabaが関わる成果
一方で下記のような指摘もある。
- Can Large Language Models Match the Conclusions of Systematic Reviews? [43.3]
我々は、大言語モデル(LLM)は、同じ研究にアクセスできると、臨床専門家が書いた体系的なレビューの結論に一致するだろうか? MedEvidenceでは、推論、非推論、医療スペシャリスト、さまざまなサイズ(7B-700Bから)のモデルを含む24のLCMをベンチマークします。 MedEvidenceでは、推論が必ずしも性能を向上しておらず、より大規模なモデルでは常に大きな利得が得られず、知識に基づく微調整は精度を低下させる。
論文 参考訳(メタデータ) (Wed, 28 May 2025 18:58:09 GMT) - 「Consequently, given the same studies, frontier LLMs fail to match the conclusions of systematic reviews in at least 37% of evaluated cases.」が高いか低いかは悩ましいところだが「unlike humans, LLMs struggle with uncertain evidence and cannot exhibit skepticism when studies present design flaws」は気になる。「We identify four key factors that influence model performance on our benchmark: (1) token length, (2) dependency on treatment outcomes, (3) inability to assess the quality of evidence, and (4) lack of skepticism toward low-quality findings.」との記載があるが、「内容の評価」は難しい課題なのだと思う。
- また、「Across all comparisons, medical finetuning fails to improve performance (even for medical-reasoning models) and, in most cases, actually degrades it. Indeed, fine-tuning without proper calibration can harm generalization, some- times resulting in worse performance than the base model [49, 50, 51].」も面白い。
- リポジトリはGitHub – zy-f/med-evidence