コンテンツへスキップ
情報検索・収集でもエージェントの活用が盛ん。
- WebDancer: Towards Autonomous Information Seeking Agency [67.1]
エージェントシステムの最近の進歩は、自律的な多段階研究の可能性を強調している。 データ中心およびトレーニング段階の観点からエージェントを探索するエンドツーエンドのエージェント情報を構築するための凝集パラダイムを提案する。 我々はこのフレームワークを ReAct, WebDancer に基づいた Web エージェントでインスタンス化する。
論文 参考訳(メタデータ) (Wed, 28 May 2025 17:57:07 GMT)
- Tongyi Lab , Alibaba による情報探索エージェントの提案。ポストトレーニングを含む4ステージ構成。この手のエージェントを(簡易ではなく本気で)開発するうえで参考になる。
- Step I: Construct diverse and challenging deep information seeking QA pairs based on the real-world web environment (§2.1); Step II: Sample high-quality trajectories from QA pairs using both LLMs and LRMs to guide the agency learning process (§2.2); Step III: Perform fine-tuning to adapt the format instruction following to agentic tasks and environments (§3.1); Step IV: Apply RL to optimize the agent’s decision-making and generalization capabilities in real-world web environments (§3.2).
- GitHub – Alibaba-NLP/WebAgent: 🌐 WebWalker [ACL2025] & WebDancer [Preprint]
- EvolveSearch: An Iterative Self-Evolving Search Agent [98.2]
大規模言語モデル(LLM)は、検索エンジンやWebブラウザなどのツールを統合することで、エージェント情報検索機能を変革した。 本研究では,SFTとRLを組み合わせた新たな反復的自己進化フレームワークであるEvolveSearchを提案する。
論文 参考訳(メタデータ) (Wed, 28 May 2025 15:50:48 GMT)
- 上記と同じくTongyi Lab , Alibabaが関わる成果
一方で下記のような指摘もある。
- Can Large Language Models Match the Conclusions of Systematic Reviews? [43.3]
我々は、大言語モデル(LLM)は、同じ研究にアクセスできると、臨床専門家が書いた体系的なレビューの結論に一致するだろうか? MedEvidenceでは、推論、非推論、医療スペシャリスト、さまざまなサイズ(7B-700Bから)のモデルを含む24のLCMをベンチマークします。 MedEvidenceでは、推論が必ずしも性能を向上しておらず、より大規模なモデルでは常に大きな利得が得られず、知識に基づく微調整は精度を低下させる。
論文 参考訳(メタデータ) (Wed, 28 May 2025 18:58:09 GMT)
- 「Consequently, given the same studies, frontier LLMs fail to match the conclusions of systematic reviews in at least 37% of evaluated cases.」が高いか低いかは悩ましいところだが「unlike humans, LLMs struggle with uncertain evidence and cannot exhibit skepticism when studies present design flaws」は気になる。「We identify four key factors that influence model performance on our benchmark: (1) token length, (2) dependency on treatment outcomes, (3) inability to assess the quality of evidence, and (4) lack of skepticism toward low-quality findings.」との記載があるが、「内容の評価」は難しい課題なのだと思う。
- また、「Across all comparisons, medical finetuning fails to improve performance (even for medical-reasoning models) and, in most cases, actually degrades it. Indeed, fine-tuning without proper calibration can harm generalization, some- times resulting in worse performance than the base model [49, 50, 51].」も面白い。
- リポジトリはGitHub – zy-f/med-evidence
- On Path to Multimodal Generalist: General-Level and General-Bench [154.0]
本稿では,MLLMの性能と汎用性を5段階に定義した評価フレームワークであるGeneral-Levelを紹介する。 フレームワークの中核はSynergyの概念であり、モデルが理解と生成をまたいだ一貫性のある機能を維持するかどうかを測定する。 既存の100以上のMLLMを含む評価結果は、ジェネラリストの能力ランキングを明らかにする。
論文 参考訳(メタデータ) (Wed, 07 May 2025 17:59:32 GMT)
- 「This leads to a critical question: Can we simply assume that higher performance across tasks indicates a stronger MLLM capability, bringing us closer to human-level AI?」に対する評価フレームワーク。自動運転のような大きく5段階のレベル設定を行っている。現時点では「Our evaluation of over 100 existing top-performing LLM/MLLM systems has uncovered critical insights into their capabilities and rankings as multimodal generalists. The most notable finding is that most MLLMs lack the cross-task or cross-modal synergy ability required for higher-level classifications, with even advanced models like GPT-4V and GPT-4o not achieving top ranks.」とのことだが…
- プロジェクトサイトはPath to Multimodal Generalist、リーダーボードはPath to Multimodal Generalist
下記サーベイも注目
- A Survey of AI Agent Protocols [35.4]
大きな言語モデル(LLM)エージェントが外部ツールやデータソースと通信する標準的な方法はありません。 この標準化されたプロトコルの欠如は、エージェントが協力したり、効果的にスケールするのを難しくする。 LLMエージェントの統一通信プロトコルは、これを変更できる。
論文 参考訳(メタデータ) (Wed, 23 Apr 2025 14:07:26 GMT)
- 「In this paper, we provide a systematic overview of existing communication protocols for LLM agents.」とAgent間の通信プロトコルのサーベイ。
- 様々なモチベーションで設計も様々。
- WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents [55.6]
本研究では,大規模言語モデル(LLM)を補完する環境の記号的知識を学習する「世界アライメント」を提案する。 また、モデル予測制御フレームワークを用いて、RLフリーでモデルベースエージェント「WALL-E 2.0」を提案する。 WALL-E 2.0は、火星(Minecraftのような)とALFWorld(emboded indoor environment)のオープンワールド課題における既存の手法を著しく上回っている
論文 参考訳(メタデータ) (Tue, 22 Apr 2025 10:58:27 GMT)
- 「Can we build accurate world models out of large language models (LLMs)? How can world models benefit LLM agents?」から始まる論文。「We have demonstrated that LLMs can effectively serve as world models for agents when aligned with environment dynamics via neurosymbolic knowledge learning.」で既存ベンチマークで効果を確認とのこと。
- リポジトリはGitHub – elated-sawyer/WALL-E: Official code for the paper: WALL-E: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents
- Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [57.1]
機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。 PaperCoderは、計画、分析、生成の3段階で動作する。 これは、最近リリースされたPaperBenchベンチマークで一貫して強みを示している。
論文 参考訳(メタデータ) (Thu, 24 Apr 2025 01:57:01 GMT)
- 「(1) Planning, where a high-level implementation plan is constructed based on the paper’s content, including overall plan, architectural design, logic design, and configuration files; (2) Analyzing, where the plan is translated into detailed file-level specifications; and (3) Coding, where the final codes are generated to implement the paper’s methods and experiments.」という三段階のフレームワークの提案。
- 「Results show that 77% of participants preferred PaperCoder’s implementation over alternatives, and 83% found the outputs practically useful for real-world usage.」と他の実装と比べてよいだけでなく一定有用そうなのも興味深い。
- Exploring Expert Failures Improves LLM Agent Tuning [76.3]
本稿では,失敗した専門家の軌道から有益な行動を識別する専門的失敗の探索(EEF)を提案する。 EEFは、未解決のいくつかのサブタスクをうまく解決し、エージェントチューニング性能を改善する。
論文 参考訳(メタデータ) (Thu, 17 Apr 2025 17:53:54 GMT)
- 「In this paper, we present EEF, a novel framework that learns beneficial actions from negative expert data while remaining robust against noise from suboptimal actions.」、WebShopと SciWorldベンチマークでSoTAを主張
- Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems [133.5]
大規模言語モデル(LLM)の出現は、人工知能の変革的シフトを触媒している。 これらのエージェントがAI研究と実践的応用をますます推進するにつれて、その設計、評価、継続的な改善は複雑で多面的な課題を呈している。 この調査は、モジュール化された脳にインスパイアされたアーキテクチャ内でインテリジェントエージェントをフレーミングする、包括的な概要を提供する。
論文 参考訳(メタデータ) (Mon, 31 Mar 2025 18:00:29 GMT)
- 「This survey provides a comprehensive overview, framing intelligent agents within a modular, brain-inspired architecture that integrates principles from cognitive science, neuroscience, and computational research.」という非常に包括的なサーベイ。
- リポジトリはGitHub – FoundationAgents/awesome-foundation-agents: About Awesome things towards foundation agents. Papers / Repos / Blogs / …
- PaperBench: Evaluating AI’s Ability to Replicate AI Research [3.5]
PaperBenchは、AIエージェントが最先端のAI研究を複製する能力を評価するベンチマークである。 エージェントは、スクラッチから20個のICML 2024 SpotlightとOralの文書を複製する必要がある。 PaperBenchには8,316の個別の段階的なタスクが含まれている。
論文 参考訳(メタデータ) (Wed, 02 Apr 2025 15:55:24 GMT)
- OpenAIによる「PaperBench, a benchmark evaluating the ability of AI agents to replicate state-of-the-art AI research.」の提案。
- リポジトリはGitHub – openai/preparedness: Releases from OpenAI Preparedness
- Inducing Programmatic Skills for Agentic Tasks [54.0]
本研究では,エージェントがプログラムベースのスキルをその場で誘導し,検証し,活用することで,エージェントの適応を可能にするエージェントスキル誘導(ASI)を提案する。 ASIは静的ベースラインエージェントとテキストスキルを23.5%、成功率11.3%で上回っている。
論文 参考訳(メタデータ) (Wed, 09 Apr 2025 12:25:37 GMT)
- 「We present ASI, namely agent skill induction (§2), that induces and applies programmatic skills along the process of solving user web navigation queries. More concretely, given a natural language (NL) query, the agent first generates an action trajectory attempting to solve the task using built-in, primitive actions such as click and scroll.」という感じでスキルの表現にプログラムコードを用いる手法の提案と有効性の検証。
- 曖昧さを含め、表現力・抽象化の方法などかなり異なる自然言語と形式言語の使い分けが重要なのかなーと思わなくもない。
- リポジトリはGitHub – zorazrw/agent-skill-induction: Agent Skill Induction: “Inducing Programmatic Skills for Agentic Tasks”