Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection 

  • Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.9]
    Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。 本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
    論文  参考訳(メタデータ)   (Wed, 02 Apr 2025 17:40:47 GMT)
  • 「In this work, we proposed IAD : an iterative decoding approach for AI agent alignment with black box access which highlights the effectiveness of iterative decoding (guided by a verifier) for these complex agentic tasks.」と(よくある)API利用を前提としたエージェントのパフォーマンス改善手法の提案。

Large Language Model Agent: A Survey on Methodology, Applications and Challenges

  • Large Language Model Agent: A Survey on Methodology, Applications and Challenges [88.3]
    大きな言語モデル(LLM)エージェントは、目標駆動の振る舞いと動的適応能力を持ち、人工知能への重要な経路を示す可能性がある。 本調査は, LLMエージェントシステムを方法論中心の分類法により体系的に分解する。 私たちの作業は、エージェントの構築方法、コラボレーション方法、時間の経過とともにどのように進化するか、という、統一されたアーキテクチャの視点を提供します。
    論文  参考訳(メタデータ)   (Thu, 27 Mar 2025 12:50:17 GMT)
  • LLMによって急速に広がるエージェントのサーベイ。「Despite remarkable progress, significant challenges remain, including scalability limitations, memory constraints, reliability concerns, and inadequate evaluation frameworks.」
  • リポジトリはGitHub – luo-junyu/Awesome-Agent-Papers: Large Language Model Agent: A Survey on Methodology, Applications and Challenges

Agent S2, Devin 2, Amazon Nova Act, An Illusion of Progress? Assessing the Current State of Web Agents 

以前取り上げたAgent Sのバージョン2が出ていた。半年でOS Worldのスコアが20.5から27.0(15Step)に上がっており、ベースモデル(LLM)の性能向上もあるだろうが着実な進化を感じる。Introducing Amazon Nova Act | Amazon AGI LabsCognition | Devin 2.0など発表が相次ぎGUI Agent的なLLM based Agentは流行している。

個人のサイトでもfugumt.comはFugu-MT:AgentでAgent化を行っている(OpenManusを使ったサイトへのエージェント組み込み | ぷるーふおぶこんせぷと)。容易にサイトの機能を拡張できることから、今後このようなサイトが増えてくるのではないかと思う(*1)。

そのような中「An Illusion of Progress? Assessing the Current State of Web Agents 」では「Surprisingly, many recent agents, except for Operator, do not outperform the simple SeeAct agent (Zheng et al , 2024) released in early 2024.」とも指摘されている。同論文にもある通り、正しい評価データセットやフレームワークが求められている。

  • An Illusion of Progress? Assessing the Current State of Web Agents [49.8]
    我々は,Webエージェントの現状を包括的かつ厳密に評価する。 結果は、現在のエージェントの能力の非常に異なる描写を描いており、以前報告された結果に過度に最適化されていることを示唆している。 オンライン評価ベンチマークであるOnline-Mind2Webを紹介した。
    論文  参考訳(メタデータ)   (Wed, 02 Apr 2025 05:51:29 GMT)
  • WEBエージェントのためのベンチマーク。「Many recent agents, except for Operator (OpenAI, 2025), underperform the simple SeeAct agent (Zheng et al , 2024) released in early 2024. Even Operator only achieves a success rate of 61%, showing substantial room for improvement.」とのこと。
  • リポジトリはGitHub – OSU-NLP-Group/Online-Mind2Web

(*1) 動きが面白いのでOpenManusをつかって無理やり対応している。今のところ実用性は疑問だが、近いうちにバージョンアップ予定。

Survey on Evaluation of LLM-based Agents 

  • Survey on Evaluation of LLM-based Agents [28.9]
    LLMベースのエージェントの出現は、AIのパラダイムシフトを表している。 本稿では,これらのエージェントに対する評価手法に関する総合的な調査を初めて実施する。
    論文  参考訳(メタデータ)   (Thu, 20 Mar 2025 17:59:23 GMT)
  • 「We systematically analyze evaluation benchmarks and frameworks across four critical dimensions: (1) fundamental agent capabilities, including planning, tool use, self-reflection, and memory; (2) applicationspecific benchmarks for web, software engineering, scientific, and conversational agents; (3) benchmarks for generalist agents; and (4) frameworks for evaluating agents.」とエージェントの評価に関するサーベイ

A Survey on Trustworthy LLM Agents: Threats and Countermeasures

  • A Survey on Trustworthy LLM Agents: Threats and Countermeasures [67.2]
    大規模言語モデル(LLM)とマルチエージェントシステム(MAS)はLLMエコシステムの機能を大幅に拡張した。 本稿では,エージェントの信頼性に関する総合的研究であるTrustAgentフレームワークを提案する。
    論文  参考訳(メタデータ)   (Wed, 12 Mar 2025 08:42:05 GMT)
  • LLM based Agentを intrinsic (brain, memory, and tool) とextrinsic (user, agent, and environment)な側面から見た信頼性のサーベイ 
  • リポジトリはGitHub – Ymm-cll/TrustAgent

Can A Society of Generative Agents Simulate Human Behavior and Inform Public Health Policy? A Case Study on Vaccine Hesitancy

  • Can A Society of Generative Agents Simulate Human Behavior and Inform Public Health Policy? A Case Study on Vaccine Hesitancy [38.6]
    大規模言語モデル(LLM)を利用した100個の生成エージェントを備えたVacSimフレームワークについて紹介する。 VacSim ワクチンは,1) 人口統計データに基づくエージェントの集団のインスタンス化,2) ソーシャル・ネットワークを介してエージェントを接続し,社会的ダイナミクスと疾患関連情報の関数としてワクチンの態度をモデル化すること,3) ワクチンの根絶を緩和するための様々な公衆衛生介入の設計と評価を行う。
    論文  参考訳(メタデータ)   (Wed, 12 Mar 2025 02:54:15 GMT)
  • LLM based Agentsで社会(ワクチンへの態度)をシミュレーションできるか、という研究。「Our results demonstrate that certain LLMs, such as Qwen-2.5-7B-Instruct and Llama-3-8B-Instruct, capture nuanced interactions among agent demographics, social influences, and policy scenarios. These models successfully pass both global and local consistency checks, suggesting that generative agents could become valuable tools for exploring how policy interventions might shape public attitudes.」、「Models such as Claude-3.5-Haiku and Phi-3.5-mini-instruct reveal inconsistencies that compromise simulation desiderata.」と解釈は悩ましい。このモデルサイズでまっとうな反応ができるのか疑問(Leakの影響が懸念される)だが、リアルなシミュレーションが可能なら面白い結果。
  • リポジトリはGitHub – abehou/VacSim: Public code repository for VacSim: A generative multi-agent simulation for vaccine hesitancy.とのこと

PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC 

  • PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.8]
    本稿では,PC-Agentという階層型エージェントフレームワークを提案する。 認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。 意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
    論文  参考訳(メタデータ)   (Thu, 20 Feb 2025 05:41:55 GMT)
  • (1) Active Perception Module、(2) Hierarchical Multi-agent Collaboration、(3) Reflection-based Dynamic Decision-makingを特徴とするフレームワークの提案。評価のためのベンチマークも構築。UFOやAgent-Sに比べ優位性を主張。
  • Manger Agent 、Progress Agent 、Decision Agent 、Reflection Agent のマルチエージェント構成。

Towards an AI co-scientist, Grok-3, Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling

AIの共同科学者は、新しい独自の知識を発見し、実証可能な新しい研究仮説と提案を定式化し、事前の証拠に基づいて科学者が提供する研究目標とガイダンスに整合させることを意図している。システムの設計には、テスト時間計算のスケーリングによって加速される仮説生成に対する生成、議論、進化のアプローチが組み込まれている。主な貢献は、(1)フレキシブルな計算スケーリングのための非同期タスク実行フレームワークを備えたマルチエージェントアーキテクチャ、(2)自己改善仮説生成のためのトーナトーナメント進化プロセスである。本システムは, 臨床応用濃度で腫瘍抑制をin vitroで示す急性骨髄性白血病の候補を含む, 有望なバリデーションの候補を提案する。
Google Research launches new scientific research tool, AI co-scientist ai_coscientist.pdf

GoogleによるAIを用いた科学者支援の提案、「Its ability to generate novel testable hypotheses across diverse scientific and biomedical domains, some supported by experimental findings, along with the capacity for recursive self-improvement with increasing compute, demonstrates the promise of meaningfully accelerating scientists’ endeavours to resolve grand challenges in human health, medicine and science.」と主張。パイプライン構成(とマルチエージェントな構成)も凝ったものになっている。Google AI co-scientist Trusted Tester Program で申し込みが可能とのこと。

xAIによるGrok-3やDeepSearchの発表(Grok 3 Beta — The Age of Reasoning Agents)やNVIDIAのAutomating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling | NVIDIA Technical Blogも調査などのタスクにAIが組み込まれていく・必須のものになっていくことを示唆しているように思う。オープンな取り組みを含め様々なトライが行われていて今後が楽しみ。

Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks 

  • Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.8]
    最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。 本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。 我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
    論文  参考訳(メタデータ)   (Wed, 12 Feb 2025 17:19:36 GMT)
  • LLM based Agentsに対する攻撃手法の提案、「In this paper, we argue that LLM-powered agents, especially those that have the ability to communicate with the outside world via web access or external-facing databases, already pose a massive danger to their users which has largely been overlooked by the ML security and privacy community.」とのこと。Agentに対するPhisingが意外とできそうなことに若干驚き。Redditが信頼できるかというと見解は様々だと思うが、現状のAgentへの攻撃有効性が高いというのが意外だった。論文中にもある通り、自動化が進むゆえに開発側の対応体制は重要に思う。

AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society

  • AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society [32.8]
    本稿では,現実的な社会環境を統合した大規模社会シミュレータであるAgentSocietyを提案する。 提案したシミュレーターに基づいて,500万件のインタラクションをシミュレートし,10万件以上のエージェントの社会生活を生成する。 偏極、炎症性メッセージの普及、普遍的ベーシック・インカム・ポリシーの効果、ハリケーンなどの外部ショックの影響の4つに焦点をあてる。
    論文  参考訳(メタデータ)   (Wed, 12 Feb 2025 15:27:07 GMT)
  • LLM based Agentsの大規模シミュレーション、システムアーキテクチャは割と固めの構成に見えるが10Kを超える規模にスケールできそうなのは凄い。
  • 「AgentSociety serves as a powerful tool for predicting and mitigating social crises, tracking the spread of extreme ideologies, and analyzing group polarization, while also testing potential interventions for crisis management.」と主張。このアプローチがどの程度うまくいくのか楽しみでもあり、怖くもありという印象。