- A Survey on Trustworthy LLM Agents: Threats and Countermeasures [67.2]
大規模言語モデル(LLM)とマルチエージェントシステム(MAS)はLLMエコシステムの機能を大幅に拡張した。 本稿では,エージェントの信頼性に関する総合的研究であるTrustAgentフレームワークを提案する。
論文 参考訳(メタデータ) (Wed, 12 Mar 2025 08:42:05 GMT) - LLM based Agentを intrinsic (brain, memory, and tool) とextrinsic (user, agent, and environment)な側面から見た信頼性のサーベイ
- リポジトリはGitHub – Ymm-cll/TrustAgent
Can A Society of Generative Agents Simulate Human Behavior and Inform Public Health Policy? A Case Study on Vaccine Hesitancy
- Can A Society of Generative Agents Simulate Human Behavior and Inform Public Health Policy? A Case Study on Vaccine Hesitancy [38.6]
大規模言語モデル(LLM)を利用した100個の生成エージェントを備えたVacSimフレームワークについて紹介する。 VacSim ワクチンは,1) 人口統計データに基づくエージェントの集団のインスタンス化,2) ソーシャル・ネットワークを介してエージェントを接続し,社会的ダイナミクスと疾患関連情報の関数としてワクチンの態度をモデル化すること,3) ワクチンの根絶を緩和するための様々な公衆衛生介入の設計と評価を行う。
論文 参考訳(メタデータ) (Wed, 12 Mar 2025 02:54:15 GMT) - LLM based Agentsで社会(ワクチンへの態度)をシミュレーションできるか、という研究。「Our results demonstrate that certain LLMs, such as Qwen-2.5-7B-Instruct and Llama-3-8B-Instruct, capture nuanced interactions among agent demographics, social influences, and policy scenarios. These models successfully pass both global and local consistency checks, suggesting that generative agents could become valuable tools for exploring how policy interventions might shape public attitudes.」、「Models such as Claude-3.5-Haiku and Phi-3.5-mini-instruct reveal inconsistencies that compromise simulation desiderata.」と解釈は悩ましい。このモデルサイズでまっとうな反応ができるのか疑問(Leakの影響が懸念される)だが、リアルなシミュレーションが可能なら面白い結果。
- リポジトリはGitHub – abehou/VacSim: Public code repository for VacSim: A generative multi-agent simulation for vaccine hesitancy.とのこと
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
- PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.8]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。 認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。 意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文 参考訳(メタデータ) (Thu, 20 Feb 2025 05:41:55 GMT) - (1) Active Perception Module、(2) Hierarchical Multi-agent Collaboration、(3) Reflection-based Dynamic Decision-makingを特徴とするフレームワークの提案。評価のためのベンチマークも構築。UFOやAgent-Sに比べ優位性を主張。
- Manger Agent 、Progress Agent 、Decision Agent 、Reflection Agent のマルチエージェント構成。
Towards an AI co-scientist, Grok-3, Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling
AIの共同科学者は、新しい独自の知識を発見し、実証可能な新しい研究仮説と提案を定式化し、事前の証拠に基づいて科学者が提供する研究目標とガイダンスに整合させることを意図している。システムの設計には、テスト時間計算のスケーリングによって加速される仮説生成に対する生成、議論、進化のアプローチが組み込まれている。主な貢献は、(1)フレキシブルな計算スケーリングのための非同期タスク実行フレームワークを備えたマルチエージェントアーキテクチャ、(2)自己改善仮説生成のためのトーナトーナメント進化プロセスである。本システムは, 臨床応用濃度で腫瘍抑制をin vitroで示す急性骨髄性白血病の候補を含む, 有望なバリデーションの候補を提案する。
Google Research launches new scientific research tool, AI co-scientist ai_coscientist.pdf
GoogleによるAIを用いた科学者支援の提案、「Its ability to generate novel testable hypotheses across diverse scientific and biomedical domains, some supported by experimental findings, along with the capacity for recursive self-improvement with increasing compute, demonstrates the promise of meaningfully accelerating scientists’ endeavours to resolve grand challenges in human health, medicine and science.」と主張。パイプライン構成(とマルチエージェントな構成)も凝ったものになっている。Google AI co-scientist Trusted Tester Program で申し込みが可能とのこと。
xAIによるGrok-3やDeepSearchの発表(Grok 3 Beta — The Age of Reasoning Agents)やNVIDIAのAutomating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling | NVIDIA Technical Blogも調査などのタスクにAIが組み込まれていく・必須のものになっていくことを示唆しているように思う。オープンな取り組みを含め様々なトライが行われていて今後が楽しみ。
Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks
- Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.8]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。 本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。 我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (Wed, 12 Feb 2025 17:19:36 GMT) - LLM based Agentsに対する攻撃手法の提案、「In this paper, we argue that LLM-powered agents, especially those that have the ability to communicate with the outside world via web access or external-facing databases, already pose a massive danger to their users which has largely been overlooked by the ML security and privacy community.」とのこと。Agentに対するPhisingが意外とできそうなことに若干驚き。Redditが信頼できるかというと見解は様々だと思うが、現状のAgentへの攻撃有効性が高いというのが意外だった。論文中にもある通り、自動化が進むゆえに開発側の対応体制は重要に思う。
AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society
- AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society [32.8]
本稿では,現実的な社会環境を統合した大規模社会シミュレータであるAgentSocietyを提案する。 提案したシミュレーターに基づいて,500万件のインタラクションをシミュレートし,10万件以上のエージェントの社会生活を生成する。 偏極、炎症性メッセージの普及、普遍的ベーシック・インカム・ポリシーの効果、ハリケーンなどの外部ショックの影響の4つに焦点をあてる。
論文 参考訳(メタデータ) (Wed, 12 Feb 2025 15:27:07 GMT) - LLM based Agentsの大規模シミュレーション、システムアーキテクチャは割と固めの構成に見えるが10Kを超える規模にスケールできそうなのは凄い。
- 「AgentSociety serves as a powerful tool for predicting and mitigating social crises, tracking the spread of extreme ideologies, and analyzing group polarization, while also testing potential interventions for crisis management.」と主張。このアプローチがどの程度うまくいくのか楽しみでもあり、怖くもありという印象。
Human Decision-making is Susceptible to AI-driven Manipulation
- Human Decision-making is Susceptible to AI-driven Manipulation [71.2]
AIシステムは、ユーザの認知バイアスと感情的な脆弱性を利用して、有害な結果に向けてそれらを操縦する。 本研究では、経済的・感情的な意思決定の文脈におけるこのような操作に対する人間の感受性について検討した。
論文 参考訳(メタデータ) (Tue, 11 Feb 2025 15:56:22 GMT) - 「Our randomized control trial with 233 participants demonstrated that human decision-making is highly susceptible to AI-driven manipulation, with participants significantly shifting preferences toward harmful options and away from beneficial choices when interacting with manipulative AI agents.」という衝撃的な結果。「strategy-enhanced manipulative agent (SEMA) employing
- established psychological tactics to reach its hidden objectives.」の有効性がいまいちだった理由はそんなものを使わなくてもAIが強力だったとするんだろうか。
- 今後、AIへの依存度が高まっていくこと、AIの性能自体が上がっていくことを考えると怖い結果。規制の必要性を主張しているがそれだけで十分とは思えない。。。
Wizard of Shopping: Target-Oriented E-commerce Dialogue Generation with Decision Tree Branching
- Wizard of Shopping: Target-Oriented E-commerce Dialogue Generation with Decision Tree Branching [39.5]
会話型商品検索(CPS)の目的は、インテリジェントなチャットベースのショッピングアシスタントを開発することである。 本稿では,大規模言語モデル(LLM)を利用して,現実的で自然な会話を生成する新しい手法TRACERを提案する。
論文 参考訳(メタデータ) (Mon, 03 Feb 2025 00:27:13 GMT) - 「We leverage decision tree to explore the vast product search space, and construct a dialogue plan that minimizes the number of search steps required to retrieve a relevant product.」という会話生成手法の提案
- 直接生成せずに木構造を介すというアプローチはCondor: Enhance LLM Alignment with Knowledge-Driven Data Synthesis and Refinement – arXiv最新論文の紹介に近いのだろうか。
CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation
- CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation [70.3]
CowPilotは、自律的および人間とエージェントの協調的なWebナビゲーションをサポートするフレームワークである。 エージェントが次のステップを提案することによって、人間が実行しなければならないステップの数を減らすと同時に、ユーザが一時停止、拒否、代替アクションを取ることができる。 CowPilotは、Webサイト間でのデータ収集とエージェント評価のための便利なツールとして機能する。
論文 参考訳(メタデータ) (Tue, 28 Jan 2025 00:56:53 GMT) - 人間とエージェントが協調することを前提としたフレームワークの提案。「We conducted case studies on five common websites and found that the human-agent collaborative mode achieves the highest success rate of 95% while requiring humans to perform only 15.2% of the total steps.」で現実的な効率化につながりそうな結果。(ではあるが、多くのタスクで完全自動化と協調的な自動化の意味は大きく違う点には注意が必要。)
- プロジェクトサイトはCowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation
UI-TARS: Pioneering Automated GUI Interaction with Native Agents
- UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.2]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。 OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (Tue, 21 Jan 2025 17:48:10 GMT) - GUIエージェント、UI-TARSの提案、様々なタスクでSOTAを主張。「UI-TARS incorporates several key innovations: (1) Enhanced Perception: leveraging a large-scale dataset of GUI screenshots for contextaware understanding of UI elements and precise captioning; (2) Unified Action Modeling, which standardizes actions into a unified space across platforms and achieves precise grounding and interaction through large-scale action traces; (3) System-2 Reasoning, which incorporates deliberate reasoning into multi-step decision making, involving multiple reasoning patterns such as task decomposition, reflection thinking, milestone recognition, etc. (4) Iterative Training with Reflective Online Traces, which addresses the data bottleneck by automatically collecting, filtering, and reflectively refining new interaction traces on hundreds of virtual machines.」とやれることは盛り込んだ感がすごい。
- リポジトリはGitHub – bytedance/UI-TARS