OdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflows

  • OdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflows [10.3]
    大規模言語モデル(LLM)は、複雑で長期の推論を必要とする現実世界のアプリケーションにますます多くデプロイされている。 OdysseyBenchは、様々なオフィスアプリケーションにわたる長期にわたってLLMエージェントを評価するための包括的なベンチマークである。 スケーラブルなベンチマーク作成を実現するために,長期ワークフローベンチマークの自動生成を行うマルチエージェントフレームワークであるHomerAgentsを提案する。
    論文  参考訳(メタデータ)   (Tue, 12 Aug 2025 17:53:03 GMT)
  • 「We introduce OdysseyBench, a comprehensive benchmark for evaluating agents on long- horizon workflows across multiple office applications, consisting of OdysseyBench+ and OdysseyBench-Neo. 」、「• We propose HOMERAGENTS, a multi-agent framework that automates the generation of long-horizon tasks, enabling scalable and diverse benchmark creation.」とベンチマーク作成フレームワークを含むベンチマークの提案。
  • リポジトリはhttps://github.com/microsoft/OdysseyBenchとのことだが現時点では404

OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use 

  • OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use [101.6]
    アイアンマンの架空のJ.A.R.V.I.Sほど有能で多用途なAIアシスタントを作る夢は、長い間想像力に恵まれてきた。 マルチモーダル(multi-modal)な大きな言語モデル((M)LLMs)の進化により、この夢は現実に近づいている。 本調査は,OSエージェント研究の現状を整理し,学術調査と産業開発の両方の指針を提供する。
    論文  参考訳(メタデータ)   (Wed, 06 Aug 2025 14:33:45 GMT)
  • 「The dream to create AI assistants as capable and versatile as the fictional J.A.R.V.I.S from Iron Man has long captivated imaginations. With the evolution of (multimodal) large language models ((M)LLMs), this dream is closer to reality, as (M)LLM-based Agents using computing devices (e g , computers and mobile phones) by operating within the environments and interfaces (e g , Graphical User Interface (GUI)) provided by operating systems (OS) to automate tasks have significantly advanced.」から始まるサーベイ。
  • リポジトリはOS Agents: A Survey on MLLM-based Agents for Computer, Phone and Browser Use (ACL 2025)

CoAct-1: Computer-using Agents with Coding as Actions

  • CoAct-1: Computer-using Agents with Coding as Actions [95.0]
    CoAct-1はGUIベースの制御と直接プログラム実行を組み合わせた新しいマルチエージェントシステムである。 我々は、CoAct-1が60.76%の最先端の成功率を達成したOSWorldベンチマークで、我々のシステムを評価した。
    論文  参考訳(メタデータ)   (Tue, 05 Aug 2025 21:33:36 GMT)
  • 「CoAct-1 features an Orchestrator that dynamically delegates subtasks to either a conventional GUI Operator or a specialized Programmer agent, which can write and execute Python or Bash scripts. This hybrid approach allows the agent to bypass inefficient GUI action sequences for tasks like file management and data processing, while still leveraging visual interaction when necessary.」とコード生成をうまく使うGUIエージェントの提案。OS WorldでSoTAを主張。
  • プロジェクトサイトはCoAct-1

MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents

Phi-Ground Tech Report: Advancing Perception in GUI Grounding

  • Phi-Ground Tech Report: Advancing Perception in GUI Grounding [55.4]
    マルチモーダル推論モデルの進展により、コンピュータ使用エージェント(CUA)が実現しつつあります。CUAの成功にはGUIグラウンディングが重要で、現行のモデルの精度は65%未満と低く、実用化には課題があります。本研究では、Phi-Groundモデルを開発し、10B未満のパラメータを持つモデルにおいて全てのベンチマークで最先端の性能を達成し、CUAの実用化に向けた詳細な分析を提供しました。
    論文  参考訳(メタデータ)   (Thu, 31 Jul 2025 17:59:09 GMT)
  • GUIエージェント開発において課題となっているGUI groundingに対するモデル提案。データ構築の方法など非常に参考になる。
  • リポジトリはPhi-Ground Tech Report

ChatGPT Agent, Voxtral

先週の大きなニュースはChatGPT Agentの登場だった。Deep Research + OpenAI operator + Code Interpreter のようなものでいわゆるGUIエージェント。WebArenaのスコア向上が小さめで、OS Worldの結果が報告されていない点が気になるところ。GTA1: GUI Test-time Scaling Agent  – arXiv最新論文の紹介ではVision部分のチューニングを行っていたが、このような部分に課題があるのだろうか。

Mixtralからはマルチモーダル音声チャットモデルが公開されている(Voxtral | Mistral AI)。高性能かつApache 2.0 licenseでの公開は非常にありがたい。

GTA1: GUI Test-time Scaling Agent 

  • GTA1: GUI Test-time Scaling Agent [77.6]
    本稿ではGUIテストタイムスケーリングエージェントGTA1の2つの課題について検討する。 まず、最も適切なアクション提案を選択するために、テスト時間スケーリング手法を提案する。 第2に、選択したアクション提案を対応する視覚要素にグラウンドする際の精度の向上を実現するモデルを提案する。
    論文  参考訳(メタデータ)   (Tue, 08 Jul 2025 08:52:18 GMT)
  • Salesforce researchによるGUIエージェントの提案、OSWorldなどでSoTAを主張
  • 「i) test-time scaling for planning, which introduces a scaling strategy during inference to effectively handle planning ambiguity in complex GUI environments; ii) grounding model training, filtering out training samples with annotation errors to improve supervision quality, and optimizing a grounding model using RL (e g , GRPO) to directly predict coordinates without relying on any intermediate “thinking” (i. e., CoT reasoning) on the derived data.」という工夫を行っている。UI-TARS-1.5-7B, Qwen2.5-VL-32B-Instruct, Qwen2.5-VL-72B-InstructをPost Trainingしているが、やはりこの手のチューニングを行わないと厳しいタスクなのだろうか・・・
  • リポジトリはGitHub – Yan98/GTA1

GUIPilot: A Consistency-based Mobile GUI Testing Approach for Detecting Application-specific Bugs

Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills

  • Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills [57.7]
    本稿では,知識不足の問題に対処するため,階層型マルチモーダルスキル(HMS)モジュールを提案する。 トラジェクトリを実行スキル、コアスキル、そして最終的にはメタスキルに徐々に抽象化し、長期のタスク計画のための階層的な知識構造を提供する。 ドメインギャップを埋めるために,Skill-Augmented Monte Carlo Tree Search (SA-MCTS)アルゴリズムを提案する。
    論文  参考訳(メタデータ)   (Thu, 12 Jun 2025 06:21:19 GMT)
  • 「Hierarchical Multimodal Skills (HMS) module for long-horizon planning」、「A Skill-Augmented Monte Carlo Tree Search (SA-MCTS) algorithm for knowledge exploration in online settings.」をキーとするcross-platform, plug-and-play GUI agent、Mirage-1の提案
  • プロジェクトサイトはMirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills

GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent

  • GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent [66.3]
    MLLMはUIコンポーネントの誤解釈と古い知識の2つの大きな問題に悩まされている。 本稿では,2つの基本的なメカニズムを組み込んだトレーニング不要なGUIエージェントであるGUI-Explorerを提案する。 SPA-Benchでは53.7%、AndroidWorldでは47.4%のタスク成功率で、GUI-ExplorerはSOTAエージェントよりも大幅に改善されている。
    論文  参考訳(メタデータ)   (Thu, 22 May 2025 16:01:06 GMT)
  • 「(a) Automatically constructing function-aware exploration goals by analyzing structural information from the GUI environment, followed by systematic exploration to collect diverse function- aware trajectories. (b) Extracting effective screen-operation logic through unsupervised analysis of structured interaction triples (observation, action, outcome), enabling unsupervised knowledge extraction. (c) Performing visual-semantic retrieval between screen visuals and the knowledge vector store to construct Dynamic Guidance achieves dual objectives: preventing UI misinterpretation and ensuring action proposals align with actual UI states.」というメカニズムの提案。SPA-Bench、AndroidWorldのスコアを改善。
  • リポジトリはGitHub – JiuTian-VL/GUI-explorer: [ACL 2025] GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent