UI-TARS: Pioneering Automated GUI Interaction with Native Agents

  • UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.2]
    本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。 OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
    論文  参考訳(メタデータ)   (Tue, 21 Jan 2025 17:48:10 GMT)
  • GUIエージェント、UI-TARSの提案、様々なタスクでSOTAを主張。「UI-TARS incorporates several key innovations: (1) Enhanced Perception: leveraging a large-scale dataset of GUI screenshots for contextaware understanding of UI elements and precise captioning; (2) Unified Action Modeling, which standardizes actions into a unified space across platforms and achieves precise grounding and interaction through large-scale action traces; (3) System-2 Reasoning, which incorporates deliberate reasoning into multi-step decision making, involving multiple reasoning patterns such as task decomposition, reflection thinking, milestone recognition, etc. (4) Iterative Training with Reflective Online Traces, which addresses the data bottleneck by automatically collecting, filtering, and reflectively refining new interaction traces on hundreds of virtual machines.」とやれることは盛り込んだ感がすごい。
  • リポジトリはGitHub – bytedance/UI-TARS

OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

  • OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.4]
    グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。 事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。 次に、生成された軌道の品質を保証するために軌道報酬モデルを用いる。
    論文  参考訳(メタデータ)   (Fri, 27 Dec 2024 16:21:58 GMT)
  • 急速に研究が進むGUIエージェント開発のための合成データ構築手法の提案、「OS-Genesis begins by exploring the functionality of GUI environments through traversing interactive UI elements with actions (e g , CLICK). This forms the basis for reverse task synthesis, where observed states and actions are retroactively transformed into low-level instructions. These low-level instructions are then derived into high-level instructions, which can seed the collection of GUI trajectories.」と基礎データを構築、Trajectory Reward Modelで品質を保証。「Built upon GPT-4o, TRM aims to perform a graded evaluation with a reward score R ∈ [1, 5] to assist in sampling for training.」とのこと・・・。
  • リポジトリはOS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

GUI Agents: A Survey

  • GUI Agents: A Survey [129.9]
    グラフィカルユーザインタフェース(GUI)エージェントは、人間とコンピュータのインタラクションを自動化するためのトランスフォーメーションアプローチとして登場した。 GUIエージェントの関心の高まりと基本的な重要性により、ベンチマーク、評価指標、アーキテクチャ、トレーニングメソッドを分類する総合的な調査を提供する。
    論文  参考訳(メタデータ)   (Wed, 18 Dec 2024 04:48:28 GMT)
  • GUIをつかうエージェントに関するサーベイ

Large Language Model-Brained GUI Agents: A Survey

  • Large Language Model-Brained GUI Agents: A Survey [43.2]
    マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。 彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。 これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
    論文  参考訳(メタデータ)   (Wed, 27 Nov 2024 12:13:39 GMT)
  • GUI Agents with Foundation Models: A Comprehensive Survey – arXiv最新論文の紹介ににたサーベイだが、こちらはMicrosoftの研究者が筆頭著者。

GUI Agents with Foundation Models: A Comprehensive Survey

  • GUI Agents with Foundation Models: A Comprehensive Survey [53.0]
    この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。 データ、フレームワーク、アプリケーションにおける重要なイノベーションを強調します。 本稿では, (M)LLM ベースの GUI エージェントの分野におけるさらなる発展を期待する。
    論文  参考訳(メタデータ)   (Thu, 07 Nov 2024 17:28:10 GMT)
  • MLLMベースのGUIエージェントのサーベイ
  • 研究が進んでいると思ったらサーベイが発表されるスピード感がこの分野の現状を表していると思う。

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

  • OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.4]
    OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。 現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
    論文  参考訳(メタデータ)   (Wed, 30 Oct 2024 17:10:19 GMT)
  • GUIを対象としたFoundation Action Modelの提案、Anthropicの発表もあって盛り上がっている領域。性能は「although GPT-4o with OS-Atlas-Base as the grounding module still lags behind human performance, it significantly outperforms other grounding methods such as SeeClick and Set-of-Mark (SoM)」とのこと。
  • リポジトリはOS-Atlas Homepage

OS-COPILOT/FRIDAY (Fully Responsive Intelligence, Devoted to Assisting You)とUFO(UI-Focused)

コンピュータ操作を含むエージェントに関する論文が2つ出ていた。LLMを用いた自律エージェント系の研究が非常に盛ん。

  • OS-Copilot: Towards Generalist Computer Agents with Self-Improvement [48.3]
    オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。 我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。 一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
    論文  参考訳(メタデータ)   (Mon, 12 Feb 2024 07:29:22 GMT)
  • OS操作のためのフレームワークと自己改善型エージェントFRIDAYの提案。GAIA: A Benchmark for General AI Assistants – arXiv最新論文の紹介 (devneko.jp)のスコアはGPT-4 PluginsやAuto GPT-4を大きく上回る。
  • リポジトリはOS-Copilot: Towards Generalist Computer Agents with Self-Improvement
  • UFO: A UI-Focused Agent for Windows OS Interaction [42.0]
    われわれは,Windows OS上のアプリケーションに適したユーザ要求を満たす,革新的なUIフォーカスエージェントであるUFOを紹介した。 UFOはデュアルエージェントフレームワークを使用して、グラフィカルユーザインタフェース(GUI)を注意深く観察し、分析し、Windowsアプリケーションの情報を制御する。 我々は9つの人気のあるWindowsアプリケーションでUFOのテストを行い、ユーザの日々の使用を反映したさまざまなシナリオを網羅した。
    論文  参考訳(メタデータ)   (Thu, 8 Feb 2024 15:40:35 GMT)
  • Microsoftによるエージェント。GPT-Visionを活用する方式。
  • リポジトリはmicrosoft/UFO: A UI-Focused Agent for Windows OS Interaction. (github.com)