PC Agent: While You Sleep, AI Works — A Cognitive Journey into Digital World

  • PC Agent: While You Sleep, AI Works — A Cognitive Journey into Digital World [19.0]
    PC Agentは、人間の認知伝達を通じて、このビジョンに向けて重要なステップを示すAIシステムである。 この仮説を検証するために、我々は3つの重要な革新を紹介した。 PowerPointのプレゼンテーション作成における予備的な実験は、少量の高品質な認知データで複雑なデジタル作業機能を実現することができることを示している。
    論文  参考訳(メタデータ)   (Mon, 23 Dec 2024 14:02:12 GMT)
  • 「trained on just 133 cognitive trajectories, can handle sophisticated work scenarios involving up to 50 steps across multiple applications.」という手法の提案。非常に効率的な印象。「In conclusion, we presented a cognition transfer framework that efficiently guides AI to the digital world through three key components: PC Tracker for collecting human-computer interaction data, a two-stage post-processing for cognition completion, and a multi-agent system for computer task automation.」とあるが、社会実装の上ではPC Tracker周りでいろいろとトラブルが起きそう。この手の操作データは誰に所属するべきなんだろう。
  • リポジトリはPC Agent: While You Sleep, AI Works – A Cognitive Journey into Digital World

GUI Agents: A Survey

  • GUI Agents: A Survey [129.9]
    グラフィカルユーザインタフェース(GUI)エージェントは、人間とコンピュータのインタラクションを自動化するためのトランスフォーメーションアプローチとして登場した。 GUIエージェントの関心の高まりと基本的な重要性により、ベンチマーク、評価指標、アーキテクチャ、トレーニングメソッドを分類する総合的な調査を提供する。
    論文  参考訳(メタデータ)   (Wed, 18 Dec 2024 04:48:28 GMT)
  • GUIをつかうエージェントに関するサーベイ

Large Language Model-Brained GUI Agents: A Survey

  • Large Language Model-Brained GUI Agents: A Survey [43.2]
    マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。 彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。 これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
    論文  参考訳(メタデータ)   (Wed, 27 Nov 2024 12:13:39 GMT)
  • GUI Agents with Foundation Models: A Comprehensive Survey – arXiv最新論文の紹介ににたサーベイだが、こちらはMicrosoftの研究者が筆頭著者。

GUI Agents with Foundation Models: A Comprehensive Survey

  • GUI Agents with Foundation Models: A Comprehensive Survey [53.0]
    この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。 データ、フレームワーク、アプリケーションにおける重要なイノベーションを強調します。 本稿では, (M)LLM ベースの GUI エージェントの分野におけるさらなる発展を期待する。
    論文  参考訳(メタデータ)   (Thu, 07 Nov 2024 17:28:10 GMT)
  • MLLMベースのGUIエージェントのサーベイ
  • 研究が進んでいると思ったらサーベイが発表されるスピード感がこの分野の現状を表していると思う。

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

  • OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.4]
    OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。 現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
    論文  参考訳(メタデータ)   (Wed, 30 Oct 2024 17:10:19 GMT)
  • GUIを対象としたFoundation Action Modelの提案、Anthropicの発表もあって盛り上がっている領域。性能は「although GPT-4o with OS-Atlas-Base as the grounding module still lags behind human performance, it significantly outperforms other grounding methods such as SeeClick and Set-of-Mark (SoM)」とのこと。
  • リポジトリはOS-Atlas Homepage

Agent S: An Open Agentic Framework that Uses Computers Like a Human 

  • Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.2]
    我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。 Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
    論文  参考訳(メタデータ)   (Thu, 10 Oct 2024 17:43:51 GMT)
  • 人が操作するようにコンピュータを操作するエージェントフレームワークの提案
  • リポジトリはGitHub – simular-ai/Agent-S: Official codebase for Agent S, a open agentic framework that uses computers like a human

OS-COPILOT/FRIDAY (Fully Responsive Intelligence, Devoted to Assisting You)とUFO(UI-Focused)

コンピュータ操作を含むエージェントに関する論文が2つ出ていた。LLMを用いた自律エージェント系の研究が非常に盛ん。

  • OS-Copilot: Towards Generalist Computer Agents with Self-Improvement [48.3]
    オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。 我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。 一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
    論文  参考訳(メタデータ)   (Mon, 12 Feb 2024 07:29:22 GMT)
  • OS操作のためのフレームワークと自己改善型エージェントFRIDAYの提案。GAIA: A Benchmark for General AI Assistants – arXiv最新論文の紹介 (devneko.jp)のスコアはGPT-4 PluginsやAuto GPT-4を大きく上回る。
  • リポジトリはOS-Copilot: Towards Generalist Computer Agents with Self-Improvement
  • UFO: A UI-Focused Agent for Windows OS Interaction [42.0]
    われわれは,Windows OS上のアプリケーションに適したユーザ要求を満たす,革新的なUIフォーカスエージェントであるUFOを紹介した。 UFOはデュアルエージェントフレームワークを使用して、グラフィカルユーザインタフェース(GUI)を注意深く観察し、分析し、Windowsアプリケーションの情報を制御する。 我々は9つの人気のあるWindowsアプリケーションでUFOのテストを行い、ユーザの日々の使用を反映したさまざまなシナリオを網羅した。
    論文  参考訳(メタデータ)   (Thu, 8 Feb 2024 15:40:35 GMT)
  • Microsoftによるエージェント。GPT-Visionを活用する方式。
  • リポジトリはmicrosoft/UFO: A UI-Focused Agent for Windows OS Interaction. (github.com)

CogAgent

  • CogAgent: A Visual Language Model for GUI Agents [40.2]
    GUI理解とナビゲーションに特化した視覚言語モデル(VLM)であるCogAgentを紹介する。 低解像度画像エンコーダと高解像度画像エンコーダの両方を利用することで、CogAgentは1120*1120の解像度で入力をサポートする。 CogAgentは、VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、 infoVQA、DocVQA、MM-Vet、POPEを含む5つの一般的なVQAベンチマークで、技SoTAを達成している。
    論文  参考訳(メタデータ)   (Thu, 14 Dec 2023 13:20:57 GMT)
  • GUIを理解し実行するためのAgent、複数のVQAベンチマークでもSoTAを主張
  • リポジトリはGitHub – THUDM/CogVLM: a state-of-the-art-level open visual language model | 多模态预训练模型

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

  • GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation [167.6]
    MM-Navigator(MM-Navigator)は、スマートフォンのGUIナビゲーションタスク用のGPT-4Vベースのエージェントである。 MM-Navigatorは、スマートフォンの画面と人間として対話し、指示を満たすためのその後の行動を決定することができる。
    論文  参考訳(メタデータ)   (Mon, 13 Nov 2023 18:53:37 GMT)
  • スマホのナビゲーションを行うエージェント。GPT-4Vを使ってマルチモーダルに対応。FinetunedなLlama2、PaLM 2と比べても高い性能。
  • リポジトリはGitHub – zzxslp/MM-Navigator