OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

  • OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.4]
    OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。 現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
    論文  参考訳(メタデータ)   (Wed, 30 Oct 2024 17:10:19 GMT)
  • GUIを対象としたFoundation Action Modelの提案、Anthropicの発表もあって盛り上がっている領域。性能は「although GPT-4o with OS-Atlas-Base as the grounding module still lags behind human performance, it significantly outperforms other grounding methods such as SeeClick and Set-of-Mark (SoM)」とのこと。
  • リポジトリはOS-Atlas Homepage

Survey of User Interface Design and Interaction Techniques in Generative AI Applications 

  • Survey of User Interface Design and Interaction Techniques in Generative AI Applications [79.6]
    我々は,デザイナやディベロッパの参照として使用できる,さまざまなユーザインタラクションパターンのコンペレーションを作ることを目指している。 また、生成AIアプリケーションの設計についてもっと学ぼうとする人たちの参入障壁を低くしようと努力しています。
    論文  参考訳(メタデータ)   (Mon, 28 Oct 2024 23:10:06 GMT)
  • 生成AIを使うアプリケーションのUIについてまとめたサーベイ
  • 珍しいサーベイ

NL2INTERFACE

  • NL2INTERFACE: Interactive Visualization Interface Generation from Natural Language Queries [19.4]
    NL2INTERFACEは自然言語クエリから対話型多視点インタフェースを生成する。 ユーザはインターフェイスと対話して、データを簡単に変換し、視覚化の結果を素早く見ることができる。
    論文  参考訳(メタデータ)   (Mon, 19 Sep 2022 08:31:50 GMT)
    • 自然言語でインタラクティブに操作可能な環境。内部的にはテキストをstructurally parameterized SQL(SPS) に変換しているとのこと。

(内部動作は異なると思うが)ACT-1: Transformer for Actions (adept.ai)のようにやりたい事を言葉で指示する方針は有望なのだろうか?