OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

  • OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.4]
    グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。 事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。 次に、生成された軌道の品質を保証するために軌道報酬モデルを用いる。
    論文  参考訳(メタデータ)   (Fri, 27 Dec 2024 16:21:58 GMT)
  • 急速に研究が進むGUIエージェント開発のための合成データ構築手法の提案、「OS-Genesis begins by exploring the functionality of GUI environments through traversing interactive UI elements with actions (e g , CLICK). This forms the basis for reverse task synthesis, where observed states and actions are retroactively transformed into low-level instructions. These low-level instructions are then derived into high-level instructions, which can seed the collection of GUI trajectories.」と基礎データを構築、Trajectory Reward Modelで品質を保証。「Built upon GPT-4o, TRM aims to perform a graded evaluation with a reward score R ∈ [1, 5] to assist in sampling for training.」とのこと・・・。
  • リポジトリはOS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

Extract Information from Hybrid Long Documents Leveraging LLMs: A Framework and Dataset

  • Extract Information from Hybrid Long Documents Leveraging LLMs: A Framework and Dataset [52.3]
    大規模言語モデル(LLM)は、テキストと表のデータを含むハイブリッドテキストを理解し解析することができる。 本研究では,LLMがHLD(Hybrid Long Document)を処理できるようにするための自動情報抽出フレームワーク(AIE)を提案し,HLDからの情報抽出の4つの重要な側面を分析する実験を行った。 HLDにおけるデータセット不足の問題に対処し、今後の作業を支援するために、金融レポート数値抽出(FINE)データセットを提案する。
    論文  参考訳(メタデータ)   (Sat, 28 Dec 2024 07:54:14 GMT)
  • Automated Information Extraction (AIE) frameworkの提案、「AIE comprises four modules: Segmentation, Retrieval, Summarization, and Extraction.」と割と一般的な構成に見える
  • データセットは公開されていない?