TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials 

  • TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials [70.1]
    リッチなマルチモーダルWebチュートリアルから学習し,汎用GUIエージェントを構築するTongUIフレームワークを提案する。 我々は、5つのオペレーティングシステムと200以上のアプリケーションにまたがる143Kトラジェクトリデータを含むGUI-Netデータセットを作成する。 我々はGUI-Net上でQwen2.5-VL-3B/7Bモデルを微調整してTongUIエージェントを開発する。
    論文  参考訳(メタデータ)   (Thu, 17 Apr 2025 06:15:56 GMT)
  • WEBチュートリアルを活用したデータセット構築とfine tuningによるエージェント開発
  • プロジェクトサイトはTongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です