- TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials [70.1]
リッチなマルチモーダルWebチュートリアルから学習し,汎用GUIエージェントを構築するTongUIフレームワークを提案する。 我々は、5つのオペレーティングシステムと200以上のアプリケーションにまたがる143Kトラジェクトリデータを含むGUI-Netデータセットを作成する。 我々はGUI-Net上でQwen2.5-VL-3B/7Bモデルを微調整してTongUIエージェントを開発する。
論文 参考訳(メタデータ) (Thu, 17 Apr 2025 06:15:56 GMT) - WEBチュートリアルを活用したデータセット構築とfine tuningによるエージェント開発
- プロジェクトサイトはTongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials