- Large Language Model-Brained GUI Agents: A Survey [43.2]
マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。 彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。 これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
論文 参考訳(メタデータ) (Wed, 27 Nov 2024 12:13:39 GMT) - GUI Agents with Foundation Models: A Comprehensive Survey – arXiv最新論文の紹介ににたサーベイだが、こちらはMicrosoftの研究者が筆頭著者。