- AppAgent: Multimodal Agents as Smartphone Users [22.4]
我々のフレームワークは、エージェントが簡易なアクション空間を通じてスマートフォンアプリケーションを操作できるようにする。 エージェントは、自律的な探索または人間のデモを観察して、新しいアプリをナビゲートし、使用することを学ぶ。 エージェントの実用性を実証するため、10種類のアプリケーションで50以上のタスクを広範囲にテストした。
論文 参考訳(メタデータ) (Thu, 21 Dec 2023 11:52:45 GMT) - スマートフォンアプリケーションを操作することに焦点を当てたマルチモーダルエージェントフレームワークの提案。 Exploration Phase で自律的にアプリを操作する中で情報を得て、その情報を使いDeployment Phaseで与えられたタスクを解くフレームワークになっている。
- AppAgent: Multimodal Agents as Smartphone Users (appagent-official.github.io)、リポジトリはmnotgod96/AppAgent: AppAgent: Multimodal Agents as Smartphone Users, an LLM-based multimodal agent framework designed to operate smartphone apps. (github.com)、OSSで公開されている