- CogAgent: A Visual Language Model for GUI Agents [40.2]
GUI理解とナビゲーションに特化した視覚言語モデル(VLM)であるCogAgentを紹介する。 低解像度画像エンコーダと高解像度画像エンコーダの両方を利用することで、CogAgentは1120*1120の解像度で入力をサポートする。 CogAgentは、VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、 infoVQA、DocVQA、MM-Vet、POPEを含む5つの一般的なVQAベンチマークで、技SoTAを達成している。
論文 参考訳(メタデータ) (Thu, 14 Dec 2023 13:20:57 GMT) - GUIを理解し実行するためのAgent、複数のVQAベンチマークでもSoTAを主張
- リポジトリはGitHub – THUDM/CogVLM: a state-of-the-art-level open visual language model | 多模态预训练模型
タグ: GUI agent
GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation
- GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation [167.6]
MM-Navigator(MM-Navigator)は、スマートフォンのGUIナビゲーションタスク用のGPT-4Vベースのエージェントである。 MM-Navigatorは、スマートフォンの画面と人間として対話し、指示を満たすためのその後の行動を決定することができる。
論文 参考訳(メタデータ) (Mon, 13 Nov 2023 18:53:37 GMT) - スマホのナビゲーションを行うエージェント。GPT-4Vを使ってマルチモーダルに対応。FinetunedなLlama2、PaLM 2と比べても高い性能。
- リポジトリはGitHub – zzxslp/MM-Navigator