CogAgent

  • CogAgent: A Visual Language Model for GUI Agents [40.2]
    GUI理解とナビゲーションに特化した視覚言語モデル(VLM)であるCogAgentを紹介する。 低解像度画像エンコーダと高解像度画像エンコーダの両方を利用することで、CogAgentは1120*1120の解像度で入力をサポートする。 CogAgentは、VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、 infoVQA、DocVQA、MM-Vet、POPEを含む5つの一般的なVQAベンチマークで、技SoTAを達成している。
    論文  参考訳(メタデータ)   (Thu, 14 Dec 2023 13:20:57 GMT)
  • GUIを理解し実行するためのAgent、複数のVQAベンチマークでもSoTAを主張
  • リポジトリはGitHub – THUDM/CogVLM: a state-of-the-art-level open visual language model | 多模态预训练模型

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です