CogAgent – arXiv最新論文の紹介

CogAgent: A Visual Language Model for GUI Agents [40.2]
GUI理解とナビゲーションに特化した視覚言語モデル(VLM)であるCogAgentを紹介する。低解像度画像エンコーダと高解像度画像エンコーダの両方を利用することで、CogAgentは1120*1120の解像度で入力をサポートする。 CogAgentは、VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、 infoVQA、DocVQA、MM-Vet、POPEを含む5つの一般的なVQAベンチマークで、技SoTAを達成している。
論文参考訳（メタデータ） (Thu, 14 Dec 2023 13:20:57 GMT)
GUIを理解し実行するためのAgent、複数のVQAベンチマークでもSoTAを主張
リポジトリはGitHub – THUDM/CogVLM: a state-of-the-art-level open visual language model | 多模态预训练模型

コメントを残す

コメントを残す コメントをキャンセル