- Kosmos-2: Grounding Multimodal Large Language Models to the World [107.3]
マルチモーダル大言語モデル(MLLM)であるKosmos-2を紹介する。 オブジェクト記述(例えば、バウンディングボックス)の認識と、視覚の世界へのテキストの接地を可能にする。 この研究は、Embodiment AIの開発の基礎を定めている。
論文 参考訳(メタデータ) (Tue, 27 Jun 2023 09:11:34 GMT) - マルチモーダルなLLM Kosmos-2の論文、Markdownのリンクとして画像などを参照する点が面白い。Kosmos-1より優れている?(KOSMOS-2 achieves impressive results )との結果。GRIT(Grounded Image-Text pairs)というデータセットも公開予定とのこと。
- リポジトリはunilm/kosmos-2 at master · microsoft/unilm · GitHub