Kosmos-2 – arXiv最新論文の紹介

Kosmos-2: Grounding Multimodal Large Language Models to the World [107.3]
マルチモーダル大言語モデル(MLLM)であるKosmos-2を紹介する。オブジェクト記述(例えば、バウンディングボックス)の認識と、視覚の世界へのテキストの接地を可能にする。この研究は、Embodiment AIの開発の基礎を定めている。
論文参考訳（メタデータ） (Tue, 27 Jun 2023 09:11:34 GMT)
マルチモーダルなLLM Kosmos-2の論文、Markdownのリンクとして画像などを参照する点が面白い。Kosmos-1より優れている？（KOSMOS-2 achieves impressive results ）との結果。GRIT（Grounded Image-Text pairs）というデータセットも公開予定とのこと。
リポジトリはunilm/kosmos-2 at master · microsoft/unilm · GitHub

コメントを残す

コメントを残す コメントをキャンセル