Kosmos-2

  • Kosmos-2: Grounding Multimodal Large Language Models to the World [107.3]
    マルチモーダル大言語モデル(MLLM)であるKosmos-2を紹介する。 オブジェクト記述(例えば、バウンディングボックス)の認識と、視覚の世界へのテキストの接地を可能にする。 この研究は、Embodiment AIの開発の基礎を定めている。
    論文  参考訳(メタデータ)   (Tue, 27 Jun 2023 09:11:34 GMT)
  • マルチモーダルなLLM Kosmos-2の論文、Markdownのリンクとして画像などを参照する点が面白い。Kosmos-1より優れている?(KOSMOS-2 achieves impressive results )との結果。GRIT(Grounded Image-Text pairs)というデータセットも公開予定とのこと。
  • リポジトリはunilm/kosmos-2 at master · microsoft/unilm · GitHub

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です