Kosmos-2.5 – arXiv最新論文の紹介

Kosmos-2.5: A Multimodal Literate Model [143.5]
Kosmos-2.5はテキスト集約画像の機械読取のためのマルチモーダルリテラルモデルである。 2つの異なるが協調的な転写タスクに優れる。テキスト集約的な画像理解タスクに対して異なるプロンプトで適応することができる。
論文参考訳（メタデータ） (Wed, 20 Sep 2023 15:50:08 GMT)
Kosmosの新バージョン。コア部分はencoder-only/encoder-decoder model から decoder-only modelへ移行しており生成系AIのようなアーキテクチャになっている。商用製品を上回る性能とのこと。
プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

コメントを残す

コメントを残す コメントをキャンセル