- Kosmos-2.5: A Multimodal Literate Model [143.5]
Kosmos-2.5はテキスト集約画像の機械読取のためのマルチモーダルリテラルモデルである。 2つの異なるが協調的な転写タスクに優れる。 テキスト集約的な画像理解タスクに対して異なるプロンプトで適応することができる。
論文 参考訳(メタデータ) (Wed, 20 Sep 2023 15:50:08 GMT) - Kosmosの新バージョン。コア部分はencoder-only/encoder-decoder model から decoder-only modelへ移行しており生成系AIのようなアーキテクチャになっている。商用製品を上回る性能とのこと。
- プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)