- Multimodal Foundation Models: From Specialists to General-Purpose Assistants [187.7]
専門モデルから汎用アシスタントへの移行に焦点をあて,視覚と視覚言語能力を示すマルチモーダル基礎モデルの分類と進化に関する包括的調査を行う。 対象読者は、コンピュータビジョンの研究者、大学院生、およびビジョン言語によるマルチモーダルコミュニティの専門家である。
論文 参考訳(メタデータ) (Mon, 18 Sep 2023 17:56:28 GMT) - 特化型モデル → 汎用アシスタントという最近の潮流に関するサーベイ。100ページ近くの分量であり教科書に近い
- 研究の進展が非常に速い分野でもありとても重要な論文