VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents [105.4]VLM2Vec-V2は、様々な視覚形態にまたがる埋め込みを学習するための統一的なフレームワークである。 まず、MMEBを5つの新しいタスクタイプで拡張する包括的なベンチマークであるMMEB-V2を紹介する。 次に、テキスト、画像、ビデオ、ビジュアルドキュメント入力をサポートする汎用埋め込みモデルであるVLM2Vec-V2を訓練する。論文 参考訳(メタデータ) (Mon, 07 Jul 2025 00:51:57 GMT) 「MMEB-V2, an advanced multimodal embedding dataset designed to train and evaluate embedding models across three key visual modalities: images, videos, and visual documents.」と、それを活用した埋め込みモデルVLM2Vec-V2の提案。かなり汎用的な2vec プロジェクトサイトはVLM2Vec