Qwen3-VL-Embedding, Qwen3-VL-Reranker, e5-omni

マルチモーダルな埋め込み手法の論文が発表されている。1つめは Qwen familyでembeddingモデルそのものとrerankerモデル。2つ目は手法の提案でVLMのバックボーンをオムニモーダルに変換していくタイプ。分散表現を得るのもマルチモーダル化が進んでいくのは興味深いところ。

  • Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking [80.5]
    本稿では,Qwen3-VL-EmbeddingとQwen3-VL-Rerankerモデルシリーズを紹介する。 Qwen3-VL-Embeddingモデルでは、意味的にリッチな高次元ベクトルを生成するためのマルチステージトレーニングパラダイムを採用している。 Qwen3-VL-Rerankerはクエリ-ドキュメントペアの詳細な関連性推定を行う。
    論文  参考訳(メタデータ)   (Thu, 08 Jan 2026 08:36:06 GMT)
  • リポジトリはGitHub – QwenLM/Qwen3-VL-Embedding
  • e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings [91.3]
    市販の視覚言語モデルをロバストなオムニモーダル埋め込みモデルに適応させる軽量な明示的アライメントレシピであるe5-omniを提案する。 e5-omniは、類似度尺度を整合させるためにモード対応温度校正と、混乱する負の点に焦点を合わせた制御可能な負のカリキュラムと、クロスモーダル幾何に適合するバッチホワイトニングを組み合わせる。 MMEB-V2とAudioCapsの実験では、強いバイモーダルおよびオムニモーダルベースラインよりも一貫した利得を示した。
    論文  参考訳(メタデータ)   (Wed, 07 Jan 2026 07:39:40 GMT)
  • リポジトリはHaon-Chen/e5-omni-7B · Hugging Face

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です