OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM [128.4] 我々はOmniVinciを紹介します。OmniVinciは強力でオープンソースのOmni-modal LLMを構築するためのイニシアチブです。 モデルアーキテクチャでは、(i)OmniAlignNetで視覚とオーディオの埋め込みのアライメントを強化する方法、(ii)視覚と音声信号の時間的アライメントをキャプチャするための時間的エンベディンググループ、(iii)オムニモーダル埋め込みにおける絶対時間的情報をエンコードするための制約付きロータリー時間エンベディングという3つの重要なイノベーションを提示する。 論文参考訳(メタデータ) (Fri, 17 Oct 2025 17:59:59 GMT)
「we introduce a new framework to harmonize vision and audio embeddings in a unified omni-modal embedding space, featuring three new techniques: (i) OmniAlignNet that learns to construct a modality-shared space to align vision and audio embeddings from the same video; (ii) Temporal Embedding Grouping that divides the time dimension into multiple chunks and reorganizes the vision and audio embeddings according to their timestamps to align with the corresponding chunks; (iii) Constrained Rotary Time Embedding to directly insert periodic temporal information into vision-audio embeddings.」とマルチモーダルなLLMの提案