VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction [104.4] 視覚情報と音声情報の両方を段階的に学習する多段階学習手法を提案する。 提案手法は, 視覚言語能力の強化だけでなく, 音声音声対話の効率向上にも寄与する。 画像, ビデオ, 音声タスクのベンチマークにおいて, 我々の手法を最先端の手法と比較することにより, モデルが強い視覚と音声の両機能を備えていることを示す。 論文参考訳(メタデータ) (Fri, 03 Jan 2025 18:59:52 GMT)
VisionとSpeechに対応したマルチモーダルな対話モデル構築のため、3段階での学習方法を提案。「The input side consists of vision and audio encoders, along with their adapters connected to a LLM. The output side has an end-to-end speech generation module, rather than directly using an external TTS model as the initial VITA-1.0 version」というアーキテクチャ。性能は公開モデルや商用モデルと競合するレベル。