- VITA: Towards Open-Source Interactive Omni Multimodal LLM [106.5]
ビデオ, 画像, テキスト, 音声の同時処理と解析に適応した, MLLM (Multimodal Large Language Model) を初めて導入したVITAについて紹介する。 VITAは、多言語、視覚、および音声理解の堅牢な基礎機能を示す。 我々はMLLMにおける非覚醒相互作用と音声割り込みを利用する最初の人物である。
論文 参考訳(メタデータ) (Fri, 09 Aug 2024 17:59:49 GMT) - オープンなMLLMを目指す取り組み、Mixtral 8×7Bベース
- プロジェクトサイトはHello VITA (vita-home.github.io)、リポジトリはGitHub – VITA-MLLM/VITA: ✨✨VITA: Towards Open-Source Interactive Omni Multimodal LLM