VITA: Towards Open-Source Interactive Omni Multimodal LLM

VITA: Towards Open-Source Interactive Omni Multimodal LLM [106.5]
ビデオ, 画像, テキスト, 音声の同時処理と解析に適応した, MLLM (Multimodal Large Language Model) を初めて導入したVITAについて紹介する。 VITAは、多言語、視覚、および音声理解の堅牢な基礎機能を示す。我々はMLLMにおける非覚醒相互作用と音声割り込みを利用する最初の人物である。
論文参考訳（メタデータ） (Fri, 09 Aug 2024 17:59:49 GMT)
オープンなMLLMを目指す取り組み、Mixtral 8×7Bベース
プロジェクトサイトはHello VITA (vita-home.github.io)、リポジトリはGitHub – VITA-MLLM/VITA: ✨✨VITA: Towards Open-Source Interactive Omni Multimodal LLM

コメントを残す

コメントを残す コメントをキャンセル