Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment

Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment [88.7]
Olaはオムニモーダル言語モデルであり、画像、ビデオ、音声の理解間での競合的なパフォーマンスを実現する。我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文参考訳（メタデータ） (Thu, 06 Feb 2025 18:59:55 GMT)
MLLMの公開モデル、既存の同規模のモデルと比較して性能が高く、マルチモーダルさも大きい（この論文ではOmni Modalと表現）
プロジェクトサイトはOla、モデルはTHUdyh/Ola-7b · Hugging Face

コメントを残す

コメントを残す コメントをキャンセル