- Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment [88.7]
Olaはオムニモーダル言語モデルであり、画像、ビデオ、音声の理解間での競合的なパフォーマンスを実現する。 我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文 参考訳(メタデータ) (Thu, 06 Feb 2025 18:59:55 GMT) - MLLMの公開モデル、既存の同規模のモデルと比較して性能が高く、マルチモーダルさも大きい(この論文ではOmni Modalと表現)
- プロジェクトサイトはOla、モデルはTHUdyh/Ola-7b · Hugging Face