Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment 

  • Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment [88.7]
    Olaはオムニモーダル言語モデルであり、画像、ビデオ、音声の理解間での競合的なパフォーマンスを実現する。 我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
    論文  参考訳(メタデータ)   (Thu, 06 Feb 2025 18:59:55 GMT)
  • MLLMの公開モデル、既存の同規模のモデルと比較して性能が高く、マルチモーダルさも大きい(この論文ではOmni Modalと表現)
  • プロジェクトサイトはOla、モデルはTHUdyh/Ola-7b · Hugging Face

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です