UnIVAL

  • Unified Model for Image, Video, Audio and Language Tasks [94.8]
    UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。 本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。 統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
    論文  参考訳(メタデータ)   (Sun, 30 Jul 2023 09:48:36 GMT)
  • Image、Video、Audio、Languageとマルチモーダルなモデルの提案、「 0.25B parameter model achieves competitive performance to existing modality-customized work」とのことで小規模だが強力そう
  • リポジトリはGitHub – mshukor/UnIVAL: Official implementation of UnIVAL: Unified Model for Image, Video, Audio and Language Tasks.