- Unified Model for Image, Video, Audio and Language Tasks [94.8]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。 本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。 統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (Sun, 30 Jul 2023 09:48:36 GMT) - Image、Video、Audio、Languageとマルチモーダルなモデルの提案、「 0.25B parameter model achieves competitive performance to existing modality-customized work」とのことで小規模だが強力そう
- リポジトリはGitHub – mshukor/UnIVAL: Official implementation of UnIVAL: Unified Model for Image, Video, Audio and Language Tasks.