- Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [49.6]
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来のディープラーニング, 事前学習の成果を概観することにより, マルチモーダル事前学習の背景を紹介する。 次に,マルチモーダル事前学習モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワークアーキテクチャ,知識強化事前学習に着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (Mon, 20 Feb 2023 15:34:03 GMT) - LLMがとても盛り上がっているが、次に控える大規模マルチモーダル事前学習モデルに関するサーベイ
- 扱うモダリティはText+ImageまたはVideoのようにCVとの組み合わせが多そうではあり、次の分野として有望そうな感じだが、さらに複数のモダリティを組み合わせているものもある