Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey

  • Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [49.6]
    本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来のディープラーニング, 事前学習の成果を概観することにより, マルチモーダル事前学習の背景を紹介する。 次に,マルチモーダル事前学習モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワークアーキテクチャ,知識強化事前学習に着目して,MM-PTMについて議論する。
    論文  参考訳(メタデータ)   (Mon, 20 Feb 2023 15:34:03 GMT)
  • LLMがとても盛り上がっているが、次に控える大規模マルチモーダル事前学習モデルに関するサーベイ
  • 扱うモダリティはText+ImageまたはVideoのようにCVとの組み合わせが多そうではあり、次の分野として有望そうな感じだが、さらに複数のモダリティを組み合わせているものもある