The (R)Evolution of Multimodal Large Language Models: A Survey

  • The (R)Evolution of Multimodal Large Language Models: A Survey [48.6]
    MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティを、入力と出力の両方としてシームレスに統合することができる。 本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
    論文  参考訳(メタデータ)   (Mon, 19 Feb 2024 19:01:01 GMT)
  • マルチモーダルなLLMのサーベイ
  • 本当にいっぱいあるなーという印象と、公開されているものが多いのも興味深い

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です