- The (R)Evolution of Multimodal Large Language Models: A Survey [48.6]
MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティを、入力と出力の両方としてシームレスに統合することができる。 本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
論文 参考訳(メタデータ) (Mon, 19 Feb 2024 19:01:01 GMT) - マルチモーダルなLLMのサーベイ
- 本当にいっぱいあるなーという印象と、公開されているものが多いのも興味深い