The (R)Evolution of Multimodal Large Language Models: A Survey

The (R)Evolution of Multimodal Large Language Models: A Survey [48.6]
MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティを、入力と出力の両方としてシームレスに統合することができる。本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
論文参考訳（メタデータ） (Mon, 19 Feb 2024 19:01:01 GMT)
マルチモーダルなLLMのサーベイ
本当にいっぱいあるなーという印象と、公開されているものが多いのも興味深い

コメントを残す

コメントを残す コメントをキャンセル