- mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models [71.4]
本稿では,多目的なマルチモーダル大言語モデルであるmPLUG-Owl3を提案する。 具体的には、視覚と言語を共通の言語誘導意味空間に効率的に統合する新しいハイパーアテンションブロックを提案する。
論文 参考訳(メタデータ) (Tue, 13 Aug 2024 08:10:32 GMT) - mPLUG-Owlのver 3
- リポジトリはGitHub – X-PLUG/mPLUG-Owl: mPLUG-Owl: The Powerful Multi-modal Large Language Model Family