- Auto-Encoding Morph-Tokens for Multimodal LLM [151.3]
そこで本稿では,MLLMにテキスト生成を指示する視覚的プロンプトとして機能する。 実験により、Morph-Tokensはマルチモーダル理解と生成を同時に行うための新しいSOTAを実現できることが示された。
論文 参考訳(メタデータ) (Fri, 03 May 2024 08:43:06 GMT) - Morph-Tokensと呼ぶVisionモデルからのトークンから派生した特殊なトークンを用いたMLLMの提案。
- リポジトリはGitHub – DCDmllm/MorphTokens