Auto-Encoding Morph-Tokens for Multimodal LLM

  • Auto-Encoding Morph-Tokens for Multimodal LLM [151.3]
    そこで本稿では,MLLMにテキスト生成を指示する視覚的プロンプトとして機能する。 実験により、Morph-Tokensはマルチモーダル理解と生成を同時に行うための新しいSOTAを実現できることが示された。
    論文  参考訳(メタデータ)   (Fri, 03 May 2024 08:43:06 GMT)
  • Morph-Tokensと呼ぶVisionモデルからのトークンから派生した特殊なトークンを用いたMLLMの提案。
  • リポジトリはGitHub – DCDmllm/MorphTokens