コンテンツへスキップ
- DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs [137.9]
ほとんどの大きなマルチモーダルモデル(LMM)は、大きな言語モデル(LLM)の第1層にシーケンスとして視覚トークンを供給することによって実装される。 本稿では,LMMのための新しいアーキテクチャであるDeepStackについて述べる。LMMの言語層とビジョントランスフォーマーの$N$レイヤを考慮すると,視覚トークンを$N$グループに積み上げ,各グループを下位から上位までの整列トランスフォーマー層に供給する。 驚くべきことに、この単純な手法は、レイヤ間の視覚トークン間の相互作用をモデル化するLMMのパワーを、最小限のコストで大幅に向上させる。
論文 参考訳(メタデータ) (Thu, 06 Jun 2024 17:59:34 GMT)
- Vision-Languageの構成で単純に第一層にVisionのデータを投入するのではなく、複数の層に情報を供給することで性能が高くなるとのこと。レイヤごとに解像度を変える戦略。TextVQA, DocVQA, InfoVQAでLLaVA 1.5を改善。
- リポジトリはDeepStack (deepstack-vl.github.io)