DeepStack

  • DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs [137.9]
    ほとんどの大きなマルチモーダルモデル(LMM)は、大きな言語モデル(LLM)の第1層にシーケンスとして視覚トークンを供給することによって実装される。 本稿では,LMMのための新しいアーキテクチャであるDeepStackについて述べる。LMMの言語層とビジョントランスフォーマーの$N$レイヤを考慮すると,視覚トークンを$N$グループに積み上げ,各グループを下位から上位までの整列トランスフォーマー層に供給する。 驚くべきことに、この単純な手法は、レイヤ間の視覚トークン間の相互作用をモデル化するLMMのパワーを、最小限のコストで大幅に向上させる。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 17:59:34 GMT)
  •  Vision-Languageの構成で単純に第一層にVisionのデータを投入するのではなく、複数の層に情報を供給することで性能が高くなるとのこと。レイヤごとに解像度を変える戦略。TextVQA, DocVQA, InfoVQAでLLaVA 1.5を改善。 
  • リポジトリはDeepStack (deepstack-vl.github.io)

Improving In-Context Learning with Prediction Feedback for Sentiment Analysis

  • Improving In-Context Learning with Prediction Feedback for Sentiment Analysis [45.5]
    大規模言語モデル(LLM)は、文脈内学習(ICL)パラダイムを通じて感情分析において有望な結果を得た。 人間のフィードバックによる理解の調整能力にインスパイアされた本論文は,事前の予測とフィードバックを取り入れたICLを強化する。 9つの感情分析データセットによる実験結果から,従来のICL法よりもフレームワークが優れていることが示され,平均F1改善率は5.95%となった。
    論文  参考訳(メタデータ)   (Wed, 05 Jun 2024 04:04:08 GMT)
  • 「(1) acquiring prior predictions of LLMs, (2) devising predictive feedback based on correctness, and (3) leveraging a feedbackdriven prompt to refine sentiment understanding.」と、実利用時に「予測結果へのFeedback付きのデータ」を入れICLを行うことで性能を改善。
  • リポジトリはGitHub – HITSZ-HLT/Feedback-ICL