Q-Align

  • Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels [95.4]
    スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。 提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Thu, 28 Dec 2023 16:10:25 GMT)
  • 品質評価のためのLarge Multi-modality Model、Stage 1: Training Human Ratersから始まっているのが面白い。複数のvisual assessing taskにおいてSoTAを主張。
  • リポジトリはQ-Future/Q-Align: [IQA, IAA, VQA] All-in-one LMM/MLLM for visual scoring. (github.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です