Combating Multimodal LLM Hallucination via Bottom-up Holistic Reasoning

  • Combating Multimodal LLM Hallucination via Bottom-up Holistic Reasoning [151.4]
    マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。 本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。 本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
    論文  参考訳(メタデータ)   (Sun, 15 Dec 2024 09:10:46 GMT)
  • MLLM、VQAタスクを対象としたハルシネーション対策、1. Target Identification and Visual Perception, 2. Visual Perception Verification, 3. Question Validation and Adjustment, 4. Commonsense Induction, 5. Commonsense Verification, 6. Question answeringというモジュールで構成。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です