Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning

Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning [46.4]
Critic-Vはアクター・クライブのパラダイムにインスパイアされたフレームワークで、視覚言語モデルの推論能力を高める。リアソナーは視覚的およびテキスト的入力に基づいて推論パスを生成し、批判はこれらのパスを洗練するための建設的批評を提供する。評価の結果,Critic-V フレームワークは GPT-4V を含む既存手法を8つのベンチマークのうち5つで大幅に上回っていることがわかった。
論文参考訳（メタデータ） (Wed, 27 Nov 2024 10:28:57 GMT)

コメントを残す

コメントを残す コメントをキャンセル