- Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning [46.4]
Critic-Vはアクター・クライブのパラダイムにインスパイアされたフレームワークで、視覚言語モデルの推論能力を高める。 リアソナーは視覚的およびテキスト的入力に基づいて推論パスを生成し、批判はこれらのパスを洗練するための建設的批評を提供する。 評価の結果,Critic-V フレームワークは GPT-4V を含む既存手法を8つのベンチマークのうち5つで大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (Wed, 27 Nov 2024 10:28:57 GMT)