LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model
LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model [99.7] LLaVA-Critic-R1は高い評価を受けた批評家としてだけでなく、競争政策モデルとしても現れることを示す。 テスト時に自己批判を適用すると、5つの代表的な推論タスクに対して平均+13.8%の改善が得られる。 その結果,評価と生成の両面において優れた統一モデルが得られることがわかった。 論文参考訳(メタデータ) (Sun, 31 Aug 2025 03:08:02 GMT)
「experimental results across massive visual benchmarks demonstrate that critic training not only substantially enhances the critic capabilities of VLMs, but also improves their performance as a general policy across a wide range of visual understanding and reasoning tasks. This dual improvement enables LLaVA- Critic-R1 to outperform other visual reasoning models trained with in-domain policy training, establishing it」という報告。強い関連はあると思いつつ面白い挙動。