A Very Big Video Reasoning Suite [155.7] ビデオモデルの急速な普及は視覚的品質を捉えており、その推論能力は未解明のままである。 Very Big Video Reasoning(VBVR)データセットは、200のキュレートされた推論タスクにまたがる、前例のない大規模なリソースである。 VBVR-Benchは、ルールベースのヒューマンアライメントスコアラーによるモデルベースの判断を超えて、検証可能な評価フレームワークである。 論文参考訳(メタデータ) (Tue, 24 Feb 2026 17:59:15 GMT)
「we present the VBVR suite, centered on an unprecedentedly large-scale and continually growing dataset for video reasoning, VBVR-Dataset, together with a verifiable, human-aligned evaluation toolkit, VBVR-Bench.」とのこと、とても規模が大きい。ベンチマークとしては「Proprietary models perform better overall, led by Sora 2 (0.546) and Veo 3.1 (0.480), particularly in Abstraction and Transformation categories. Fine-tuning Wan2.2-I2V-A14B on VBVR-Dataset yields VBVR-Wan2.2, which achieves a new state-of-the-art with an overall score of 0.685, representing an 84.6% relative improvement over its base model. 」とfine tuningの効果は大きいよう。