Video models are zero-shot learners and reasoners [33.7] Veo 3は、明示的にトレーニングされていないさまざまなタスクを解決できます。 Veoの創発的なゼロショット機能は、ビデオモデルが統一された一般的なビジョン基盤モデルへの道のりにあることを示している。 論文参考訳(メタデータ) (Wed, 24 Sep 2025 17:17:27 GMT)
「We demonstrate that Veo 3 can solve a broad variety of tasks it wasn’t explicitly trained for: segmenting objects, detecting edges, editing images, understanding physical properties, recognizing object affordances, simulating tool use, and more. 」、「Veo 3 shows emergent zero-shot perceptual abilities well beyond the training task. Just like LLMs replaced task-specific NLP models, video models will likely replace most bespoke models in computer vision—once they become sufficiently cheap and reliable.」という指摘。とても未来を感じると同時に直観的のは理解しがたい面もある。