Video models are zero-shot learners and reasoners

  • Video models are zero-shot learners and reasoners [33.7]
    Veo 3は、明示的にトレーニングされていないさまざまなタスクを解決できます。 Veoの創発的なゼロショット機能は、ビデオモデルが統一された一般的なビジョン基盤モデルへの道のりにあることを示している。
    論文  参考訳(メタデータ)   (Wed, 24 Sep 2025 17:17:27 GMT)
  • 「We demonstrate that Veo 3 can solve a broad variety of tasks it wasn’t explicitly trained for: segmenting objects, detecting edges, editing images, understanding physical properties, recognizing object affordances, simulating tool use, and more. 」、「Veo 3 shows emergent zero-shot perceptual abilities well beyond the training task. Just like LLMs replaced task-specific NLP models, video models will likely replace most bespoke models in computer vision—once they become sufficiently cheap and reliable.」という指摘。とても未来を感じると同時に直観的のは理解しがたい面もある。
  • リポジトリはVideo models are zero-shot learners and reasoners

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です