コンテンツへスキップ
- How Far is Video Generation from World Model: A Physical Law Perspective [101.2]
OpenAIのSoraは、物理法則に準拠した世界モデルを開発するためのビデオ生成の可能性を強調している。 しかし、ビデオ生成モデルが人間の先行しない視覚データから純粋にそのような法則を発見する能力に疑問を投げかけることができる。 本研究は,3つの主要なシナリオ – 分布内,分布外,一般化 – について評価する。
論文 参考訳(メタデータ) (Mon, 04 Nov 2024 18:53:05 GMT)
- 世界シミュレータとしても期待されるビデオ生成についての詳細な評価。「Further experiments reveal two key insights about the generalization mechanisms of these models: (1) the models fail to abstract general physical rules and instead exhibit “case-based” generalization behavior, i.e., mimicking the closest training example; (2) when generalizing to new cases, models are observed to prioritize different factors when referencing training data: color > size > velocity > shape.」とのことで、なかなか厳しい評価に思える。さらには「The findings indicate that scaling alone cannot address the OOD problem, although it does enhance performance in other scenarios.」とのことで、簡単な問題ではないことが分かる。
- 論文中にも「ニュートンが運動の3法則を定式化するのに何世紀もかかった」という記載と「一方で子供でも直観的な予測は可能」との記載があるが、この手の能力がAIに実現できるかはいろいろと興味深い。
- プロジェクトサイトはHow Far is Video Generation from World Model: A Physical Law Perspective
- Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation [31.5]
従来の生成モデルから最先端のSoraモデルへの移行に焦点を当て,テキスト・ビデオ技術の進歩を批判的に考察する。 この調査は、新参者と有能な研究者の両方を対象としたもので、テキスト・ビデオ・ジェネレーションの分野におけるさらなる革新と議論を促進することを目的としている。
論文 参考訳(メタデータ) (Fri, 8 Mar 2024 07:58:13 GMT)
- World modelになるかもというsoraの主張に対してのサーベイ。「it is understandable that OpenAI claims Sora as an AI model that understands and thus, can simulate the physical world.」としながらも様々な課題も指摘している。「Nonetheless, why scaling up is not a cure-all and how to liberate Sora from contemporary issues in vision generation tasks is still left as a blue ocean in vision generation research community」