Cosmos World Foundation Model Platform for Physical AI 

  • Cosmos World Foundation Model Platform for Physical AI [136.1]
    私たちは、開発者が物理AIセットアップのためにカスタマイズされた世界モデルを構築するのを助けるために、Cosmos World Foundation Model Platformを紹介します。 我々のプラットフォームは、ビデオキュレーションパイプライン、事前訓練された世界ファンデーションモデル、事前訓練された世界ファンデーションモデルのポストトレーニング例、ビデオトークン化ツールをカバーしています。
    論文  参考訳(メタデータ)   (Tue, 18 Mar 2025 16:59:07 GMT)
  • 物理世界の理解と推論のためのマルチモーダルモデル、Cosmos-Reason1の提案。「In this paper, we present the Cosmos-Reason1 models that can understand the physical world and generate appropriate embodied decisions (e g , next step action) in natural language through long chain-of-thought reasoning processes.」「With Physical AI SFT and RL, Cosmos-Reason1 can learn intuitive physics, such as the arrow of time and object permanence, which existing models struggle with.」とCoTなLRMに似た構成。確かにこの分野に対してReasoning modelは有効そう。
  • リポジトリはGitHub – nvidia-cosmos/cosmos-reason1: Cosmos-Reason1 models understand the physical common sense and generate appropriate embodied decisions in natural language through long chain-of-thought reasoning processes.

Simulating the Real World: A Unified Survey of Multimodal Generative Models

  • Simulating the Real World: A Unified Survey of Multimodal Generative Models [48.4]
    実世界のシミュレーションにおいて,データ次元の進行を調査する多モード生成モデルについて統一的な調査を行う。 我々の知る限りでは、これは単一のフレームワーク内で2D、ビデオ、3D、および4D生成の研究を体系的に統一する最初の試みである。
    論文  参考訳(メタデータ)   (Thu, 06 Mar 2025 17:31:43 GMT)
  • 生成AIが実世界をシミュレーションにつながるかは議論が分かれるが、「In this survey, we present a unified survey for multimodal generative models that investigate the progression of data dimensionality in real-world simulation.」というサーベイ。
  • 様々な研究は進むもののハードルはかなり高い印象。

PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding

  • PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding [21.9]
    視覚言語モデル(VLM)は、常識的推論において優れているが、物理世界を理解するのに苦労していることを示す。 本稿では、VLMの一般化強度とビジョンモデルの専門知識を組み合わせたフレームワークであるPhysAgentを紹介する。 以上の結果から,VLMの物理世界理解能力の向上は,Mokaなどのエージェントの具体化に有効であることが示唆された。
    論文  参考訳(メタデータ)   (Wed, 29 Jan 2025 03:52:39 GMT)
  • VLMが物理を理解しているかを測るベンチマークとAgenticな physical world understandingフレームワーク、PhysAgentの提案。
  • 現状の結果は意外なことに(?) o1 > InternVL2.5-38B > InternVL2.5-78B > GPT-4o > Gemini-1.5-pro
  • プロジェクトサイトはPhysBench、データセットはUSC-GVL/PhysBench · Datasets at Hugging Face

A Survey of World Models for Autonomous Driving

  • A Survey of World Models for Autonomous Driving [63.3]
    自動運転車の最近のブレークスルーは、車両が周囲を知覚し、相互作用する方法に革命をもたらした。 世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。 これらの世界モデルは、より堅牢で信頼性があり、適応可能な自動運転ソリューションの道を開いた。
    論文  参考訳(メタデータ)   (Mon, 20 Jan 2025 04:00:02 GMT)
  • 自動運転にフォーカスしたWorld modelのサーベイ。

Generative Physical AI in Vision: A Survey 

SimVS: Simulating World Inconsistencies for Robust View Synthesis 

  • SimVS: Simulating World Inconsistencies for Robust View Synthesis [102.8]
    本稿では、生成ビデオモデルを利用して、キャプチャ中に起こりうる世界の不整合をシミュレートする手法を提案する。 我々の世界シミュレーション戦略は、現実のシーンのバリエーションを扱う上で、従来の拡張手法よりも大幅に優れていることを実証する。
    論文  参考訳(メタデータ)   (Tue, 10 Dec 2024 17:35:12 GMT)
  • 「Our approach augments existing multiview datasets with inconsistencies simulated by a video diffusion model and trains a multiview harmonization model to sample sets of consistent views of a scene conditioned on sparse inconsistent captures. We can then use existing 3D reconstruction and view synthesis techniques to synthesize novel viewpoints from these consistent images.」とのこと。面白いデータ拡張のアプローチでプロジェクトサイトを見るに効果も高いよう。
  • プロジェクトサイトはSimVS: Simulating World Inconsistencies for Robust View Synthesis

Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents

  • Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents [23.2]
    モデルベースプランニングで言語エージェントを増強する新しいパラダイムを導入する。 我々の方法であるWebDreamerは、LLMが本質的にウェブサイトの構造や機能に関する包括的知識をエンコードしているというキーインサイトを構築している。
    論文  参考訳(メタデータ)   (Sun, 10 Nov 2024 18:50:51 GMT)
  • 「WEBDREAMER uses LLMs to simulate outcomes for each candidate action (e g , “what would happen if I click this button?”) using natural language descriptions, and then evaluates these imagined outcomes to determine the optimal action at each step.」というシンプルな手法で「our model-based planning approach, WEBDREAMER, shows substantial improvement over reactive baselines and offers greater flexibility than tree search, which is often impossible in real-world websites.」という興味深い結果。挑戦的なタイトルをつけたくなる気持ちもわかる。
  • リポジトリはWebDreamer/README.md at main · OSU-NLP-Group/WebDreamer · GitHub

How Far is Video Generation from World Model: A Physical Law Perspective

  • How Far is Video Generation from World Model: A Physical Law Perspective [101.2]
    OpenAIのSoraは、物理法則に準拠した世界モデルを開発するためのビデオ生成の可能性を強調している。 しかし、ビデオ生成モデルが人間の先行しない視覚データから純粋にそのような法則を発見する能力に疑問を投げかけることができる。 本研究は,3つの主要なシナリオ – 分布内,分布外,一般化 – について評価する。
    論文  参考訳(メタデータ)   (Mon, 04 Nov 2024 18:53:05 GMT)
  • 世界シミュレータとしても期待されるビデオ生成についての詳細な評価。「Further experiments reveal two key insights about the generalization mechanisms of these models: (1) the models fail to abstract general physical rules and instead exhibit “case-based” generalization behavior, i.e., mimicking the closest training example; (2) when generalizing to new cases, models are observed to prioritize different factors when referencing training data: color > size > velocity > shape.」とのことで、なかなか厳しい評価に思える。さらには「The findings indicate that scaling alone cannot address the OOD problem, although it does enhance performance in other scenarios.」とのことで、簡単な問題ではないことが分かる。
  • 論文中にも「ニュートンが運動の3法則を定式化するのに何世紀もかかった」という記載と「一方で子供でも直観的な予測は可能」との記載があるが、この手の能力がAIに実現できるかはいろいろと興味深い。
  • プロジェクトサイトはHow Far is Video Generation from World Model: A Physical Law Perspective

WorldSimBench: Towards Video Generation Models as World Simulators

  • WorldSimBench: Towards Video Generation Models as World Simulators [79.7]
    我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。 WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。 我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
    論文  参考訳(メタデータ)   (Wed, 23 Oct 2024 17:56:11 GMT)
  • ビデオ生成を通して世界をシミュレーションできるのでは?という主張があるが、そのベンチマーク。ものにもよるが厳しそうな印象。「Finally, based on the overall Explicit Perceptual Evaluationand Implicit Manipulative Evaluationresults, we conclude that current video generation models still fail to effectively capture many physical rules, indicating significant improvements are needed before they can function as true World Simulators.」という記載も。
  • リポジトリはWorldSimBench: Towards Video Generation Models as World Simulators

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

  • MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos [155.5]
    MMWorldは,複数分野のマルチモードビデオ理解のための新しいベンチマークである。 MMWorldは、ビデオ全体に関する質問を伴うMLLMを評価する人間アノテーション付きデータセットと、知覚の単一モード内でMLLMを分析する合成データセットで構成されている。 この評価には2つのプロプライエタリなMLLMと10のオープンソースMLLMが含まれており、MMWorldと競合している。
    論文  参考訳(メタデータ)   (Wed, 12 Jun 2024 16:54:54 GMT)
  • 世界モデルとしてのMLLM(例えば物理現象をシミュレートできるか?など)を評価するためのベンチマーク。Leader boardからはGPT-4Vが首位でGeminiProが2位になっている。一方で「Even the best performer, GPT-4V, can only achieve a 52.30% overall accuracy, and four MLLMs particularly trained on videos perform worse than random chance.」という指摘も。MLLMないしビデオ合成系のモデルがWorld modelになりえるかは賛否両論あるが、注目を集めている分野。
  • リポジトリはMMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos (mmworld-bench.github.io)