Video as the New Language for Real-World Decision Making
Video as the New Language for Real-World Decision Making [100.7] ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。 ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。 ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。 論文参考訳(メタデータ) (Tue, 27 Feb 2024 02:05:29 GMT)
「Challenges like hallucination and generalization notwithstanding, video generation models have the potential to become autonomous agents, planners, environment simulators, and compute engines, and to eventually serve as the artificial brain to think and act in the physical world.」という記載が印象的。