Emu3: Next-Token Prediction is All You Need [45.1] Emu3は、次世代の予測だけで訓練された最先端のマルチモーダルモデルスイートである。 Emu3は、生成タスクと知覚タスクの両方において、確立されたタスク固有モデルよりも優れています。 また、ビデオシーケンス内の次のトークンを予測することによって、高忠実度ビデオを生成することもできる。 論文参考訳(メタデータ) (Fri, 27 Sep 2024 16:06:11 GMT)
「Our results provide compelling evidence that nexttoken prediction can serve as a powerful paradigm for multimodal models, scaling beyond language models and delivering state-of-the-art performance across diverse tasks, including challenging video generation.」という、シンプルかつ強い主張