Emu3: Next-Token Prediction is All You Need

  • Emu3: Next-Token Prediction is All You Need [45.1]
    Emu3は、次世代の予測だけで訓練された最先端のマルチモーダルモデルスイートである。 Emu3は、生成タスクと知覚タスクの両方において、確立されたタスク固有モデルよりも優れています。 また、ビデオシーケンス内の次のトークンを予測することによって、高忠実度ビデオを生成することもできる。
    論文  参考訳(メタデータ)   (Fri, 27 Sep 2024 16:06:11 GMT)
  • 「Our results provide compelling evidence that nexttoken prediction can serve as a powerful paradigm for multimodal models, scaling beyond language models and delivering state-of-the-art performance across diverse tasks, including challenging video generation.」という、シンプルかつ強い主張
  • リポジトリはGitHub – baaivision/Emu3: Next-Token Prediction is All You Need

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です