Byte Latent Transformer: Patches Scale Better Than Tokens

  • Byte Latent Transformer: Patches Scale Better Than Tokens [101.1]
    Byte Latent Transformer (BLT) はバイトを動的サイズのパッチにエンコードする。 固定推論コストに対して、BLTはパッチとモデルサイズの両方を同時に拡大することにより、トークン化ベースのモデルよりもはるかに優れたスケーリングを示している。
    論文  参考訳(メタデータ)   (Fri, 13 Dec 2024 05:33:32 GMT)
  • バイト単位のTransformerは様々提案されてきたが、大規模なモデル構築は計算量の点で厳しかった。本件では「To efficiently allocate compute, we propose a dynamic, learnable method for grouping bytes into patches (§2) and a new model architecture that mixes byte and patch information.」という手法を提案。「Overall, for fixed inference costs, BLT shows significantly better scaling than tokenization-based models, by simultaneously growing both patch and model size.」とのこと。
  • リポジトリはGitHub – facebookresearch/blt: Code for BLT research paper

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です