コンテンツへスキップ
- MambaByte: Token-free Selective State Space Model [71.9]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。 MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (Wed, 03 Apr 2024 02:36:27 GMT)
- バイトを対象としたMamba、「Due to their recurrent nature, SSMs enable significantly faster text generation to Transformer models.」とある通り、token freeなバイト対象モデルにMambaは向いているのかもしれない
- Training LLMs over Neurally Compressed Text [55.1]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。 テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。 提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (Thu, 04 Apr 2024 17:48:28 GMT)
- 圧縮したテキストを用いた学習、「In particular, we find that text naïvely compressed via Arithmetic Coding is not readily learnable by LLMs.To overcome this, we propose Equal-Info Windows, a novel compression technique whereby text is segmented into blocks that each compress to the same bit length.」とのこと。
- めっちゃ面白いアイデアではあるが実用的かは謎。