Jamba: A Hybrid Transformer-Mamba Language Model

Jamba: A Hybrid Transformer-Mamba Language Model [36.5]
本稿では,新しいハイブリッドなTransformer-Mamba混在型アーキテクチャに基づく,新しいベースとなる大規模言語モデルであるJambaを紹介する。 JambaはTransformer層とMamba層のブロックをインターリーブし、両方のモデルファミリーの利点を享受する。
論文参考訳（メタデータ） (Thu, 28 Mar 2024 23:55:06 GMT)
DBRX, Jamba, Grok-1.5, RWKV Finch – arXiv最新論文の紹介 (devneko.jp)で紹介したJambaの論文。モデルアーキテクチャの詳細などが紹介されている。「Combining Transformer, Mamba, and MoE elements allows flexibility in balancing among the sometimes conflicting objectives of low memory usage, high throughput, and high quality.」とあり、全52BパラメータだがActiveなものは12B、KVキャッシュは4GB（256Kコンテキスト）ととても軽量。Mistralだとパラメータ7.2B、Activeなものも7.2BでKVキャッシュは32GB、Mixstralだと同46.7B, 12.9B, 32GB。（コンテキスト長すぎじゃないかと思わなくはないが）　性能はMixstralと良い勝負であり非常に効率的。
リポジトリはai21labs/Jamba-v0.1 · Hugging Face

コメントを残す

コメントを残す コメントをキャンセル