- Hymba: A Hybrid-head Architecture for Small Language Models [65.9]
Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。 重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。 このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
論文 参考訳(メタデータ) (Wed, 20 Nov 2024 19:51:25 GMT) - TransformerのAttentionとSSMを組み合わせたモデルの提案、小型モデルではとても高い性能と省メモリ高速動作を実現とのこと。
- NVIDIAによる発表でモデルが公開されている。nvidia/Hymba-1.5B-Base · Hugging Face