- Taipan: Efficient and Expressive State Space Language Models with Selective Attention [100.2]
自然言語処理(NLP)における長文言語モデリングの課題 Mambaのような最近のステートスペースモデル(SSM)は、メモリ使用量を一定に抑える代替手段を提供するが、大規模なコンテキスト内検索を必要とするタスクでは性能が劣る。 我々は,Mamba-2と選択注意層(SAL)を組み合わせた新しいハイブリッドアーキテクチャであるTaipanを紹介する。 我々の実験は、様々なスケールやタスクにまたがる優れたパフォーマンスを示し、より効率的な長文言語モデリングのための有望なソリューションを提供する。
論文 参考訳(メタデータ) (Thu, 24 Oct 2024 09:25:37 GMT) - Mamba-2 + Selective Attention Layersなアーキテクチャの提案。MambaやJambaを超える性能を主張。ハイブリッドアプローチが有望?