Mamba-3: Improved Sequence Modeling using State Space Principles

Mamba-3: Improved Sequence Modeling using State Space Principles [74.4]
線形モデルの状態空間モデル(SSM)の視点に触発された3つの中核的方法論的改善を紹介する。アーキテクチャの改良とともに、Mamba-3モデルは、検索、状態追跡、下流言語モデリングタスク間で大きな進歩を遂げます。
論文参考訳（メタデータ） (Mon, 16 Mar 2026 17:30:08 GMT)
「We combine: (1) a more expressive recurrence derived from SSM discretization, (2) a complex-valued state update rule that enables richer state tracking, and (3) a multi-input, multi-output (MIMO) formulation for better model performance without increasing decode latency.」、「At 1.5B scale, Mamba-3 (MIMO) improves downstream language modeling accuracy by +2.2 over Transformers, +1.9 points over Mamba-2, and +1.8 over GDN, while Mamba-3 (SISO) improves over the next best model, GDN, by +0.6 points.」とMambaの最新版。フロンティアモデルではTransformerと状態空間モデルのハイブリッド構成が多く、期待大。

コメントを残す

コメントを残す コメントをキャンセル