- MatMamba: A Matryoshka State Space Model [24.9]
MatMambaはMatryoshkaスタイルの学習とMamba2を組み合わせた状態空間モデルである。 MatMambaは、様々なモデルサイズにまたがる効率的で適応的なデプロイメントを可能にする。 言語モデルと画像モデルは,35Mから1.4Bまでのパラメータサイズで訓練する。
論文 参考訳(メタデータ) (Wed, 09 Oct 2024 09:41:34 GMT) - マトリョーシカ構造のMamba、「We train a single large MatMamba model and are able to get a number of smaller nested models for free – while maintaining or improving upon the performance of a baseline smaller model trained from scratch.」という利点がある。加えて(Mambaだから)高解像度ではViTより優れているとのこと。
- リポジトリはGitHub – ScaledFoundations/MatMamba: Code and pretrained models for the paper: “MatMamba: A Matryoshka State Space Model”