コンテンツへスキップ
- Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.5]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。 Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。 本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRouting Mamba (RoM)を紹介する。
論文 参考訳(メタデータ) (Sun, 22 Jun 2025 19:26:55 GMT)
- 「We introduce Routing Mamba (RoM), a novel framework that integrates MoE mechanisms into SSMs by leveraging Mamba’s projection layers as scalable expert components.」とMoE的なフレームワークをMambaに持ち込んだ研究。効率・性能が向上とのこと。
- Memba: Membrane-driven Parameter-Efficient Fine-Tuning for Mamba [21.5]
Membaは、State Space Models(SSMs)に特化した新しいパラメータ効率的ファインチューニング手法であり、Mambaモデルの能力を向上させることを目指しています。Leaky Integrate Membrane (LIM)ニューロンを用いて時間的な情報保持を強化し、従来のファインチューニング手法と比べて優れたパフォーマンスを実現しています。実験結果は、Membaが言語モデルやコンピュータビジョンのタスクにおいて他の手法よりも著しい改善を示すことを示しています。
論文 参考訳(メタデータ) (Sun, 22 Jun 2025 21:52:45 GMT)
- Mamba用に設計された効率的なfine tuningフレームワーク
- リポジトリはhttps://github.com/Intelligent-Computing-Lab-Yale/Membaとのことだが、現時点では404
- Hymba: A Hybrid-head Architecture for Small Language Models [65.9]
Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。 重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。 このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
論文 参考訳(メタデータ) (Wed, 20 Nov 2024 19:51:25 GMT)
- TransformerのAttentionとSSMを組み合わせたモデルの提案、小型モデルではとても高い性能と省メモリ高速動作を実現とのこと。
- NVIDIAによる発表でモデルが公開されている。nvidia/Hymba-1.5B-Base · Hugging Face
- A Survey of Mamba [26.7]
近年,基礎モデル構築の代替手段として,Mambaという新しいアーキテクチャが登場している。 本研究では,マンバモデルの発展,多様なデータにマンバを適応させる技術,およびマンバが優れている応用について検討する。
論文 参考訳(メタデータ) (Fri, 02 Aug 2024 09:18:41 GMT)
- 期待が膨らむMambaのサーベイ。
- 「Mamba, an emerging deep learning architecture, has demonstrated remarkable success across diverse domains, such as language generation, image classification, recommendation, and drug discovery, owing to its powerful modeling capabilities and computational efficiency.」と、Transformerを超えていけるか楽しみ。
今週も興味深いLLMが発表されている。
- MoEで小型強力なYuan 2.0-M32
- SSM(&Transformerのハイブリッド)であるが7Bと実用サイズかつTransformerアーキテクチャの7Bと競合する性能に見えるZamba
- 中国語-英語ではあるが強力なオープンモデルであるMAP-Neo
- Yuan 2.0-M32: Mixture of Experts with Attention Router [30.9]
Yuan 2.0-M32は、Yuan-2.0 2Bと同様のベースアーキテクチャで、32人のエキスパートと2人のエキスパートが活動する混合専門家アーキテクチャを使用している。 新しいルータネットワークであるAttention Routerが提案され、より効率的な専門家の選択のために採用され、従来のルータネットワークと比較して3.8%の精度が向上する。 Yuan 2.0-M32は、コーディング、数学、および様々な専門分野における競争力を示す。
論文 参考訳(メタデータ) (Tue, 28 May 2024 09:05:08 GMT)
- MoEでアクティブパラメータが少ないが優れた性能を主張するLLM。多くのタスクでアクティブパラメータ的に同規模のPhi-3、倍以上の規模のLlama-3 8Bよりスコアが高い。
- リポジトリはGitHub – IEIT-Yuan/Yuan2.0-M32: Mixture-of-Experts (MoE) Language Model
- Zamba: A Compact 7B SSM Hybrid Model [11.0]
Zambaは7B SSMトランスフォーマーハイブリッドモデルである。 Zambaは、公開データセットから1Tトークンをトレーニングする。 Zambaは、同等のトランスフォーマーモデルよりも推論がかなり速い。
論文 参考訳(メタデータ) (Sun, 26 May 2024 22:23:02 GMT)
- SSMとTransformerのハイブリッドで効率的だが強力なLLM
- リポジトリはZyphra/Zamba-7B-v1 · Hugging Face
- xLSTM: Extended Long Short-Term Memory [26.6]
1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。 正規化と安定化を適切に行う指数ゲーティングを導入する。 i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
論文 参考訳(メタデータ) (Tue, 07 May 2024 17:50:21 GMT)
- LSTMの拡張、「xLSTM models perform favorably on language modeling when compared to state-of-the-art methods like Transformers and State Space Models.」と主張。RWKVやMamba、Llamaと詳細な比較を行っているが、より大規模だとどうなるかが気になるところではある。