MatMamba: A Matryoshka State Space Model

  • MatMamba: A Matryoshka State Space Model [24.9]
    MatMambaはMatryoshkaスタイルの学習とMamba2を組み合わせた状態空間モデルである。 MatMambaは、様々なモデルサイズにまたがる効率的で適応的なデプロイメントを可能にする。 言語モデルと画像モデルは,35Mから1.4Bまでのパラメータサイズで訓練する。
    論文  参考訳(メタデータ)   (Wed, 09 Oct 2024 09:41:34 GMT)
  • マトリョーシカ構造のMamba、「We train a single large MatMamba model and are able to get a number of smaller nested models for free – while maintaining or improving upon the performance of a baseline smaller model trained from scratch.」という利点がある。加えて(Mambaだから)高解像度ではViTより優れているとのこと。
  • リポジトリはGitHub – ScaledFoundations/MatMamba: Code and pretrained models for the paper: “MatMamba: A Matryoshka State Space Model”

A Survey of Mamba 

  • A Survey of Mamba [26.7]
    近年,基礎モデル構築の代替手段として,Mambaという新しいアーキテクチャが登場している。 本研究では,マンバモデルの発展,多様なデータにマンバを適応させる技術,およびマンバが優れている応用について検討する。
    論文  参考訳(メタデータ)   (Fri, 02 Aug 2024 09:18:41 GMT)
  • 期待が膨らむMambaのサーベイ。
  • 「Mamba, an emerging deep learning architecture, has demonstrated remarkable success across diverse domains, such as language generation, image classification, recommendation, and drug discovery, owing to its powerful modeling capabilities and computational efficiency.」と、Transformerを超えていけるか楽しみ。

Yuan 2.0-M32, Zamba, MAP-Neo

今週も興味深いLLMが発表されている。

  • MoEで小型強力なYuan 2.0-M32
  • SSM(&Transformerのハイブリッド)であるが7Bと実用サイズかつTransformerアーキテクチャの7Bと競合する性能に見えるZamba
  • 中国語-英語ではあるが強力なオープンモデルであるMAP-Neo
  • Yuan 2.0-M32: Mixture of Experts with Attention Router [30.9]
    Yuan 2.0-M32は、Yuan-2.0 2Bと同様のベースアーキテクチャで、32人のエキスパートと2人のエキスパートが活動する混合専門家アーキテクチャを使用している。 新しいルータネットワークであるAttention Routerが提案され、より効率的な専門家の選択のために採用され、従来のルータネットワークと比較して3.8%の精度が向上する。 Yuan 2.0-M32は、コーディング、数学、および様々な専門分野における競争力を示す。
    論文  参考訳(メタデータ)   (Tue, 28 May 2024 09:05:08 GMT)
  • MoEでアクティブパラメータが少ないが優れた性能を主張するLLM。多くのタスクでアクティブパラメータ的に同規模のPhi-3、倍以上の規模のLlama-3 8Bよりスコアが高い。
  • リポジトリはGitHub – IEIT-Yuan/Yuan2.0-M32: Mixture-of-Experts (MoE) Language Model
  • Zamba: A Compact 7B SSM Hybrid Model [11.0]
    Zambaは7B SSMトランスフォーマーハイブリッドモデルである。 Zambaは、公開データセットから1Tトークンをトレーニングする。 Zambaは、同等のトランスフォーマーモデルよりも推論がかなり速い。
    論文  参考訳(メタデータ)   (Sun, 26 May 2024 22:23:02 GMT)
  • SSMとTransformerのハイブリッドで効率的だが強力なLLM
  • リポジトリはZyphra/Zamba-7B-v1 · Hugging Face
  • MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.3]
    私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
    論文  参考訳(メタデータ)   (Wed, 29 May 2024 17:57:16 GMT)
  • 強力かつオープンなLLM
  • プロジェクトサイトはMAP-Neo、HuggingFace weightはNeo-Models – a m-a-p Collection (huggingface.co)

xLSTM: Extended Long Short-Term Memory

  • xLSTM: Extended Long Short-Term Memory [26.6]
    1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。 正規化と安定化を適切に行う指数ゲーティングを導入する。 i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
    論文  参考訳(メタデータ)   (Tue, 07 May 2024 17:50:21 GMT)
  • LSTMの拡張、「xLSTM models perform favorably on language modeling when compared to state-of-the-art methods like Transformers and State Space Models.」と主張。RWKVやMamba、Llamaと詳細な比較を行っているが、より大規模だとどうなるかが気になるところではある。