Dolphin, ReMamba, The Mamba in the Llama: Distilling and Accelerating Hybrid Models

(主としてRAGを想定した)高速化、Transformerに代わるかもしれないMamba(Mamba – arXiv最新論文の紹介 (devneko.jp))の改善提案、既存LLMのMambaへの変換など計算効率を高める研究は多く行われている。

Codestral Mamba | Mistral AI | Frontier AI in your handsmistralai/Mamba-Codestral-7B-v0.1 · Hugging Face)など実用性のあるモデルも出てきていて興味深い。このあたりのブレイクスルーがあると分野全体が面白くなるので要注目。

  • Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models [9.9]
    Dolphinは、言語モデルにおける長いコンテキストのエネルギー効率の高い処理のための新しいデコーダデコーダアーキテクチャである。 弊社のアプローチは、デバイス上のモデルに固有の、エネルギー消費とレイテンシの問題に対処する。
    論文  参考訳(メタデータ)   (Wed, 28 Aug 2024 04:06:14 GMT)
  • 「By treating extended context as a distinct modality, Dolphin utilizes a compact 0.5B parameter decoder to distill contextual information into memory tokens, which are then processed by a larger 7B parameter decoder.」と小規模なパラメータと大規模なパラメータの構造を組み合わせた手法の提案。小規模部分で(RAGにありがちな)長いコンテキストを処理させることを想定している。MLLMのProjectorと近しい構成。
  • リポジトリはNexaAIDev/Dolphin · Hugging Face
  • ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.5]
    本研究では,長い文脈の理解能力を高めるReMambaを提案する。 ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
    論文  参考訳(メタデータ)   (Wed, 28 Aug 2024 02:47:27 GMT)
  • Mambaの改善、長文において記憶すべき情報を選択し状態空間に保存する機構を追加、性能を向上とのこと。Llama2とかなり良い勝負
  • The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.6]
    我々は,アカデミックGPUリソースを用いてアテンション層からの線形投影重みを再利用することにより,大きなトランスフォーマーを線形RNNに蒸留できることを実証する。 その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Tue, 27 Aug 2024 17:56:11 GMT)
  • LLMをハイブリッドMambaに変換、ゼロから学習したものより高性能だったとする論文。残念ながら「The distilled pure (0%) model does degrade significantly in accuracy.」
  • 普通に小型化するのと比べて優位性があるのだろうか。

SMILES-Mamba: Chemical Mamba Foundation Models for Drug ADMET Prediction

  • SMILES-Mamba: Chemical Mamba Foundation Models for Drug ADMET Prediction [16.2]
    小分子の薬物の吸収、分布、代謝、排出、毒性を予測することは安全性と有効性を確保するために重要である。 本稿では,ラベル付きデータとラベル付きデータの両方を活用する2段階モデルを提案する。 その結果,SMILES-Mambaは22のADMETデータセットの競合性能を示し,14のタスクで最高スコアを達成した。
    論文  参考訳(メタデータ)   (Sun, 11 Aug 2024 04:53:12 GMT)
  • SMILESに対してもMambaが有効とのこと
  • transformerの代替として有望そう

A Survey of Mamba 

  • A Survey of Mamba [26.7]
    近年,基礎モデル構築の代替手段として,Mambaという新しいアーキテクチャが登場している。 本研究では,マンバモデルの発展,多様なデータにマンバを適応させる技術,およびマンバが優れている応用について検討する。
    論文  参考訳(メタデータ)   (Fri, 02 Aug 2024 09:18:41 GMT)
  • 期待が膨らむMambaのサーベイ。
  • 「Mamba, an emerging deep learning architecture, has demonstrated remarkable success across diverse domains, such as language generation, image classification, recommendation, and drug discovery, owing to its powerful modeling capabilities and computational efficiency.」と、Transformerを超えていけるか楽しみ。

Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model

  • Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model [138.2]
    変換器を用いた分割法は高解像度画像を扱う際の効率的な推論の課題に直面している。 本研究では,異なるアーキテクチャを探索し,効率的なセグメント・アズ・ア・モデルの設計に焦点をあてる。 RWKV-SAM は SAM-like モデルのための単純で効果的で高速なベースラインである。
    論文  参考訳(メタデータ)   (Thu, 27 Jun 2024 17:49:25 GMT)
  • Segment AnythingモデルにおけるRWKVとMambaを比較、RWKV-SAMという高速かつ高性能な構造を提案。「In particular, we find that under the efficient segmentation setting of high-resolution image inputs, RWKV runs faster than Mamba.」とのこと。
  • リポジトリはGitHub – HarborYuan/ovsam: [arXiv preprint] The official code of paper “Open-Vocabulary SAM”.

An Empirical Study of Mamba-based Language Models

  • An Empirical Study of Mamba-based Language Models [69.7]
    Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。 同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。 8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
    論文  参考訳(メタデータ)   (Wed, 12 Jun 2024 05:25:15 GMT)
  • Mambaの実験的検証。8B、3.5T tokensでmamba、mamba2、transformerを比較。「Our results show that while pure SSM-based models match or exceed Transformers on many tasks, both Mamba and Mamba-2 models lag behind Transformer models on tasks which require strong copying or in-context learning abilities (e g , five-shot MMLU, Phonebook Lookup) or long-context reasoning.」、「we find that the 8B-parameter Mamba2-Hybrid exceeds the 8B-parameter Transformer on all 12 standard tasks we evaluated (+2.65 points on average) and is predicted to be up to 8× faster when generating tokens at inference time.」との結果。今までの論文と比べて意外性はないが、包括的な検証はとても参考になる。ハイブリッド構成はとても有効な選択肢に見えた。
  • リポジトリはMegatron-LM/examples/mamba at ssm · NVIDIA/Megatron-LM · GitHub

Mamba-2、様々なMambaの応用先

次世代Transformerとして期待されるSSMについて複数の論文が出ていた。最初の論文はMamba-2として、Mamba以上の構造を提案している。その他、様々なドメインで有効性が検証されている。Transformerは重い構造なのでこの手の改善への期待は大きい。

  • Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality [32.0]
    Mamba のような状態空間モデル (SSM) は,小型・中規模での変換器の整合性や性能向上が示されている。 我々の状態空間双対性(SSD)フレームワークは、コア層が2~8倍高速なMambaの選択SSMの精細化である新しいアーキテクチャ(Mamba-2)を設計することができる。
    論文  参考訳(メタデータ)   (Fri, 31 May 2024 17:50:01 GMT)
  • Mamba-2の提案、小規模(といっても2.7B)の検証で効果を確認している。
  • リポジトリはGitHub – state-spaces/mamba: Mamba SSM architecture
  • Audio Mamba: Bidirectional State Space Model for Audio Representation Learning [15.5]
    本稿では,音声分類のためのSSMベースモデルとして,自己注意のない初のAudio Mambaを紹介する。 我々は、AuMを6つの異なるベンチマークを含む様々なオーディオデータセットで評価し、同等またはより良いパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Wed, 05 Jun 2024 15:00:59 GMT)
  • 音声を扱うMamba
  • リポジトリはGitHub – mhamzaerol/Audio-Mamba-AuM
  • RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation [38.9]
    我々は、ロボット推論とアクション機能の両方を提供するエンドツーエンドのロボットMLLMであるRoboMambaを紹介する。 具体的には、視覚エンコーダをMambaと統合し、協調学習による言語埋め込みと視覚データを整列する。 一度RoboMambaが十分な推論能力を持つと、最小限の微調整パラメータで操作スキルを得ることができる。
    論文  参考訳(メタデータ)   (Thu, 6 Jun 2024 17:59:47 GMT)
  • ロボットのためのMamba、ReasoningだけでなくManipurationを対象にしているのがすごい
  • リポジトリはRoboMamba (google.com)
  • CDMamba: Remote Sensing Image Change Detection with Mamba [30.4]
    我々はCDMambaと呼ばれるモデルを提案し、CDタスクを扱うためのグローバル機能とローカル機能とを効果的に組み合わせている。 具体的には,Mambaのグローバルな特徴抽出と畳み込みによる局所的詳細化を実現するために,Scaled Residual ConvMambaブロックを提案する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 16:04:30 GMT)
  • Change DetectionのためのMamba
  • リポジトリはGitHub – zmoka-zht/CDMamba

MambaOut: Do We Really Need Mamba for Vision? 

  • MambaOut: Do We Really Need Mamba for Vision? [70.6]
    状態空間モデル(SSM)のRNNライクなトークンミキサーを備えたアーキテクチャであるMambaが最近導入され、注意機構の2次複雑さに対処した。 本論文は,マンバが長周期および自己回帰特性を有するタスクに理想的に適していることを概念的に結論づける。 我々は,コアトークンミキサーであるSSMを除去しながら,Mambaブロックを積み重ねてemphMambaOutという一連のモデルを構築した。
    論文  参考訳(メタデータ)   (Mon, 13 May 2024 17:59:56 GMT)
  • Mambaの特徴を「Mamba is ideally suited for tasks with long-sequence and autoregressive characteristics.」とし、分類問題には不要であるとし、実証した論文。一方で「the potential of Mamba for visual detection and segmentation tasks, which align with the long-sequence characteristic, merits further exploration.」ともあり、タスクの特徴を踏まえることが重要。

Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

  • Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation [16.3]
    マルチモーダルなセマンティックセグメンテーションのためのSiamese MambaネットワークであるSigmaを紹介する。 シームズエンコーダを用いて,マンバ核融合機構を革新することにより,様々なモーダルから本質的な情報を効果的に選択する。 本手法はRGB-ThermalとRGB-Depthのセグメンテーションタスクにおいて厳密に評価される。
    論文  参考訳(メタデータ)   (Fri, 05 Apr 2024 17:59:44 GMT)
  • MambaベースのMulti-modal semantic segmentationモデルの提案。画像分野の応用も有望なんだろうか。
  • リポジトリはzifuwan/Sigma: Python implementation of Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation (github.com)

RS-Mamba

  • RS-Mamba for Large Remote Sensing Image Dense Prediction [58.1]
    VHRリモートセンシングにおける高密度予測タスクのためのリモートセンシングマンバ(RSM)を提案する。 RSMは、線形複雑なリモートセンシング画像のグローバルな特徴をモデル化し、大きなVHR画像を効率的に処理できるように設計されている。 RSMは、VHRリモートセンシングの高密度予測タスクにおいて最先端の性能を達成する。
    論文  参考訳(メタデータ)   (Wed, 03 Apr 2024 12:06:01 GMT)
  • リモートセンシングへのMambaの応用、テキストに目が行きがちだが、「We proposed a Remote Sensing Mamba for dense prediction tasks in ultra-high resolution remote sensing imagery, addressing the limitations of CNN-based models in global context information modeling and the challenges of transformer-based models handling large remote sensing images.」ということでtransformerだと厳しい用途に向いているモデルのよう。
  • リポジトリはwalking-shadow/Official_Remote_Sensing_Mamba: Official code of Remote Sensing Mamba (github.com)

MambaByte

  • MambaByte: Token-free Selective State Space Model [71.9]
    マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。 MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
    論文  参考訳(メタデータ)   (Wed, 03 Apr 2024 02:36:27 GMT)
  • バイトを対象としたMamba、「Due to their recurrent nature, SSMs enable significantly faster text generation to Transformer models.」とある通り、token freeなバイト対象モデルにMambaは向いているのかもしれない