Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model

  • Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model [138.2]
    変換器を用いた分割法は高解像度画像を扱う際の効率的な推論の課題に直面している。 本研究では,異なるアーキテクチャを探索し,効率的なセグメント・アズ・ア・モデルの設計に焦点をあてる。 RWKV-SAM は SAM-like モデルのための単純で効果的で高速なベースラインである。
    論文  参考訳(メタデータ)   (Thu, 27 Jun 2024 17:49:25 GMT)
  • Segment AnythingモデルにおけるRWKVとMambaを比較、RWKV-SAMという高速かつ高性能な構造を提案。「In particular, we find that under the efficient segmentation setting of high-resolution image inputs, RWKV runs faster than Mamba.」とのこと。
  • リポジトリはGitHub – HarborYuan/ovsam: [arXiv preprint] The official code of paper “Open-Vocabulary SAM”.

An Empirical Study of Mamba-based Language Models

  • An Empirical Study of Mamba-based Language Models [69.7]
    Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。 同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。 8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
    論文  参考訳(メタデータ)   (Wed, 12 Jun 2024 05:25:15 GMT)
  • Mambaの実験的検証。8B、3.5T tokensでmamba、mamba2、transformerを比較。「Our results show that while pure SSM-based models match or exceed Transformers on many tasks, both Mamba and Mamba-2 models lag behind Transformer models on tasks which require strong copying or in-context learning abilities (e g , five-shot MMLU, Phonebook Lookup) or long-context reasoning.」、「we find that the 8B-parameter Mamba2-Hybrid exceeds the 8B-parameter Transformer on all 12 standard tasks we evaluated (+2.65 points on average) and is predicted to be up to 8× faster when generating tokens at inference time.」との結果。今までの論文と比べて意外性はないが、包括的な検証はとても参考になる。ハイブリッド構成はとても有効な選択肢に見えた。
  • リポジトリはMegatron-LM/examples/mamba at ssm · NVIDIA/Megatron-LM · GitHub

Mamba-2、様々なMambaの応用先

次世代Transformerとして期待されるSSMについて複数の論文が出ていた。最初の論文はMamba-2として、Mamba以上の構造を提案している。その他、様々なドメインで有効性が検証されている。Transformerは重い構造なのでこの手の改善への期待は大きい。

  • Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality [32.0]
    Mamba のような状態空間モデル (SSM) は,小型・中規模での変換器の整合性や性能向上が示されている。 我々の状態空間双対性(SSD)フレームワークは、コア層が2~8倍高速なMambaの選択SSMの精細化である新しいアーキテクチャ(Mamba-2)を設計することができる。
    論文  参考訳(メタデータ)   (Fri, 31 May 2024 17:50:01 GMT)
  • Mamba-2の提案、小規模(といっても2.7B)の検証で効果を確認している。
  • リポジトリはGitHub – state-spaces/mamba: Mamba SSM architecture
  • Audio Mamba: Bidirectional State Space Model for Audio Representation Learning [15.5]
    本稿では,音声分類のためのSSMベースモデルとして,自己注意のない初のAudio Mambaを紹介する。 我々は、AuMを6つの異なるベンチマークを含む様々なオーディオデータセットで評価し、同等またはより良いパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Wed, 05 Jun 2024 15:00:59 GMT)
  • 音声を扱うMamba
  • リポジトリはGitHub – mhamzaerol/Audio-Mamba-AuM
  • RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation [38.9]
    我々は、ロボット推論とアクション機能の両方を提供するエンドツーエンドのロボットMLLMであるRoboMambaを紹介する。 具体的には、視覚エンコーダをMambaと統合し、協調学習による言語埋め込みと視覚データを整列する。 一度RoboMambaが十分な推論能力を持つと、最小限の微調整パラメータで操作スキルを得ることができる。
    論文  参考訳(メタデータ)   (Thu, 6 Jun 2024 17:59:47 GMT)
  • ロボットのためのMamba、ReasoningだけでなくManipurationを対象にしているのがすごい
  • リポジトリはRoboMamba (google.com)
  • CDMamba: Remote Sensing Image Change Detection with Mamba [30.4]
    我々はCDMambaと呼ばれるモデルを提案し、CDタスクを扱うためのグローバル機能とローカル機能とを効果的に組み合わせている。 具体的には,Mambaのグローバルな特徴抽出と畳み込みによる局所的詳細化を実現するために,Scaled Residual ConvMambaブロックを提案する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 16:04:30 GMT)
  • Change DetectionのためのMamba
  • リポジトリはGitHub – zmoka-zht/CDMamba

MambaOut: Do We Really Need Mamba for Vision? 

  • MambaOut: Do We Really Need Mamba for Vision? [70.6]
    状態空間モデル(SSM)のRNNライクなトークンミキサーを備えたアーキテクチャであるMambaが最近導入され、注意機構の2次複雑さに対処した。 本論文は,マンバが長周期および自己回帰特性を有するタスクに理想的に適していることを概念的に結論づける。 我々は,コアトークンミキサーであるSSMを除去しながら,Mambaブロックを積み重ねてemphMambaOutという一連のモデルを構築した。
    論文  参考訳(メタデータ)   (Mon, 13 May 2024 17:59:56 GMT)
  • Mambaの特徴を「Mamba is ideally suited for tasks with long-sequence and autoregressive characteristics.」とし、分類問題には不要であるとし、実証した論文。一方で「the potential of Mamba for visual detection and segmentation tasks, which align with the long-sequence characteristic, merits further exploration.」ともあり、タスクの特徴を踏まえることが重要。

Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

  • Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation [16.3]
    マルチモーダルなセマンティックセグメンテーションのためのSiamese MambaネットワークであるSigmaを紹介する。 シームズエンコーダを用いて,マンバ核融合機構を革新することにより,様々なモーダルから本質的な情報を効果的に選択する。 本手法はRGB-ThermalとRGB-Depthのセグメンテーションタスクにおいて厳密に評価される。
    論文  参考訳(メタデータ)   (Fri, 05 Apr 2024 17:59:44 GMT)
  • MambaベースのMulti-modal semantic segmentationモデルの提案。画像分野の応用も有望なんだろうか。
  • リポジトリはzifuwan/Sigma: Python implementation of Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation (github.com)

RS-Mamba

  • RS-Mamba for Large Remote Sensing Image Dense Prediction [58.1]
    VHRリモートセンシングにおける高密度予測タスクのためのリモートセンシングマンバ(RSM)を提案する。 RSMは、線形複雑なリモートセンシング画像のグローバルな特徴をモデル化し、大きなVHR画像を効率的に処理できるように設計されている。 RSMは、VHRリモートセンシングの高密度予測タスクにおいて最先端の性能を達成する。
    論文  参考訳(メタデータ)   (Wed, 03 Apr 2024 12:06:01 GMT)
  • リモートセンシングへのMambaの応用、テキストに目が行きがちだが、「We proposed a Remote Sensing Mamba for dense prediction tasks in ultra-high resolution remote sensing imagery, addressing the limitations of CNN-based models in global context information modeling and the challenges of transformer-based models handling large remote sensing images.」ということでtransformerだと厳しい用途に向いているモデルのよう。
  • リポジトリはwalking-shadow/Official_Remote_Sensing_Mamba: Official code of Remote Sensing Mamba (github.com)

MambaByte

  • MambaByte: Token-free Selective State Space Model [71.9]
    マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。 MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
    論文  参考訳(メタデータ)   (Wed, 03 Apr 2024 02:36:27 GMT)
  • バイトを対象としたMamba、「Due to their recurrent nature, SSMs enable significantly faster text generation to Transformer models.」とある通り、token freeなバイト対象モデルにMambaは向いているのかもしれない

Jamba: A Hybrid Transformer-Mamba Language Model

  • Jamba: A Hybrid Transformer-Mamba Language Model [36.5]
    本稿では,新しいハイブリッドなTransformer-Mamba混在型アーキテクチャに基づく,新しいベースとなる大規模言語モデルであるJambaを紹介する。 JambaはTransformer層とMamba層のブロックをインターリーブし、両方のモデルファミリーの利点を享受する。
    論文  参考訳(メタデータ)   (Thu, 28 Mar 2024 23:55:06 GMT)
  • DBRX, Jamba, Grok-1.5, RWKV Finch – arXiv最新論文の紹介 (devneko.jp)で紹介したJambaの論文。モデルアーキテクチャの詳細などが紹介されている。「Combining Transformer, Mamba, and MoE elements allows flexibility in balancing among the sometimes conflicting objectives of low memory usage, high throughput, and high quality.」とあり、全52BパラメータだがActiveなものは12B、KVキャッシュは4GB(256Kコンテキスト)ととても軽量。Mistralだとパラメータ7.2B、Activeなものも7.2BでKVキャッシュは32GB、Mixstralだと同46.7B, 12.9B, 32GB。(コンテキスト長すぎじゃないかと思わなくはないが) 性能はMixstralと良い勝負であり非常に効率的。
  • リポジトリはai21labs/Jamba-v0.1 · Hugging Face

DBRX, Jamba, Grok-1.5, RWKV Finch

先週もLLM界隈の話題が多かった。注目はDatabricks(&元MosaicML)によるDBRXで公開モデルとしては非常に高性能(ライセンスは独自)。「DBRX」を発表: オープンソース大規模言語モデルのスタンダードとして | Databricks Blog

JambaはMamba MoE + transformerでSSMハイブリッドとして商用レベルをうたうモデル。ベースモデルはApache-2ライセンス。Introducing Jamba: AI21’s Groundbreaking SSM-Transformer Model

transformer以外の選択肢だとRWKV-6 Finch(RWKV-x060-World-1B6-v2.1-20240328-ctx4096)がhugging faceで試用可能となっている。長文翻訳はまだまだという感じだがfine tuning等やってみたいところ
RWKV-Gradio-1 – a Hugging Face Space by BlinkDL

Grok-1.5(および2)のアナウンスもありこちらも要注目。
Announcing Grok-1.5 (x.ai)
XユーザーのElon Muskさん: 「Should be available on 𝕏 next week. Grok 2 should exceed current AI on all metrics. In training now.」 / X (twitter.com)

GPT-4やGemini、ClaudeなどAPIベースの選択肢以外が広がることを期待したい。

Is Mamba Effective for Time Series Forecasting

  • Is Mamba Effective for Time Series Forecasting? [30.2]
    状態空間モデル(SSM)は、シーケンス内の複雑な依存関係をキャプチャする能力によって、注目を集めている。 本稿では,時系列予測(TSF)のための2つの簡単なSSMモデルを紹介する。 S-MambaとD-MambaはGPUメモリとトレーニング時間を節約しながら優れたパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Sun, 17 Mar 2024 08:50:44 GMT)
  • 時系列予測へのMambaの応用、「S-Mamba employs one Mamba block to process VC, while D-Mamba incorporates an additional mamba block compared to S-Mamba for VC.」(VC =  variates correlations )という違いを持つ2つの構成で実験、効果を確認とのこと。
  • 「The results prove Mamba possesses robust capabilities and exhibits remarkable potential to replace Transformer in the TSF tasks.」とのことだが、ほんまかいなと思わなくもなく、解釈が気になるところ。。。