- Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation [7.4]
医療ビデオモデルは、医療産業に大きな影響を与えることが期待されている。 3つの要素を組み込んだ医用ビデオジェネレータ(MedSora)を提案する。 テストと応用は、MedSoraが医療ビデオの生成において優れた視覚的品質を示すことを示している。
論文 参考訳(メタデータ) (Sun, 03 Nov 2024 17:57:00 GMT) - 医療用ビデオモデルの提案、アイコンの通りMambaベースの手法を採用しているのが面白い。
- プロジェクトサイトはMedSora: Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation
タグ: Mamba
Taipan: Efficient and Expressive State Space Language Models with Selective Attention
- Taipan: Efficient and Expressive State Space Language Models with Selective Attention [100.2]
自然言語処理(NLP)における長文言語モデリングの課題 Mambaのような最近のステートスペースモデル(SSM)は、メモリ使用量を一定に抑える代替手段を提供するが、大規模なコンテキスト内検索を必要とするタスクでは性能が劣る。 我々は,Mamba-2と選択注意層(SAL)を組み合わせた新しいハイブリッドアーキテクチャであるTaipanを紹介する。 我々の実験は、様々なスケールやタスクにまたがる優れたパフォーマンスを示し、より効率的な長文言語モデリングのための有望なソリューションを提供する。
論文 参考訳(メタデータ) (Thu, 24 Oct 2024 09:25:37 GMT) - Mamba-2 + Selective Attention Layersなアーキテクチャの提案。MambaやJambaを超える性能を主張。ハイブリッドアプローチが有望?
Fundamental Limitations on Subquadratic Alternatives to Transformers
- Fundamental Limitations on Subquadratic Alternatives to Transformers [3.5]
文書類似性タスクに重点を置いており、入力された多くの文書として与えられ、最もよく似たペアを見つけたいと思っています。 我々はTransformerがこのタスクを実行できることを証明し、このタスクはどんなアルゴリズムでも真に2次時間で実行できないことを証明した。
論文 参考訳(メタデータ) (Sat, 05 Oct 2024 19:21:13 GMT) - 「We focus on document similarity tasks, where one is given as input many documents and would like to find a pair which is (approximately) the most similar. We prove that Transformer is able to perform this task, and we prove that this task cannot be performed in truly subquadratic time by any algorithm.」という主張。
- その手のタスクがあるのはそうだろうというのとドキュメント類似性タスクに関する分析はとても興味深い。特に「Theorem 3.1. Assuming SETH or OVC, for every ε > 0, there exists a constant c > 0 such that γ-LSDn,ℓ cannot be solved in O(n^2−ε) time for any γ ≥ 1 when ℓ = c log n.」は面白い結果。(実用上は、というと話が変わる場合も多い印象ではありつつ)この手の理論解析は重要。
Mamba in Vision: A Comprehensive Survey of Techniques and Applications
- Mamba in Vision: A Comprehensive Survey of Techniques and Applications [3.5]
Mambaは、コンピュータビジョンにおいて、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)が直面する課題を克服するための、新しいアプローチとして登場した。 MambaはSelective Structured State Space Modelsを活用して、線形計算の複雑さで長距離依存を効果的に捉えることで、これらの制限に対処する。
論文 参考訳(メタデータ) (Fri, 04 Oct 2024 02:58:49 GMT) - 画像におけるMamba活用のサーベイ
- リポジトリはGitHub – maklachur/Mamba-in-Computer-Vision: Mamba in Vision: A Comprehensive Survey of Techniques and Applications
MatMamba: A Matryoshka State Space Model
- MatMamba: A Matryoshka State Space Model [24.9]
MatMambaはMatryoshkaスタイルの学習とMamba2を組み合わせた状態空間モデルである。 MatMambaは、様々なモデルサイズにまたがる効率的で適応的なデプロイメントを可能にする。 言語モデルと画像モデルは,35Mから1.4Bまでのパラメータサイズで訓練する。
論文 参考訳(メタデータ) (Wed, 09 Oct 2024 09:41:34 GMT) - マトリョーシカ構造のMamba、「We train a single large MatMamba model and are able to get a number of smaller nested models for free – while maintaining or improving upon the performance of a baseline smaller model trained from scratch.」という利点がある。加えて(Mambaだから)高解像度ではViTより優れているとのこと。
- リポジトリはGitHub – ScaledFoundations/MatMamba: Code and pretrained models for the paper: “MatMamba: A Matryoshka State Space Model”
Dolphin, ReMamba, The Mamba in the Llama: Distilling and Accelerating Hybrid Models
(主としてRAGを想定した)高速化、Transformerに代わるかもしれないMamba(Mamba – arXiv最新論文の紹介 (devneko.jp))の改善提案、既存LLMのMambaへの変換など計算効率を高める研究は多く行われている。
Codestral Mamba | Mistral AI | Frontier AI in your hands(mistralai/Mamba-Codestral-7B-v0.1 · Hugging Face)など実用性のあるモデルも出てきていて興味深い。このあたりのブレイクスルーがあると分野全体が面白くなるので要注目。
- Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models [9.9]
Dolphinは、言語モデルにおける長いコンテキストのエネルギー効率の高い処理のための新しいデコーダデコーダアーキテクチャである。 弊社のアプローチは、デバイス上のモデルに固有の、エネルギー消費とレイテンシの問題に対処する。
論文 参考訳(メタデータ) (Wed, 28 Aug 2024 04:06:14 GMT) - 「By treating extended context as a distinct modality, Dolphin utilizes a compact 0.5B parameter decoder to distill contextual information into memory tokens, which are then processed by a larger 7B parameter decoder.」と小規模なパラメータと大規模なパラメータの構造を組み合わせた手法の提案。小規模部分で(RAGにありがちな)長いコンテキストを処理させることを想定している。MLLMのProjectorと近しい構成。
- リポジトリはNexaAIDev/Dolphin · Hugging Face
- ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.5]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。 ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (Wed, 28 Aug 2024 02:47:27 GMT) - Mambaの改善、長文において記憶すべき情報を選択し状態空間に保存する機構を追加、性能を向上とのこと。Llama2とかなり良い勝負
- The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.6]
我々は,アカデミックGPUリソースを用いてアテンション層からの線形投影重みを再利用することにより,大きなトランスフォーマーを線形RNNに蒸留できることを実証する。 その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (Tue, 27 Aug 2024 17:56:11 GMT) - LLMをハイブリッドMambaに変換、ゼロから学習したものより高性能だったとする論文。残念ながら「The distilled pure (0%) model does degrade significantly in accuracy.」
- 普通に小型化するのと比べて優位性があるのだろうか。
SMILES-Mamba: Chemical Mamba Foundation Models for Drug ADMET Prediction
- SMILES-Mamba: Chemical Mamba Foundation Models for Drug ADMET Prediction [16.2]
小分子の薬物の吸収、分布、代謝、排出、毒性を予測することは安全性と有効性を確保するために重要である。 本稿では,ラベル付きデータとラベル付きデータの両方を活用する2段階モデルを提案する。 その結果,SMILES-Mambaは22のADMETデータセットの競合性能を示し,14のタスクで最高スコアを達成した。
論文 参考訳(メタデータ) (Sun, 11 Aug 2024 04:53:12 GMT) - SMILESに対してもMambaが有効とのこと
- transformerの代替として有望そう
A Survey of Mamba
- A Survey of Mamba [26.7]
近年,基礎モデル構築の代替手段として,Mambaという新しいアーキテクチャが登場している。 本研究では,マンバモデルの発展,多様なデータにマンバを適応させる技術,およびマンバが優れている応用について検討する。
論文 参考訳(メタデータ) (Fri, 02 Aug 2024 09:18:41 GMT) - 期待が膨らむMambaのサーベイ。
- 「Mamba, an emerging deep learning architecture, has demonstrated remarkable success across diverse domains, such as language generation, image classification, recommendation, and drug discovery, owing to its powerful modeling capabilities and computational efficiency.」と、Transformerを超えていけるか楽しみ。
Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model
- Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model [138.2]
変換器を用いた分割法は高解像度画像を扱う際の効率的な推論の課題に直面している。 本研究では,異なるアーキテクチャを探索し,効率的なセグメント・アズ・ア・モデルの設計に焦点をあてる。 RWKV-SAM は SAM-like モデルのための単純で効果的で高速なベースラインである。
論文 参考訳(メタデータ) (Thu, 27 Jun 2024 17:49:25 GMT) - Segment AnythingモデルにおけるRWKVとMambaを比較、RWKV-SAMという高速かつ高性能な構造を提案。「In particular, we find that under the efficient segmentation setting of high-resolution image inputs, RWKV runs faster than Mamba.」とのこと。
- リポジトリはGitHub – HarborYuan/ovsam: [arXiv preprint] The official code of paper “Open-Vocabulary SAM”.
An Empirical Study of Mamba-based Language Models
- An Empirical Study of Mamba-based Language Models [69.7]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。 同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。 8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (Wed, 12 Jun 2024 05:25:15 GMT) - Mambaの実験的検証。8B、3.5T tokensでmamba、mamba2、transformerを比較。「Our results show that while pure SSM-based models match or exceed Transformers on many tasks, both Mamba and Mamba-2 models lag behind Transformer models on tasks which require strong copying or in-context learning abilities (e g , five-shot MMLU, Phonebook Lookup) or long-context reasoning.」、「we find that the 8B-parameter Mamba2-Hybrid exceeds the 8B-parameter Transformer on all 12 standard tasks we evaluated (+2.65 points on average) and is predicted to be up to 8× faster when generating tokens at inference time.」との結果。今までの論文と比べて意外性はないが、包括的な検証はとても参考になる。ハイブリッド構成はとても有効な選択肢に見えた。
- リポジトリはMegatron-LM/examples/mamba at ssm · NVIDIA/Megatron-LM · GitHub