Dolphin, ReMamba, The Mamba in the Llama: Distilling and Accelerating Hybrid Models

(主としてRAGを想定した)高速化、Transformerに代わるかもしれないMamba(Mamba – arXiv最新論文の紹介 (devneko.jp))の改善提案、既存LLMのMambaへの変換など計算効率を高める研究は多く行われている。

Codestral Mamba | Mistral AI | Frontier AI in your handsmistralai/Mamba-Codestral-7B-v0.1 · Hugging Face)など実用性のあるモデルも出てきていて興味深い。このあたりのブレイクスルーがあると分野全体が面白くなるので要注目。

  • Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models [9.9]
    Dolphinは、言語モデルにおける長いコンテキストのエネルギー効率の高い処理のための新しいデコーダデコーダアーキテクチャである。 弊社のアプローチは、デバイス上のモデルに固有の、エネルギー消費とレイテンシの問題に対処する。
    論文  参考訳(メタデータ)   (Wed, 28 Aug 2024 04:06:14 GMT)
  • 「By treating extended context as a distinct modality, Dolphin utilizes a compact 0.5B parameter decoder to distill contextual information into memory tokens, which are then processed by a larger 7B parameter decoder.」と小規模なパラメータと大規模なパラメータの構造を組み合わせた手法の提案。小規模部分で(RAGにありがちな)長いコンテキストを処理させることを想定している。MLLMのProjectorと近しい構成。
  • リポジトリはNexaAIDev/Dolphin · Hugging Face
  • ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.5]
    本研究では,長い文脈の理解能力を高めるReMambaを提案する。 ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
    論文  参考訳(メタデータ)   (Wed, 28 Aug 2024 02:47:27 GMT)
  • Mambaの改善、長文において記憶すべき情報を選択し状態空間に保存する機構を追加、性能を向上とのこと。Llama2とかなり良い勝負
  • The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.6]
    我々は,アカデミックGPUリソースを用いてアテンション層からの線形投影重みを再利用することにより,大きなトランスフォーマーを線形RNNに蒸留できることを実証する。 その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Tue, 27 Aug 2024 17:56:11 GMT)
  • LLMをハイブリッドMambaに変換、ゼロから学習したものより高性能だったとする論文。残念ながら「The distilled pure (0%) model does degrade significantly in accuracy.」
  • 普通に小型化するのと比べて優位性があるのだろうか。