GSSMs vs transformerとBlack Mamba

GSSM(Generalized State Space Models)とtransformerの比較とMoEなアプローチ。昨日のMambaのICL(In Context Learning)性能 – arXiv最新論文の紹介 (devneko.jp)の通り、特性はかなり違うのでMoEっぽく使うのはありなのかもしれない。

  • Repeat After Me: Transformers are Better than State Space Models at Copying [57.4]
    一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
    論文  参考訳(メタデータ)   (Thu, 1 Feb 2024 21:44:11 GMT)
  • シンプルな事例でのGSSMとtransformerの比較。当然なのかもだが「transformer models dramatically outperform state space models at copying and retrieving information from context.」
  • BlackMamba: Mixture of Experts for State-Space Models [10.2]
    状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。 MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。 我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
    論文  参考訳(メタデータ)   (Thu, 1 Feb 2024 07:15:58 GMT)
  • リポジトリはZyphra/BlackMamba: Code repository for Black Mamba (github.com)、モデルも公開されている Zyphra/BlackMamba-2.8B · Hugging Face

CodeComposeの進化

  • Multi-line AI-assisted Code Authoring [10.2]
    単行提案から複数行提案まで、プロダクトのスケール方法を紹介します。 LLMの提案は、開発者の既存のコードの周りを常に動き回っているので、マルチラインの提案がどのように”ジャリング”効果を持つのかについて議論する。 私たちは、マルチライン提案がユーザエクスペリエンスに与える影響を理解するために、10人のエンジニアで実験を行います。
    論文  参考訳(メタデータ)   (Tue, 6 Feb 2024 16:48:50 GMT)
  • Fugu-MT 論文翻訳(概要): CodeCompose: A Large-Scale Industrial Deployment of AI-assisted Code Authoring (fugumt.com) の強化、特にマルチラインの扱いに関する論文
  • 様々な工夫も興味深いが「the significant net increase in percentage of keystrokes saved nearly doubling from 9% to 17%.」というのは結構有効そう。