Yuan 2.0-M32, Zamba, MAP-Neo

今週も興味深いLLMが発表されている。

  • MoEで小型強力なYuan 2.0-M32
  • SSM(&Transformerのハイブリッド)であるが7Bと実用サイズかつTransformerアーキテクチャの7Bと競合する性能に見えるZamba
  • 中国語-英語ではあるが強力なオープンモデルであるMAP-Neo
  • Yuan 2.0-M32: Mixture of Experts with Attention Router [30.9]
    Yuan 2.0-M32は、Yuan-2.0 2Bと同様のベースアーキテクチャで、32人のエキスパートと2人のエキスパートが活動する混合専門家アーキテクチャを使用している。 新しいルータネットワークであるAttention Routerが提案され、より効率的な専門家の選択のために採用され、従来のルータネットワークと比較して3.8%の精度が向上する。 Yuan 2.0-M32は、コーディング、数学、および様々な専門分野における競争力を示す。
    論文  参考訳(メタデータ)   (Tue, 28 May 2024 09:05:08 GMT)
  • MoEでアクティブパラメータが少ないが優れた性能を主張するLLM。多くのタスクでアクティブパラメータ的に同規模のPhi-3、倍以上の規模のLlama-3 8Bよりスコアが高い。
  • リポジトリはGitHub – IEIT-Yuan/Yuan2.0-M32: Mixture-of-Experts (MoE) Language Model
  • Zamba: A Compact 7B SSM Hybrid Model [11.0]
    Zambaは7B SSMトランスフォーマーハイブリッドモデルである。 Zambaは、公開データセットから1Tトークンをトレーニングする。 Zambaは、同等のトランスフォーマーモデルよりも推論がかなり速い。
    論文  参考訳(メタデータ)   (Sun, 26 May 2024 22:23:02 GMT)
  • SSMとTransformerのハイブリッドで効率的だが強力なLLM
  • リポジトリはZyphra/Zamba-7B-v1 · Hugging Face
  • MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.3]
    私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
    論文  参考訳(メタデータ)   (Wed, 29 May 2024 17:57:16 GMT)
  • 強力かつオープンなLLM
  • プロジェクトサイトはMAP-Neo、HuggingFace weightはNeo-Models – a m-a-p Collection (huggingface.co)

xLSTM: Extended Long Short-Term Memory

  • xLSTM: Extended Long Short-Term Memory [26.6]
    1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。 正規化と安定化を適切に行う指数ゲーティングを導入する。 i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
    論文  参考訳(メタデータ)   (Tue, 07 May 2024 17:50:21 GMT)
  • LSTMの拡張、「xLSTM models perform favorably on language modeling when compared to state-of-the-art methods like Transformers and State Space Models.」と主張。RWKVやMamba、Llamaと詳細な比較を行っているが、より大規模だとどうなるかが気になるところではある。