Grok 4, Phi4-mini-Flash-Reasoning, SmolLM3, Kimi-K2, T5Gemma

先週も様々なモデルが発表されたが、注目は様々なベンチマークで強力な性能を主張するGrok 4だろう(Grok 4 | xAI)。Humanity’s Last Examで44.4%と非常に強力に見える。

オープンなモデルとしてはモデル構造が面白いPhi4-mini-Flash-Reasoning(Reasoning reimagined: Introducing Phi-4-mini-flash-reasoning | Microsoft Azure Blog、論文は後述)、HuggingFaceの小型モデルSmolLM3(SmolLM3, GitHub – huggingface/smollm: Everything about the SmolLM and SmolVLM family of models)、総パラメータ1T / 32 B Activeと極端なMoE構成で非常に高性能なKimi-K2(GitHub – MoonshotAI/Kimi-K2: Kimi K2 is the large language model series developed by Moonshot AI teamKimi K2)など興味深い発表が相次いだ。また、T5Gemma: A new collection of encoder-decoder Gemma models – Google Developers Blogにも要注目。Decoder onlyでないアーキテクチャの良さが現れるタスクも多そうに思う。

  • Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation [52.2]
    我々は,デコーダのみの大規模言語モデルをエンコーダ-デコーダモデルに適応させるという,新しい問題を研究する。 適応はデコーダのみのLLMの能力を継承するだけでなく、計算の需要を減らすことができると主張している。 同様の推論予算の下では、エンコーダ-デコーダ LLM は(しばしばより優れた)事前訓練性能を達成できるが、デコーダのみの性能よりもはるかに優れた微調整性能が得られる。
    論文  参考訳(メタデータ)   (Tue, 08 Apr 2025 17:13:41 GMT)
  • Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [129.5]
    我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。 これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
    論文  参考訳(メタデータ)   (Wed, 09 Jul 2025 07:27:00 GMT)
  • Phi4-mini-Flash-Reasoningの論文
  • 「Our decoder-hybrid-decoder architecture taking Samba [RLL+25] as the self-decoder. Gated Memory Units (GMUs) are interleaved with the cross-attention layers in the cross-decoder to reduce the decoding complexity. As in YOCO [SDZ+24], the full attention layer only need to compute the KV cache during prefilling with the self-decoder, leading to linear computation complexity for the prefill stage.」と計算量的に有利なアーキテクチャでLRMに適しているように見える。
  • Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities [1584.5]
    Gemini 2.5 Proは私たちの最も有能なモデルであり、フロンティアコーディングと推論ベンチマークでSoTAのパフォーマンスを実現しています。 Gemini 2.5 Flashは計算とレイテンシの要求のごく一部で優れた推論機能を提供する。 Gemini 2.0 FlashとFlash-Liteは低レイテンシと低コストでハイパフォーマンスを提供する。
    論文  参考訳(メタデータ)   (Mon, 07 Jul 2025 17:36:04 GMT)
  • Gemini 2.5の論文も出ていた。共著者の人数がすごい(3300人以上)。

Routing Mamba, Memba

  • Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.5]
    線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。 Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。 本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRouting Mamba (RoM)を紹介する。
    論文  参考訳(メタデータ)   (Sun, 22 Jun 2025 19:26:55 GMT)
  • 「We introduce Routing Mamba (RoM), a novel framework that integrates MoE mechanisms into SSMs by leveraging Mamba’s projection layers as scalable expert components.」とMoE的なフレームワークをMambaに持ち込んだ研究。効率・性能が向上とのこと。
  • Memba: Membrane-driven Parameter-Efficient Fine-Tuning for Mamba [21.5]
    Membaは、State Space Models(SSMs)に特化した新しいパラメータ効率的ファインチューニング手法であり、Mambaモデルの能力を向上させることを目指しています。Leaky Integrate Membrane (LIM)ニューロンを用いて時間的な情報保持を強化し、従来のファインチューニング手法と比べて優れたパフォーマンスを実現しています。実験結果は、Membaが言語モデルやコンピュータビジョンのタスクにおいて他の手法よりも著しい改善を示すことを示しています。
    論文  参考訳(メタデータ)   (Sun, 22 Jun 2025 21:52:45 GMT)
  • Mamba用に設計された効率的なfine tuningフレームワーク
  • リポジトリはhttps://github.com/Intelligent-Computing-Lab-Yale/Membaとのことだが、現時点では404

Hymba: A Hybrid-head Architecture for Small Language Models 

  • Hymba: A Hybrid-head Architecture for Small Language Models [65.9]
    Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。 重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。 このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
    論文  参考訳(メタデータ)   (Wed, 20 Nov 2024 19:51:25 GMT)
  • TransformerのAttentionとSSMを組み合わせたモデルの提案、小型モデルではとても高い性能と省メモリ高速動作を実現とのこと。
  • NVIDIAによる発表でモデルが公開されている。nvidia/Hymba-1.5B-Base · Hugging Face

MatMamba: A Matryoshka State Space Model

  • MatMamba: A Matryoshka State Space Model [24.9]
    MatMambaはMatryoshkaスタイルの学習とMamba2を組み合わせた状態空間モデルである。 MatMambaは、様々なモデルサイズにまたがる効率的で適応的なデプロイメントを可能にする。 言語モデルと画像モデルは,35Mから1.4Bまでのパラメータサイズで訓練する。
    論文  参考訳(メタデータ)   (Wed, 09 Oct 2024 09:41:34 GMT)
  • マトリョーシカ構造のMamba、「We train a single large MatMamba model and are able to get a number of smaller nested models for free – while maintaining or improving upon the performance of a baseline smaller model trained from scratch.」という利点がある。加えて(Mambaだから)高解像度ではViTより優れているとのこと。
  • リポジトリはGitHub – ScaledFoundations/MatMamba: Code and pretrained models for the paper: “MatMamba: A Matryoshka State Space Model”

A Survey of Mamba 

  • A Survey of Mamba [26.7]
    近年,基礎モデル構築の代替手段として,Mambaという新しいアーキテクチャが登場している。 本研究では,マンバモデルの発展,多様なデータにマンバを適応させる技術,およびマンバが優れている応用について検討する。
    論文  参考訳(メタデータ)   (Fri, 02 Aug 2024 09:18:41 GMT)
  • 期待が膨らむMambaのサーベイ。
  • 「Mamba, an emerging deep learning architecture, has demonstrated remarkable success across diverse domains, such as language generation, image classification, recommendation, and drug discovery, owing to its powerful modeling capabilities and computational efficiency.」と、Transformerを超えていけるか楽しみ。

Yuan 2.0-M32, Zamba, MAP-Neo

今週も興味深いLLMが発表されている。

  • MoEで小型強力なYuan 2.0-M32
  • SSM(&Transformerのハイブリッド)であるが7Bと実用サイズかつTransformerアーキテクチャの7Bと競合する性能に見えるZamba
  • 中国語-英語ではあるが強力なオープンモデルであるMAP-Neo
  • Yuan 2.0-M32: Mixture of Experts with Attention Router [30.9]
    Yuan 2.0-M32は、Yuan-2.0 2Bと同様のベースアーキテクチャで、32人のエキスパートと2人のエキスパートが活動する混合専門家アーキテクチャを使用している。 新しいルータネットワークであるAttention Routerが提案され、より効率的な専門家の選択のために採用され、従来のルータネットワークと比較して3.8%の精度が向上する。 Yuan 2.0-M32は、コーディング、数学、および様々な専門分野における競争力を示す。
    論文  参考訳(メタデータ)   (Tue, 28 May 2024 09:05:08 GMT)
  • MoEでアクティブパラメータが少ないが優れた性能を主張するLLM。多くのタスクでアクティブパラメータ的に同規模のPhi-3、倍以上の規模のLlama-3 8Bよりスコアが高い。
  • リポジトリはGitHub – IEIT-Yuan/Yuan2.0-M32: Mixture-of-Experts (MoE) Language Model
  • Zamba: A Compact 7B SSM Hybrid Model [11.0]
    Zambaは7B SSMトランスフォーマーハイブリッドモデルである。 Zambaは、公開データセットから1Tトークンをトレーニングする。 Zambaは、同等のトランスフォーマーモデルよりも推論がかなり速い。
    論文  参考訳(メタデータ)   (Sun, 26 May 2024 22:23:02 GMT)
  • SSMとTransformerのハイブリッドで効率的だが強力なLLM
  • リポジトリはZyphra/Zamba-7B-v1 · Hugging Face
  • MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.3]
    私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
    論文  参考訳(メタデータ)   (Wed, 29 May 2024 17:57:16 GMT)
  • 強力かつオープンなLLM
  • プロジェクトサイトはMAP-Neo、HuggingFace weightはNeo-Models – a m-a-p Collection (huggingface.co)

xLSTM: Extended Long Short-Term Memory

  • xLSTM: Extended Long Short-Term Memory [26.6]
    1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。 正規化と安定化を適切に行う指数ゲーティングを導入する。 i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
    論文  参考訳(メタデータ)   (Tue, 07 May 2024 17:50:21 GMT)
  • LSTMの拡張、「xLSTM models perform favorably on language modeling when compared to state-of-the-art methods like Transformers and State Space Models.」と主張。RWKVやMamba、Llamaと詳細な比較を行っているが、より大規模だとどうなるかが気になるところではある。