Llama 4, Nemotron-H, Pangu Ultra, Kimi-VL, Kimi-VL-Thinking, Deep Coder

先週もLLM関連の話題は多かったが、Llama4の発表はその中でも大きなものだった(The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation)。MoE構成で高い性能を主張、第三者の検証ではいまいちという話も、量子化の影響(性能劣化)が大きいのではという話もあって、検証結果が出そろうのを待ちたいところ。

NVIDIAからは Mamba-TransformerハイブリッドなNemotron-Hが発表されている(Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models – NVIDIA ADLR)。 「Nemotron-H has been used as the backbone for Cosmos-Reason 1, a very strong VLM for physical AI.」というのにも注目。

HuaweiからはPangu Ultraの論文が出ているが、詳細なPDFは公開されていないよう。「To perform such large-scale training efficiently, we utilize 8,192 Ascend NPUs with a series of system optimizations. Evaluations on multiple diverse benchmarks indicate that Pangu Ultra significantly advances the state-of-the-art capabilities of dense LLMs such as Llama 405B and Mistral Large 2, and even achieves competitive results with DeepSeek-R1」という興味深い記載があり詳細が気になるところ。

Kimi-VL は強力なMLLMであり、また、Kimi-VL-ThinkingとLRMでもあるのが特徴的な公開モデル(moonshotai/Kimi-VL-A3B-Instruct · Hugging Face)。o3-miniレベルの性能を主張するDeepCoder: A Fully Open-Source 14B Coder at O3-mini Levelなどオープンなモデルも進化が速い。オープンなモデルを強化する方向もIntroducing Cogito PreviewCogito v1 Preview – a deepcogito Collection)など様々な成果が出ていて、公開モデルの性能も向上が続く。

  • Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models [164.5]
    ネモトロン-Hは8Bと56B/47Bハイブリッド・マンバ・トランスフォーマーのファミリーである。 私たちは共通のTransformerモデルアーキテクチャにおけるほとんどの自己注意レイヤをMambaレイヤに置き換えます。 Nemotron-Hモデルは、他の同様のサイズのオープンソーストランスフォーマーモデルと比較して、精度が良いか低いかのどちらかを提供する。
    論文  参考訳(メタデータ)   (Fri, 04 Apr 2025 17:41:58 GMT)
  • 高速、高性能なMambaハイブリッドなLLM
  • Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs [123.3]
    135億のパラメータと高密度トランスフォーマーモジュールを持つ大規模言語モデル(LLM)であるPangu Ultraについて述べる。 このような大規模トレーニングを効率的に行うためには,8,192個のAscend NPUと一連のシステム最適化を用いる。 我々の調査では、Ascend NPUは1000億以上のパラメータを持つ高密度モデルを効率的かつ効果的に訓練できることを示した。
    論文  参考訳(メタデータ)   (Thu, 10 Apr 2025 15:41:51 GMT)
  • ファーウェイのLLM。ファーウェイのアクセラレータを活用して構築しているとのことだが現状論文が参照できない状態。詳細が気になるところ。

Mistral Small 3.1, Hunyuan-T1

週刊LLM、LRMという感じだが、先週も話題は多かった。Mistral Small 3.1 | Mistral AIは公開モデルでGemma 3などと競合する性能を主張。NVIDIAのllama-3.3-nemotron-super-49b-v1 Model by NVIDIA | NVIDIA NIMは高効率化の件で興味深い結果を出していた。

Tencentからは事前アナウンスの通りMamba hybridなLRM、Hunyuan-T1が発表された(腾讯混元Hunyuan T1 – a Hugging Face Space by tencentllm.hunyuan.T1)。Deepseek R1やo1と比べても十分な性能に見える。

AntropicからWeb検索との連動(Claude can now search the web \ Anthropic)、OpenAIからは新たな音声関連モデルが発表される(Introducing next-generation audio models in the API | OpenAI, OpenAI.fm)など、ビジネス上はLLM・LRMの提供だけでなく周辺領域を埋めていくことが重要になりそう。

Hymba: A Hybrid-head Architecture for Small Language Models 

  • Hymba: A Hybrid-head Architecture for Small Language Models [65.9]
    Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。 重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。 このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
    論文  参考訳(メタデータ)   (Wed, 20 Nov 2024 19:51:25 GMT)
  • TransformerのAttentionとSSMを組み合わせたモデルの提案、小型モデルではとても高い性能と省メモリ高速動作を実現とのこと。
  • NVIDIAによる発表でモデルが公開されている。nvidia/Hymba-1.5B-Base · Hugging Face

MedSora: Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation

  • Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation [7.4]
    医療ビデオモデルは、医療産業に大きな影響を与えることが期待されている。 3つの要素を組み込んだ医用ビデオジェネレータ(MedSora)を提案する。 テストと応用は、MedSoraが医療ビデオの生成において優れた視覚的品質を示すことを示している。
    論文  参考訳(メタデータ)   (Sun, 03 Nov 2024 17:57:00 GMT)
  • 医療用ビデオモデルの提案、アイコンの通りMambaベースの手法を採用しているのが面白い。
  • プロジェクトサイトはMedSora: Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation

Taipan: Efficient and Expressive State Space Language Models with Selective Attention 

  • Taipan: Efficient and Expressive State Space Language Models with Selective Attention [100.2]
    自然言語処理(NLP)における長文言語モデリングの課題 Mambaのような最近のステートスペースモデル(SSM)は、メモリ使用量を一定に抑える代替手段を提供するが、大規模なコンテキスト内検索を必要とするタスクでは性能が劣る。 我々は,Mamba-2と選択注意層(SAL)を組み合わせた新しいハイブリッドアーキテクチャであるTaipanを紹介する。 我々の実験は、様々なスケールやタスクにまたがる優れたパフォーマンスを示し、より効率的な長文言語モデリングのための有望なソリューションを提供する。
    論文  参考訳(メタデータ)   (Thu, 24 Oct 2024 09:25:37 GMT)
  • Mamba-2 + Selective Attention Layersなアーキテクチャの提案。MambaやJambaを超える性能を主張。ハイブリッドアプローチが有望?

Fundamental Limitations on Subquadratic Alternatives to Transformers 

  • Fundamental Limitations on Subquadratic Alternatives to Transformers [3.5]
    文書類似性タスクに重点を置いており、入力された多くの文書として与えられ、最もよく似たペアを見つけたいと思っています。 我々はTransformerがこのタスクを実行できることを証明し、このタスクはどんなアルゴリズムでも真に2次時間で実行できないことを証明した。
    論文  参考訳(メタデータ)   (Sat, 05 Oct 2024 19:21:13 GMT)
  • 「We focus on document similarity tasks, where one is given as input many documents and would like to find a pair which is (approximately) the most similar. We prove that Transformer is able to perform this task, and we prove that this task cannot be performed in truly subquadratic time by any algorithm.」という主張。
  • その手のタスクがあるのはそうだろうというのとドキュメント類似性タスクに関する分析はとても興味深い。特に「Theorem 3.1. Assuming SETH or OVC, for every ε > 0, there exists a constant c > 0 such that γ-LSDn,ℓ cannot be solved in O(n^2−ε) time for any γ ≥ 1 when ℓ = c log n.」は面白い結果。(実用上は、というと話が変わる場合も多い印象ではありつつ)この手の理論解析は重要。

Mamba in Vision: A Comprehensive Survey of Techniques and Applications

  • Mamba in Vision: A Comprehensive Survey of Techniques and Applications [3.5]
    Mambaは、コンピュータビジョンにおいて、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)が直面する課題を克服するための、新しいアプローチとして登場した。 MambaはSelective Structured State Space Modelsを活用して、線形計算の複雑さで長距離依存を効果的に捉えることで、これらの制限に対処する。
    論文  参考訳(メタデータ)   (Fri, 04 Oct 2024 02:58:49 GMT)
  • 画像におけるMamba活用のサーベイ
  • リポジトリはGitHub – maklachur/Mamba-in-Computer-Vision: Mamba in Vision: A Comprehensive Survey of Techniques and Applications

MatMamba: A Matryoshka State Space Model

  • MatMamba: A Matryoshka State Space Model [24.9]
    MatMambaはMatryoshkaスタイルの学習とMamba2を組み合わせた状態空間モデルである。 MatMambaは、様々なモデルサイズにまたがる効率的で適応的なデプロイメントを可能にする。 言語モデルと画像モデルは,35Mから1.4Bまでのパラメータサイズで訓練する。
    論文  参考訳(メタデータ)   (Wed, 09 Oct 2024 09:41:34 GMT)
  • マトリョーシカ構造のMamba、「We train a single large MatMamba model and are able to get a number of smaller nested models for free – while maintaining or improving upon the performance of a baseline smaller model trained from scratch.」という利点がある。加えて(Mambaだから)高解像度ではViTより優れているとのこと。
  • リポジトリはGitHub – ScaledFoundations/MatMamba: Code and pretrained models for the paper: “MatMamba: A Matryoshka State Space Model”

Dolphin, ReMamba, The Mamba in the Llama: Distilling and Accelerating Hybrid Models

(主としてRAGを想定した)高速化、Transformerに代わるかもしれないMamba(Mamba – arXiv最新論文の紹介 (devneko.jp))の改善提案、既存LLMのMambaへの変換など計算効率を高める研究は多く行われている。

Codestral Mamba | Mistral AI | Frontier AI in your handsmistralai/Mamba-Codestral-7B-v0.1 · Hugging Face)など実用性のあるモデルも出てきていて興味深い。このあたりのブレイクスルーがあると分野全体が面白くなるので要注目。

  • Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models [9.9]
    Dolphinは、言語モデルにおける長いコンテキストのエネルギー効率の高い処理のための新しいデコーダデコーダアーキテクチャである。 弊社のアプローチは、デバイス上のモデルに固有の、エネルギー消費とレイテンシの問題に対処する。
    論文  参考訳(メタデータ)   (Wed, 28 Aug 2024 04:06:14 GMT)
  • 「By treating extended context as a distinct modality, Dolphin utilizes a compact 0.5B parameter decoder to distill contextual information into memory tokens, which are then processed by a larger 7B parameter decoder.」と小規模なパラメータと大規模なパラメータの構造を組み合わせた手法の提案。小規模部分で(RAGにありがちな)長いコンテキストを処理させることを想定している。MLLMのProjectorと近しい構成。
  • リポジトリはNexaAIDev/Dolphin · Hugging Face
  • ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.5]
    本研究では,長い文脈の理解能力を高めるReMambaを提案する。 ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
    論文  参考訳(メタデータ)   (Wed, 28 Aug 2024 02:47:27 GMT)
  • Mambaの改善、長文において記憶すべき情報を選択し状態空間に保存する機構を追加、性能を向上とのこと。Llama2とかなり良い勝負
  • The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.6]
    我々は,アカデミックGPUリソースを用いてアテンション層からの線形投影重みを再利用することにより,大きなトランスフォーマーを線形RNNに蒸留できることを実証する。 その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Tue, 27 Aug 2024 17:56:11 GMT)
  • LLMをハイブリッドMambaに変換、ゼロから学習したものより高性能だったとする論文。残念ながら「The distilled pure (0%) model does degrade significantly in accuracy.」
  • 普通に小型化するのと比べて優位性があるのだろうか。

SMILES-Mamba: Chemical Mamba Foundation Models for Drug ADMET Prediction

  • SMILES-Mamba: Chemical Mamba Foundation Models for Drug ADMET Prediction [16.2]
    小分子の薬物の吸収、分布、代謝、排出、毒性を予測することは安全性と有効性を確保するために重要である。 本稿では,ラベル付きデータとラベル付きデータの両方を活用する2段階モデルを提案する。 その結果,SMILES-Mambaは22のADMETデータセットの競合性能を示し,14のタスクで最高スコアを達成した。
    論文  参考訳(メタデータ)   (Sun, 11 Aug 2024 04:53:12 GMT)
  • SMILESに対してもMambaが有効とのこと
  • transformerの代替として有望そう