GLM 4.7, MiniMax M2.1 , ERNIE-5.0-Preview-1203

先週は中国のフロンティアモデルに関する発表が目立った。マイナーアップデートが多いものの着実な性能アップを実現している。GLM-4.7(XユーザーのZ.aiさん: 「GLM-4.7 is here! GLM-4.7 surpasses GLM-4.6 with substantial improvements in coding, complex reasoning, and tool usage, setting new open-source SOTA standards. It also boosts performance in chat, creative writing, and role-play scenarios. Default Model for Coding Plan: https://t.co/3vDzwof7A8」 / X、リポジトリ:zai-org/GLM-4.7 · Hugging Face)、MiniMax M2.1(XユーザーのMiniMax (official)さん: 「MiniMax M2.1 is OPEN SOURCE: SOTA for real-world dev & agents • SOTA on coding benchmarks (SWE / VIBE / Multi-SWE) • Beats Gemini 3 Pro & Claude Sonnet 4.5 • 10B active / 230B total (MoE) Not just SOTA, faster to infer, easier to deploy, and yes, you can even run it locally https://t.co/atCML3vq8C」 / X、リポジトリ:MiniMaxAI/MiniMax-M2.1 · Hugging Face)ともモデルが公開されているのがすばらしい。ERNIE 5.0(Best Text model from China in LMArena is now ERNIE-5.0-Preview-1203! | ERNIE Blog)も強力そう。

Nemotron3については論文が出ていた。強力な公開モデルが増えており、また、アップデートもされており良い時代である(?)

  • NVIDIA Nemotron 3: Efficient and Open Intelligence [227.5]
    ネモトロン3シリーズは強力なエージェント、推論、会話能力を提供する。 ネモトロン3モデルは、推論を可能にするマルチ環境強化学習、多段階ツールの使用、きめ細かい推論予算制御のサポートを用いて、後から訓練される。 Nemotron 3ファミリは、Mixture-of-ExpertsハイブリッドのMamba-Transformerアーキテクチャを使用して、最高レベルのスループットと最大100万トークンのコンテキスト長を提供する。
    論文  参考訳(メタデータ)   (Wed, 24 Dec 2025 00:24:05 GMT)
  • 「The Nemotron 3 family uses a Mixture-of-Experts hybrid Mamba–Transformer architecture to provide best-in-class throughput and context lengths of up to 1M tokens. 」とMambaハイブリッド、長文対応なモデル。
  • Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning [223.9]
    Nemotron 3 Nano 30B-A3BはMixture-of-ExpertsハイブリッドMamba-Transformer言語モデルである。 ネモトロン3ナノは25兆個のテキストトークンで事前訓練され、その中にはネモトロン2に3兆以上の新しいユニークなトークンが含まれていた。
    論文  参考訳(メタデータ)   (Tue, 23 Dec 2025 23:54:32 GMT)
  • リポジトリはnvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8 · Hugging Face

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です