GLM-4.5, Step-3, Falcon-H1, HunyuanWorld

先週は残念ながらGPT-5の発表はなかった。注目のモデルはMoE構成で商用モデルに匹敵するGLM-4.5(zai-org/GLM-4.5: GLM-4.5: An open-source large language model designed for intelligent agents by Z.ai)である。最大構成の355B-A32Bはo3やGrok4、Claude 4 Opusといったフロンティアなモデルと競合しているようにみえる。StepFunのStep-3はアクティブパラメータとデコードコストのトレードオフに注目したモデルで推論効率が高い。またVLMでありその点の性能も高い。Falcon-H1シリーズは様々な規模のモデルでtransformer, mambaハイブリッドとなっている。様々な企業・県有機関からこのような公開モデルが出ている現状はとても面白い。GPT-5がこれらを引き離せるか要注目。

別軸でTencent Hunyuanからは3D世界を作れるモデルHunyuanWorld-1.0が発表されている(腾讯混元3D)。こちらも公開モデルとなっている点がうれしい。

  • Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding [144.7]
    大規模言語モデル(LLM)はデコード時にハードウェア効率が低下する。 本稿では,デコードコストの最小化に最適化されたハードウェア対応モデルシステムであるStep-3を紹介する。 Step-3はDeepSeek-V3やQwen3 MoE 235Bのようなモデルと比較して、理論的デコードコストを大幅に削減する。
    論文  参考訳(メタデータ)   (Fri, 25 Jul 2025 16:53:13 GMT)
  • リポジトリはstepfun-ai/Step3Step3 – a stepfun-ai Collection
  • Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance [7.3]
    Falcon-H1は、高性能と効率の両方に最適化されたハイブリッドアーキテクチャを備えた、新しい大規模言語モデル(LLM)である。 Falcon-H1は、0.5B, 1.5B, 1.5B-deep, 3B, 7B, 34Bパラメータのベースおよび命令調整型を含む複数の構成でリリースされている。 最大256Kコンテキストトークンと18言語のサポートにより、Falcon-H1は幅広いアプリケーションに適している。
    論文  参考訳(メタデータ)   (Wed, 30 Jul 2025 07:55:33 GMT)
  • 詳細なレポートともに公開されたモデル。
  • リポジトリはtiiuae/Falcon-H1: All information and news with respect to Falcon-H1 series、モデルはtiiuae (Technology Innovation Institute)
  • Kimi K2: Open Agentic Intelligence [118.8]
    Kimi K2は32億の活性化パラメータと1兆の総パラメータを持つ大きな言語モデルである。 MuonClipに基づいて、K2は15.5兆のトークンで事前訓練され、損失のスパイクはゼロだった。 Kimi K2は、オープンソース非思考モデルの間で最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Mon, 28 Jul 2025 05:35:43 GMT)
  • KIMI K2の論文が出ていた。LLMなのかLRMなのかは議論が分かれるように思わなくもない。MuonClip optimizer の使用や合成データの活用など面白い記載が多い。
  • リポジトリはmoonshotai/Kimi-K2-Instruct · Hugging Face

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です