Hunyuan3D-Omni, Qwen3-Omni, LongCat-Flash-Thinking, EmbeddingGemma, Logics-Parsing 

公開モデルの開発はとても盛んで、先週はQwen3 Omniが話題になることが多かったように思う。arXivではQwen3 Omini以外にも有望なモデルの発表が相次いでいる。

  • Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets [34.7]
    Hunyuan3D-Omniは、Hunyuan3D 2.1上に構築されたきめ細かい制御可能な3Dアセット生成のための統一されたフレームワークである。 我々のモデルは単一のクロスモーダルアーキテクチャで全ての信号を統一する。 実験により、これらの追加制御により生成精度が向上し、幾何認識変換が可能となり、生産の堅牢性も向上することが示された。
    論文  参考訳(メタデータ)   (Thu, 25 Sep 2025 14:39:17 GMT)
  • 3Dにフォーカスした実装
  • リポジトリはGitHub – Tencent-Hunyuan/Hunyuan3D-Omni: Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
  • LongCat-Flash-Thinking Technical Report [116.8]
    LongCat-Flash-ThinkingはオープンソースのMixture-of-Experts (MoE)推論モデルである。 高度な能力は、巧妙に製作された訓練プロセスを通じて育成される。 LongCat-Flash-Thinkingは、複雑な推論タスクのスイート上で、オープンソースモデル間の最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Tue, 23 Sep 2025 10:25:48 GMT)
  • MoEなLRM、OSSなモデルでのSoTAを主張
  • リポジトリはmeituan-longcat/LongCat-Flash-Thinking · Hugging Face
  • EmbeddingGemma: Powerful and Lightweight Text Representations [42.4]
    EmbeddingGemmaはGemma 3言語ファミリに基づいた、新しい軽量でオープンなテキスト埋め込みモデルである。 スプレッドアウト正規化器を用いてモデル頑健性と表現性を向上する。 さらなる研究を促進するため、コミュニティに EmbeddingGemma をリリースします。
    論文  参考訳(メタデータ)   (Wed, 24 Sep 2025 17:56:51 GMT)
  • 小規模、強力なEmbeddingモデル
  • リポジトリはEmbeddingGemma – a google Collection
  • Logics-Parsing Technical Report [9.0]
    我々は、強化学習を付加したエンドツーエンドのLVLMモデルであるLogics-Parsingを提案する。 本モデルでは、複雑なレイアウト解析と読み出し順序推定を最適化するために、厳密に設計された報酬機構を組み込んでいる。 LogicsParsingBenchは、9つの主要なカテゴリと20以上のサブカテゴリにまたがる1,078ページレベルのPDFイメージのキュレートされたセットである。
    論文  参考訳(メタデータ)   (Wed, 24 Sep 2025 04:54:37 GMT)
  • Document Understandingに有効なLVLM
  • リポジトリはGitHub – alibaba/Logics-Parsing

GLM-4.5, Step-3, Falcon-H1, HunyuanWorld

先週は残念ながらGPT-5の発表はなかった。注目のモデルはMoE構成で商用モデルに匹敵するGLM-4.5(zai-org/GLM-4.5: GLM-4.5: An open-source large language model designed for intelligent agents by Z.ai)である。最大構成の355B-A32Bはo3やGrok4、Claude 4 Opusといったフロンティアなモデルと競合しているようにみえる。StepFunのStep-3はアクティブパラメータとデコードコストのトレードオフに注目したモデルで推論効率が高い。またVLMでありその点の性能も高い。Falcon-H1シリーズは様々な規模のモデルでtransformer, mambaハイブリッドとなっている。様々な企業・県有機関からこのような公開モデルが出ている現状はとても面白い。GPT-5がこれらを引き離せるか要注目。

別軸でTencent Hunyuanからは3D世界を作れるモデルHunyuanWorld-1.0が発表されている(腾讯混元3D)。こちらも公開モデルとなっている点がうれしい。

  • Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding [144.7]
    大規模言語モデル(LLM)はデコード時にハードウェア効率が低下する。 本稿では,デコードコストの最小化に最適化されたハードウェア対応モデルシステムであるStep-3を紹介する。 Step-3はDeepSeek-V3やQwen3 MoE 235Bのようなモデルと比較して、理論的デコードコストを大幅に削減する。
    論文  参考訳(メタデータ)   (Fri, 25 Jul 2025 16:53:13 GMT)
  • リポジトリはstepfun-ai/Step3Step3 – a stepfun-ai Collection
  • Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance [7.3]
    Falcon-H1は、高性能と効率の両方に最適化されたハイブリッドアーキテクチャを備えた、新しい大規模言語モデル(LLM)である。 Falcon-H1は、0.5B, 1.5B, 1.5B-deep, 3B, 7B, 34Bパラメータのベースおよび命令調整型を含む複数の構成でリリースされている。 最大256Kコンテキストトークンと18言語のサポートにより、Falcon-H1は幅広いアプリケーションに適している。
    論文  参考訳(メタデータ)   (Wed, 30 Jul 2025 07:55:33 GMT)
  • 詳細なレポートともに公開されたモデル。
  • リポジトリはtiiuae/Falcon-H1: All information and news with respect to Falcon-H1 series、モデルはtiiuae (Technology Innovation Institute)
  • Kimi K2: Open Agentic Intelligence [118.8]
    Kimi K2は32億の活性化パラメータと1兆の総パラメータを持つ大きな言語モデルである。 MuonClipに基づいて、K2は15.5兆のトークンで事前訓練され、損失のスパイクはゼロだった。 Kimi K2は、オープンソース非思考モデルの間で最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Mon, 28 Jul 2025 05:35:43 GMT)
  • KIMI K2の論文が出ていた。LLMなのかLRMなのかは議論が分かれるように思わなくもない。MuonClip optimizer の使用や合成データの活用など面白い記載が多い。
  • リポジトリはmoonshotai/Kimi-K2-Instruct · Hugging Face