Grok 2.5, HERMES 4, InternVL3.5, VIBEVOICE

先週は公開モデルに関する話題が多かった。X.aiからはアナウンス通りGrok2のウェイトが公開された(https://x.com/elonmusk/status/1959379349322313920 / xai-org/grok-2 · Hugging Face)。Grok3も半年程度で公開とのこと。HERMES, InternVLからも新しいモデルが出ている。アプローチは様々とはいえ、着々とモデルを構築しフロンティアに追いついているのは凄いことである。Microsoft ResearchからはText-to-SpeechのOSSモデルが公開された(VibeVoice)。特化型を使う場面も多々残っていてありがたい。

  • InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency [245.9]
    InternVL 3.5は、多目的性、推論能力、推論効率を大幅に向上させる、オープンソースの新しいマルチモーダルモデルである。 主要なイノベーションはCascade Reinforcement Learningフレームワークで、2段階のプロセスを通じて推論を強化する。 我々の最大のモデルであるInternVL3.5-241B-A28Bは、一般的なマルチモーダル、推論、テキスト、エージェントタスクにわたるオープンソースのMLLMの最先端の結果を得る。
    論文  参考訳(メタデータ)   (Mon, 25 Aug 2025 17:58:17 GMT)
  • InternVLの最新版。LLM部分のベースモデルとしてQwen3シリーズとGPT-OSSを使用。GPT-OSS-20B, Qwen3-30B-A3Bの比較も興味深い。(パラメータサイズの差かQwen3の方が性能が高い。)
  • リポジトリはOpenGVLab/InternVL3_5-241B-A28B · Hugging Face
  • Hermes 4 Technical Report [7.6]
    Hermes 4は、構造化されたマルチターン推論と幅広い命令追従能力を組み合わせたハイブリッド推論モデルのファミリーである。 データキュレーション、合成、トレーニング、評価で直面する課題について述べ、これらの課題を大規模に解決するためのソリューションの概要を述べる。
    論文  参考訳(メタデータ)   (Mon, 25 Aug 2025 17:45:06 GMT)
  • リポジトリはHermes 4 Collection – a NousResearch Collection

Deep Think with Confidence

  • Deep Think with Confidence [33.2]
    私たちはDeep Think with Conf(DeepConf)という,テスト時の推論効率とパフォーマンスを両立させる,シンプルかつ強力な手法を紹介します。 DeepConfは、生成時に低品質な推論トレースを動的にフィルタリングし、トークン生成を削減しながら精度を維持または向上させます。評価の結果、DeepConfはAIME 2025などの課題で99.9%の精度を達成し、従来の方法に比べて84.7%のトークン削減を実現しました。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 05:48:38 GMT)
  • モデル内の確信度を活用して推論を制御する手法の提案。シンプルだが強力とのこと。
  • リポジトリはDeep Think with Confidence

Command A Reasoning, DeepSeek V3.1, Gemma 3 270M, Nemotron Nano 2, Dream 7B

LLM/LRM関連の話題は本当に多い。先週はCohere’s Command A Reasoning Model | Cohere(モデルはCohere’s Command A Reasoning Model | Cohere、CC-BY-NC)の公開、DeepSeek V3.1の公開(DeepSeek-V3.1 Release | DeepSeek API Docs、モデルはdeepseek-ai/DeepSeek-V3.1 · Hugging Face)が大きなニュースだった。フロンティアまたはそれに近いモデルが公開される意義は大きい。また、Intern-S1からはテクニカルレポートが公開されている。

a

小型モデル関連でもGemma 3 270M(Introducing Gemma 3 270M: The compact model for hyper-efficient AI – Google Developers Blog、モデルはgoogle/gemma-3-270m · Hugging Face)は超小型であることが興味深い。性能的には疑問があるとはいえ特化用途にPost trainingするなど使える場面はありそう。NVIDIA のMemtron Nano2も注目である(Nanoという名前で9B)。

HuaweiからはDiffusion系のDream 7Bの論文が出ていた。LLaDAを超え、同規模のAutoregressiveなモデルに負けていなさそうと高い性能。

  • Intern-S1: A Scientific Multimodal Foundation Model [185.4]
    Intern-S1は、一般的な理解と推論機能を備えた専門的なジェネラリストである。 Intern-S1はオフラインおよびオンライン強化学習(RL)をInternBootCampで実施する。 Intern-S1は、オープンソースモデル間の一般的な推論タスクにおける競合性能を示す。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 17:58:00 GMT)
  • Qwen3-Coder, Intern-S1, Step-Audio2, TeleChat2 – arXiv最新論文の紹介で取り上げたモデルのテクニカルレポート
  • NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model [176.4]
    Nemotron-Nano-9B-v2は、推論処理のスループットを向上させるために設計されたハイブリッドのMamba-Transformer言語モデルである。 Nemotron-Nano-9B-v2はNemotron-Hアーキテクチャをベースにしており、共通のTransformerアーキテクチャの自己保持層の大部分をMamba-2層に置き換えている。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 04:18:04 GMT)
  • nvidia/NVIDIA-Nemotron-Nano-9B-v2 · Hugging Face
  • Dream 7B: Diffusion Large Language Models [85.3]
    これまでで最も強力なオープン拡散大言語モデルであるDream 7Bを紹介します。 我々のモデルは、一般的な、数学的、コーディングタスクにおいて、既存の拡散言語モデルよりも一貫して優れています。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 12:09:58 GMT)
  • 「Dream 7B achieves competitive performance with Qwen 2.5 on standard benchmarks (general language understanding, mathematical reasoning, and code generation) while exhibiting superior planning abilities and novel inference flexibility features that naturally emerge from the diffusion modeling paradigm.」とのこと。
  • リポジトリはGitHub – DreamLM/Dream: Dream 7B, a large diffusion language model、モデルはDream 7B – a Dream-org Collection

Don’t Overthink It: A Survey of Efficient R1-style Large Reasoning Models

  • Don’t Overthink It: A Survey of Efficient R1-style Large Reasoning Models [49.6]
    大規模共振モデル (LRM) は, 複雑なタスクの処理性能に優れていたため, 徐々に研究ホットスポットになりつつある。 しかし、これらのモデルが広く適用されたことにより、過度に考え直すという問題が徐々に顕在化していった。 モデル性能と推論能力を損なうことなく、推論経路の長さを短縮することを目的とした、様々な効率的な推論手法が提案されている。
    論文  参考訳(メタデータ)   (Mon, 04 Aug 2025 06:54:31 GMT)
  • Reasoningの効率化に関するサーベイだが、すでに様々なアプローチと多くの研究成果があるのに驚き
  • リポジトリはyuelinan/Awesome-Efficient-R1-style-LRMs

GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

  • GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models [194.6]
    GLM-4.5はオープンソースのMixture-of-Experts(MoE)大言語モデルであり,総パラメータは355B,アクティベートパラメータは32Bである。 23Tトークンのマルチステージトレーニングと、エキスパートモデルのイテレーションと強化学習による総合的なポストトレーニングを通じて、GLM-4.5はエージェント、推論、コーディングタスクにわたって強力なパフォーマンスを実現している。 GLM-4.5(355Bパラメータ)とGLM-4.5-Air(106Bパラメータ)をそれぞれリリースし、推論とエージェントAIシステムの研究を進めた。
    論文  参考訳(メタデータ)   (Fri, 08 Aug 2025 17:21:06 GMT)
  • GLM-4.5(GLM-4.5, Step-3, Falcon-H1, HunyuanWorld – arXiv最新論文の紹介)の論文。性能の割にパラメータ(特にアクティブパラメータ)が少ない。詳細に比較しないと何とも言えないところではあるが、GPT-OSSとの比較が気になるところ。
  • リポジトリはGitHub – zai-org/GLM-4.5: GLM-4.5: An open-source large language model designed for intelligent agents by Z.ai

GPT-5, GPT-OSS, Claude Opus 4.1

先週はGPT-5(GPT-5 が切り拓く働き方の新時代 | OpenAI)、gpt-oss 20B・120B(gpt-oss が登場 | OpenAI), Claude Opus 4.1(Claude Opus 4.1 \ Anthropic), DeepMind Genie 3(Genie 3: A new frontier for world models – Google DeepMind)と大きな発表が相次いだ。

GPT-5はベンチマーク性能でSoTAをしっかりとっており非常に性能が高い。一方でその少し前に発表されたClaude 4.1 Opusとの性能差が大きくなかったこと(システムカードの「All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.」(gpt5-system-card-aug7.pdf)という記述も気になる)や、Chatbot Arenaの日本語版でGemini 2.5 Proに負けていること(かつ1 vs 1の勝負などGemini 2.5 Proの勝率の方が高い)などから期待ほどではないという印象もある。それとGPT-5でも創作漢字(Pixels, Patterns, but No Poetry: To See The World like Humans  – arXiv最新論文の紹介)は読めなかった・・・。戦略的な価格付けであり、また、Measuring AI Ability to Complete Long Tasks – METRではまさにフロンティアなスコアを出していることもあって実態がどうかの評価にはもう少し時間が必要そう。

GPT-OSSは性能の高い公開モデルであり、Apache-2ライセンス。実用的なレベルと思われるモデルが公開された意義は大きい。From GPT-2 to gpt-oss: Analyzing the Architectural Advancesではtransformerといっても様々な改善がされてきたことが分かる。

Claude 4.1 Opus, Gemini 2.5 ProとOpenAI以外の会社も非常に高性能なモデルを出しており、DeepSeekやKimi、Hunyuanといった中国のモデルの高性能化も進んでいる。OpenAI一強は終わっているものの進化は続いている印象。

GLM-4.5, Step-3, Falcon-H1, HunyuanWorld

先週は残念ながらGPT-5の発表はなかった。注目のモデルはMoE構成で商用モデルに匹敵するGLM-4.5(zai-org/GLM-4.5: GLM-4.5: An open-source large language model designed for intelligent agents by Z.ai)である。最大構成の355B-A32Bはo3やGrok4、Claude 4 Opusといったフロンティアなモデルと競合しているようにみえる。StepFunのStep-3はアクティブパラメータとデコードコストのトレードオフに注目したモデルで推論効率が高い。またVLMでありその点の性能も高い。Falcon-H1シリーズは様々な規模のモデルでtransformer, mambaハイブリッドとなっている。様々な企業・県有機関からこのような公開モデルが出ている現状はとても面白い。GPT-5がこれらを引き離せるか要注目。

別軸でTencent Hunyuanからは3D世界を作れるモデルHunyuanWorld-1.0が発表されている(腾讯混元3D)。こちらも公開モデルとなっている点がうれしい。

  • Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding [144.7]
    大規模言語モデル(LLM)はデコード時にハードウェア効率が低下する。 本稿では,デコードコストの最小化に最適化されたハードウェア対応モデルシステムであるStep-3を紹介する。 Step-3はDeepSeek-V3やQwen3 MoE 235Bのようなモデルと比較して、理論的デコードコストを大幅に削減する。
    論文  参考訳(メタデータ)   (Fri, 25 Jul 2025 16:53:13 GMT)
  • リポジトリはstepfun-ai/Step3Step3 – a stepfun-ai Collection
  • Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance [7.3]
    Falcon-H1は、高性能と効率の両方に最適化されたハイブリッドアーキテクチャを備えた、新しい大規模言語モデル(LLM)である。 Falcon-H1は、0.5B, 1.5B, 1.5B-deep, 3B, 7B, 34Bパラメータのベースおよび命令調整型を含む複数の構成でリリースされている。 最大256Kコンテキストトークンと18言語のサポートにより、Falcon-H1は幅広いアプリケーションに適している。
    論文  参考訳(メタデータ)   (Wed, 30 Jul 2025 07:55:33 GMT)
  • 詳細なレポートともに公開されたモデル。
  • リポジトリはtiiuae/Falcon-H1: All information and news with respect to Falcon-H1 series、モデルはtiiuae (Technology Innovation Institute)
  • Kimi K2: Open Agentic Intelligence [118.8]
    Kimi K2は32億の活性化パラメータと1兆の総パラメータを持つ大きな言語モデルである。 MuonClipに基づいて、K2は15.5兆のトークンで事前訓練され、損失のスパイクはゼロだった。 Kimi K2は、オープンソース非思考モデルの間で最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Mon, 28 Jul 2025 05:35:43 GMT)
  • KIMI K2の論文が出ていた。LLMなのかLRMなのかは議論が分かれるように思わなくもない。MuonClip optimizer の使用や合成データの活用など面白い記載が多い。
  • リポジトリはmoonshotai/Kimi-K2-Instruct · Hugging Face

The Impact of Language Mixing on Bilingual LLM Reasoning

  • The Impact of Language Mixing on Bilingual LLM Reasoning [4.5]
    中国語と英語のバイリンガル推論モデルにおける言語スイッチングについて検討する。 単言語復号を強制すると 数学推論タスクの精度は 5.6 ポイント低下する 潜在的な言語スイッチが、推論に害を与えるかどうかを予測するために、軽量なプローブをトレーニングすることができる。
    論文  参考訳(メタデータ)   (Mon, 21 Jul 2025 17:56:09 GMT)
  • LRMでよく見る推論過程で様々な言語が混じる問題について、「Discouraging this behavior in DeepSeek-R1 was found to degrade accuracy, suggesting that language mixing may benefit reasoning.」とのこと。また、「Altogether, these results suggest that language mixing is not a random artifact of multilingual training but a deliberate strategy that LLMs adopt to improve complex reasoning.」という記載もある。

Qwen3-Coder, Intern-S1, Step-Audio2, TeleChat2

Claude 4 sonnetレベルのQwen3 Coder(QwenLM/Qwen3-Coder: Qwen3-Coder is the code version of Qwen3, the large language model series developed by Qwen team, Alibaba Cloud.)、235B MoE language model (Qwen3) + 6B Vision encoder (InternViT)で強力なマルチモーダルLRM Intern S1(InternLM/Intern-S1)、Kimi K2のテクニカルレポート公開(Kimi-K2/tech_report.pdf at main · MoonshotAI/Kimi-K2)、と中国のモデルに関する話題が多かった。Qwen3-Instruct-2507(QwenLM/Qwen3: Qwen3 is the large language model series developed by Qwen team, Alibaba Cloud.)でKIMI K2越えが主張されたりと競争が激しい。

音声関連でもStepFunからStep-Audio 2 Technical Report、TeleAIからTECHNICAL REPORT OF TELECHAT2, TELECHAT2.5 AND T1が公開されている。いずれも優れた性能を主張。加えてGR-3のようなロボット関連の論文にも興味津々。

そして、もう間もなく、GPT-5が発表されるはずで、進化は続きそう。

  • GR-3 Technical Report [21.9]
    GR-3は、大規模な視覚言語アクション(VLA)モデルである。 抽象概念を含む新しいオブジェクト、環境、命令を一般化する際、例外的な能力を示す。 GR-3は、両手動操作や移動動作を必要とするタスクを含む、長い水平および外接なタスクの処理に長けている。
    論文  参考訳(メタデータ)   (Mon, 21 Jul 2025 10:54:13 GMT)
  • プロジェクトサイトはByteDance Seed
  • Apple Intelligence Foundation Language Models: Tech Report 2025 [246.0]
    AppleのデバイスやサービスにまたがってAppleのインテリジェンス機能を駆動する2つの基礎言語モデルを紹介します。 どちらのモデルも、責任あるWebクローリングを通じてソースされる大規模なマルチリンガルデータセットとマルチモーダルデータセットに基づいてトレーニングされている。 新しいSwift中心のFoundation Modelsフレームワークでは、ガイド付き生成、制約付きツール呼び出し、LoRAアダプタの微調整が公開されている。
    論文  参考訳(メタデータ)   (Thu, 17 Jul 2025 23:37:19 GMT)
  • Apple IntelligenceのテクニカルレポートがarXivに公開されていた。
  • 「We found that AFM on-device model performs better than Qwen-2.5-3B, Gemma-3-4B and Gemma-3n-E4B on MMLU/MMMLU, but it lags slightly behind Gemma-3n-E4B on MGSM. AFM on-device model performs lower than the larger Qwen-3-4B model. AFM server models lag slightly to LLaMA 4 Scout, whose total size and active number of parameters are comparable, but has a bigger gap to larger models such as Qwen-3-235B and the proprietary GPT-4o.」と評価している。

EXAONE 4.0: Unified Large Language Models Integrating Non-reasoning and Reasoning Modes

  • EXAONE 4.0: Unified Large Language Models Integrating Non-reasoning and Reasoning Modes [42.3]
    EXAONE 4.0は、EXAONE 3.5の優れた使いやすさとEXAONE Deepの高度な推論能力の両方を達成するために、非推論モードと推論モードを統合している。 EXAONE 4.0シリーズは、高性能に最適化された中型32Bモデルと、オンデバイスアプリケーション用に設計された小型1.2Bモデルである。
    論文  参考訳(メタデータ)   (Tue, 15 Jul 2025 15:24:51 GMT)
  • LLM/LRMハイブリッドなLGのモデル。「Unified Mode Training In the combined dataset, the NON-REASONING data primarily consists of diverse tasks, while the REASONING data is centered on Math and Code domains. Rather than fine-tuning the two modes sequentially, we combine both modes and train them together.」とのこと。構築過程の「After unified NON-REASONING/REASONING mode fine-tuning, to address domain imbalance, we perform a second round of training using high-quality REASONING data from the Code and Tool Use domains, reusing these samples to further enhance the performance.」が興味深い。
  • リポジトリはLGAI-EXAONE (LG AI Research)