A.X K1, EXAONE, VAETKI, HyperCLOVAX, Solar Open, IQuest Coder, TeleChat3-MoE, SenseNova-MARS

Manusの買収(?)など先週も大きなニュースがあったが、韓国の科学技術情報通信部が独自AI基盤モデル第1回発表会を開催 – ChosunBizは興味深かった。下記のモデルに関する発表があったよう。

アップステージのソーラ・オープン100Bが中国モデル類似疑惑で公開検証へ – ChosunBizという指摘もあるようだが、ソブリンAIの開発は重要であるし、また、公開モデルの方向性としても要注目。(何をソブリンAIとして定義するかは悩ましい問題でもある。)

上記とは別に、IQuest Coderのような高性能モデルが公開、TELECHAT3やSenseNova-MARSといった強力なLLM、推論・検索フレームワークについても発表が相次いでおり、今年も熱い状況が続きそう。

  • IQuest_Coder_Technical_Report
    IQuest-Coder-V1シリーズは、コード大規模言語モデル(LLMs)の新しいファミリーであり、ソフトウェアロジックの動的進化を捉える多段階トレーニングパラダイムを提案しています。このモデルは、事前トレーニングから専門的な中間トレーニング、二つのポストトレーニングパスを経て高度なコードインテリジェンスを実現し、エージェント的なソフトウェアエンジニアリングや競技プログラミングにおいて最先端の性能を達成しています。さらに、リカレントメカニズムを導入したIQuest-Coder-V1-Loopは、モデルの能力と展開サイズの最適化のトレードオフを改善するためのアーキテクチャ的な進化を提供します。
  • Training Report of TeleChat3-MoE [77.9]
    この技術的レポートは、主に、フロンティアモデルサイズへの信頼性と効率的なスケーリングを可能にする、基礎となるトレーニングインフラストラクチャを提示する。 本稿では,ハードウェアプラットフォーム間の整合性を確保するため,演算子レベルとエンドツーエンドの数値検証精度の体系的手法を詳述する。 解析的推定と整数線形プログラミングを利用した並列化フレームワークも提案され,多次元並列化の構成を最適化する。
    論文  参考訳(メタデータ)   (Tue, 30 Dec 2025 11:42:14 GMT)
  • リポジトリはGitHub – Tele-AI/TeleChat3
  • SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning [57.1]
    SenseNova-MARSは、Multimodal Agentic Reasoning and Searchフレームワークである。 画像検索、テキスト検索、画像収穫ツールを動的に統合し、知識集約型視覚理解の課題に対処する。 SenseNova-MARSは、オープンソースの検索ときめ細かい画像理解ベンチマークで最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Tue, 30 Dec 2025 16:31:45 GMT)
  • リポジトリはGitHub – OpenSenseNova/SenseNova-MARS

Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models 

  • Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models [78.7]
    ネイティブエージェントインテリジェンスと高い計算効率を調和させる軽量言語モデルであるYoutu-LLMを紹介する。 Youtu-LLMは、スクラッチから体系的に推論と計画能力の育成まで事前訓練されている。
    論文  参考訳(メタデータ)   (Wed, 31 Dec 2025 04:25:11 GMT)
  • 「Youtu-LLM significantly outperforms existing state-of-the-art models of similar scale across both general- purpose (Figure 2) and agentic benchmarks (Figure 1), and in several settings, rivals substantially larger models. Beyond performance gains, our analyses provide the first systematic evidence that agentic pre- training can unlock agent potential in lightweight LLMs, revealing phenomena such as scalable growth of agent capabilities.」と小規模、エージェント向けのモデルの提案。オンデバイスを狙うとエージェント関連の能力を保ったままの小型化が重要であり「We propose a principled training paradigm that enhances native agentic capabilities through innovations in tokenizer design, data allocation, and multi-stage learning, guided by an agent-centric philosophy.」とあるように狙って強化することもできるよう。
  • リポジトリはGitHub – TencentCloudADP/youtu-tip: Youtu-Tip: Tap for Intelligence, Keep on Device.、モデルはYoutu – a tencent Collection

GLM 4.7, MiniMax M2.1 , ERNIE-5.0-Preview-1203

先週は中国のフロンティアモデルに関する発表が目立った。マイナーアップデートが多いものの着実な性能アップを実現している。GLM-4.7(XユーザーのZ.aiさん: 「GLM-4.7 is here! GLM-4.7 surpasses GLM-4.6 with substantial improvements in coding, complex reasoning, and tool usage, setting new open-source SOTA standards. It also boosts performance in chat, creative writing, and role-play scenarios. Default Model for Coding Plan: https://t.co/3vDzwof7A8」 / X、リポジトリ:zai-org/GLM-4.7 · Hugging Face)、MiniMax M2.1(XユーザーのMiniMax (official)さん: 「MiniMax M2.1 is OPEN SOURCE: SOTA for real-world dev & agents • SOTA on coding benchmarks (SWE / VIBE / Multi-SWE) • Beats Gemini 3 Pro & Claude Sonnet 4.5 • 10B active / 230B total (MoE) Not just SOTA, faster to infer, easier to deploy, and yes, you can even run it locally https://t.co/atCML3vq8C」 / X、リポジトリ:MiniMaxAI/MiniMax-M2.1 · Hugging Face)ともモデルが公開されているのがすばらしい。ERNIE 5.0(Best Text model from China in LMArena is now ERNIE-5.0-Preview-1203! | ERNIE Blog)も強力そう。

Nemotron3については論文が出ていた。強力な公開モデルが増えており、また、アップデートもされており良い時代である(?)

  • NVIDIA Nemotron 3: Efficient and Open Intelligence [227.5]
    ネモトロン3シリーズは強力なエージェント、推論、会話能力を提供する。 ネモトロン3モデルは、推論を可能にするマルチ環境強化学習、多段階ツールの使用、きめ細かい推論予算制御のサポートを用いて、後から訓練される。 Nemotron 3ファミリは、Mixture-of-ExpertsハイブリッドのMamba-Transformerアーキテクチャを使用して、最高レベルのスループットと最大100万トークンのコンテキスト長を提供する。
    論文  参考訳(メタデータ)   (Wed, 24 Dec 2025 00:24:05 GMT)
  • 「The Nemotron 3 family uses a Mixture-of-Experts hybrid Mamba–Transformer architecture to provide best-in-class throughput and context lengths of up to 1M tokens. 」とMambaハイブリッド、長文対応なモデル。
  • Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning [223.9]
    Nemotron 3 Nano 30B-A3BはMixture-of-ExpertsハイブリッドMamba-Transformer言語モデルである。 ネモトロン3ナノは25兆個のテキストトークンで事前訓練され、その中にはネモトロン2に3兆以上の新しいユニークなトークンが含まれていた。
    論文  参考訳(メタデータ)   (Tue, 23 Dec 2025 23:54:32 GMT)
  • リポジトリはnvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8 · Hugging Face

OpenAI GPT Image-1.5, Gemini 3.0 Flash, Nemotron 3, Xiaomi MiMo-V2-Flash, Olmo 3(論文), Bolmo, LLaDA2.0, Step-GUI, Seedance 1.5 pro, Kling-Omni

OpenAIとGoogleの競争は激しく、OpenAIからはNanoBananaに対抗すると見込まれるGPT Image-1.5が発表された(GPT Image 1.5 Model | OpenAI API)。Googleからはコスパに優れるGemini 3.0 Flash(Introducing Gemini 3 Flash: Benchmarks, global availability)が出ている。とてもコストが安いが一部ベンチマークではProを超えているようにも見え、コスパが高い。

オープン系のモデルでも、Nemotron 3(NVIDIA Nemotron 3 Family of Models – NVIDIA Nemotron)、Xiaomi MiMo-V2-Flash(Xiaomi MiMoXユーザーのXiaomiMiMoさん: 「⚡ Faster than Fast. Designed for Agentic AI. Introducing Xiaomi MiMo-V2-Flash — our new open-source MoE model: 309B total params, 15B active. Blazing speed meets frontier performance. 🔥 Highlights: 🏗️ Hybrid Attention: 5:1 interleaved 128-window SWA + Global | 256K context 📈 https://t.co/yCqP4L8bU4」 / X)、Step-GUI(GELab-Zero – GUI Agent for Mobile Devices)など注目すべき発表があった。Ai2からはOlmo3に関する論文が出ているほか、byte-level language modelという興味深いモデルも発表されている。新たなモデルという観点は規模の大きなDiffusion Language Models、LLaDA2.0にも要注目である。

動画関連でもSeedance 1.5 proや Kling-Omniのテクニカルレポートが発表されている。

  • Step-GUI Technical Report [83.9]
    本稿では,Calibrated Step Reward Systemを利用した自己進化型トレーニングパイプラインを提案する。 また、最先端のGUI性能を実現するモデル群であるStep-GUIについても紹介する。 エージェントが日常的に使えるかどうかを評価するために,AndroidDailyを紹介した。
    論文  参考訳(メタデータ)   (Wed, 17 Dec 2025 13:26:30 GMT)
  • 「we introduce a self-evolving training pipeline centered on the Calibrated Step Reward System (CSRS).」、「The system consists of a Calibration Layer that performs trajectory-level validation (success/failure) and a Data Extraction module powered by thinking models that generates seven categories of structured training data. Model-generated trajectories flow through CSRS in an iterative loop: rollout generates trajectories, CSRS processes them into high-quality training data, and training produces stronger models for the next iteration.」と凝ったパイプライン。7つのカテゴリのデータとは「(1) progress tracking, (2) state summary, (3) effect prediction, (4) self-reflection, (5) state verification, (6) intent execution, and (7) action prediction」を指す。
  • リポジトリはGitHub – stepfun-ai/gelab-zero: GELab: GUI Exploration Lab. One of the best GUI agent solutions in the galaxy, built by the StepFun-GELab team and powered by Step’s research capabilities.
  • Olmo 3 [195.4]
    Olmo 3は、7Bおよび32Bパラメータスケールの最先端で完全にオープンな言語モデルのファミリーである。 私たちのフラッグシップモデルであるOlmo 3 Think 32Bは、これまでリリースされた中で最強の完全オープンな思考モデルです。
    論文  参考訳(メタデータ)   (Mon, 15 Dec 2025 23:41:48 GMT)
  • Olmo3の論文。論文を出すのが間に合っていないくらい進展が速い・・・
  • データやトレーニングログなど、モデルだけでなく様々な部分が公開されている。
  • Bolmo: Byteifying the Next Generation of Language Models [115.3]
    競合する完全オープンなバイトレベル言語モデル(LM)の最初のファミリーであるBolmoを紹介します。 バイト化はサブワードトークン化の限界を克服する。 我々はBolmoがサブワードレベルのLMと競合する推論速度を実現できることを示す。
    論文  参考訳(メタデータ)   (Wed, 17 Dec 2025 16:46:11 GMT)
  • バイトレベルの言語モデル。相応の規模で検証したのがすごい。
  • リポジトリはGitHub – allenai/bolmo-core: Code for Bolmo: Byteifying the Next Generation of Language Models
  • LLaDA2.0: Scaling Up Diffusion Language Models to 100B [96.8]
    LLaDA2.0 – 離散拡散大言語モデル(dLLM)を100億の総パラメータにスケールアップする。 LLaDA2.0は知識継承、進歩的適応、効率性に配慮した設計原則を支持している。 LLaDA2.0-mini (16B) と LLaDA2.0-flash (100B) の2つの命令調整型Mixture-of-Experts (MoE) が実用的展開に最適化されている。
    論文  参考訳(メタデータ)   (Wed, 10 Dec 2025 09:26:18 GMT)
  • ARから変換していくアプローチによるDiffusion Language Modelの構築。「Through extensive evaluations, it validates the feasibility of the training paradigm. The LLaDA2.0-mini and LLaDA2.0-flash models achieve performances that are competitive with their AR counterparts. Slightly surprisingly, LLaDA2.0-flash seems to have demonstrated advantages in complex, structured domains such as code generation, mathematical reasoning, and agentic tool use. These may have opened a new door to future work in the agentic LLM era while solidifying a gaugeable potential of dLLM for test-time scaling.」と効果および利点を報告している。
  • リポジトリはLLaDA 2.0 – a inclusionAI Collection
  • Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model [144.6]
    Seedance 1.5 Proは、ネイティブのジョイントオーディオビデオ生成用に特別に設計された基礎モデルである。 Seedance 1.5 Proは、正確な多言語と方言のリップシンク、ダイナミックシネマカメラコントロール、物語のコヒーレンスの向上を通じて、自分自身を区別する。
    論文  参考訳(メタデータ)   (Mon, 15 Dec 2025 16:36:52 GMT)
  •  「we present Seedance 1.5 pro, a foundational model engineered specifically for native, joint audio-video generation.」
  • リポジトリはSeedance 1.5 pro
  • Kling-Omni Technical Report [80.6]
    Kling-Omniはマルチモーダルな視覚言語入力から直接高忠実度動画を合成するための生成フレームワークである。 Kling-Omniは、多様なビデオ生成、編集、インテリジェントな推論タスク間の機能的分離を橋渡しする。 テキスト命令、参照画像、ビデオコンテキストを含む多様なユーザ入力をサポートし、それらを統一されたマルチモーダル表現に処理する。
    論文  参考訳(メタデータ)   (Thu, 18 Dec 2025 17:08:12 GMT)
  • Kling AI: Next-Gen AI Video & AI Image Generator

K2-V2: A 360-Open, Reasoning-Enhanced LLM 

  • K2-V2: A 360-Open, Reasoning-Enhanced LLM [89.7]
    K2-V2は,スクラッチから構築した360度オープンLLMで,推論適応のための優れた基盤となる。 これはQwen2.5-72Bを上回り、Qwen3-235Bの性能に近づいている。
    論文  参考訳(メタデータ)   (Fri, 05 Dec 2025 22:53:45 GMT)
  • 「We introduce K2, the best fully open-source pretrained large language model (LLM) to date, and ranks competitively against the best open-weight models of its class. As the latest base model in the LLM360 family (Liu et al , 2023; Tao et al , 2024; Liu et al , 2025c; Cheng et al , 2025a), Beyond standard competencies like knowledge and conversation, K2 provides advanced capabilities, including long context consistency, deep mathematical knowledge, and reasoning behaviors. These serve as foundational building blocks that enable sophisticated downstream use cases, such as solving complex math problems and executing agentic workflows.」とオープンかつ強力な性能を主張するLLM
  • GitHub – LLM360/k2v2_train: Pre-training codebase for K2-V2LLM360/K2-V2 · Hugging Faceなどコードやモデルウェイトのみではなくデータなども公開されているよう。

The 2025 Foundation Model Transparency Index 

  • The 2025 Foundation Model Transparency Index [85.0]
    ファウンデーションモデル開発者は世界で最も重要な企業です。 これらの企業がますますコンシークシャルになるにつれて、透明性のプラクティスはどのように進化するのでしょうか? 2025 Foundation Model Transparency Indexは、ファンデーションモデル開発者の透明性を特徴づけ、定量化するための年次取り組みの第3版である。
    論文  参考訳(メタデータ)   (Thu, 11 Dec 2025 00:01:53 GMT)
  • 基盤モデルの透明性に関する報告。「The 2024 FMTI reported that transparency was improving, but the 2025 FMTI finds this progress has deteriorated: the average score out of 100 fell from 58 in 2024 to 40 in 2025. Companies are most opaque about their training data and training compute as well as the post-deployment usage and impact of their flagship models.」というのは気がかりではある。
  • リポジトリはGitHub – stanford-crfm/fmti: The Foundation Model Transparency Index

Scaling Behavior of Discrete Diffusion Language Models

  • Scaling Behavior of Discrete Diffusion Language Models [74.7]
    離散拡散言語モデル(DLM)の様々なノイズタイプに対するスケーリング挙動について検討する。 実験の結果,DLMのスケーリング挙動はノイズの種類によって大きく異なり,ALMとはかなり異なることがわかった。 均一拡散モデルを1022ドルのFLOPでトレーニングした10Bパラメータまで拡張し、予測されたスケーリング挙動を確認し、現在までに最も広く知られている均一拡散モデルとした。
    論文  参考訳(メタデータ)   (Thu, 11 Dec 2025 17:54:10 GMT)
  • 最近研究が進み応用事例も出てきているDiffusion language modelに対して「Our findings support the case for discrete diffusion language models (DLMs) as a viable alternative to autoregressive language models (ALMs), the prevalent paradigm. DLMs can resolve core limitations of ALMs, enabling parallel generation for improved throughput, possessing the ability to revise and self-correct previously generated tokens, providing trivial ways of scaling test-time compute, and now also showing signs of improved scaling behavior with increased training compute. All in all, we conclude that DLMs in general, and uniform diffusion in particular, are promising candidates for next-generation LLMs.」と主張。
  • リポジトリはGitHub – dvruette/gidd-easydel

GPT-5.2, Devstral 2, GLM-4.6V, Olmo 3.1

先週の大きなニュースはGPT-5.2の登場だった(GPT-5.2 が登場 | OpenAIgpt-5.2 Model | OpenAI API)非常に強力なモデルであり、Grok 4.1, Gemini 3Pro, GPT-5.1 Pro / Codex , Nano Banana Pro (Gemini Image Pro), Olmo 3, Step-Audio-R1, Omnilingual ASR – arXiv最新論文の紹介のGemini 3 Proを多くのベンチマークで抜き返すなど競争が続いている。

実態は第三者検証待ちといったところだが、手元のベンチマークでは性能が上がったところと下がったところがあり、評価は難しい。10年 | OpenAIにも注目でここ数年で大きな変化をもたらしたこと、AGIを目指せる状況になっているのは凄い。

GPT-5.2以外にも、Devstral 2(Introducing: Devstral 2 and Mistral Vibe CLI. | Mistral AImistralai/Devstral-2-123B-Instruct-2512 · Hugging Faceなど)やGLM-4.6V(GLM-4.6V: Open Source Multimodal Models with Native Tool Usezai-org/GLM-4.6V · Hugging Face)、Olmo 3.1(XユーザーのAi2さん: 「Olmo 3.1 is here. We extended our strongest RL run and scaled our instruct recipe to 32B—releasing Olmo 3.1 Think 32B & Olmo 3.1 Instruct 32B, our most capable models yet. 🧵 https://t.co/i8Ia5yGJoI」 / X)など公開モデル関連でも注目するニュースが多い。

Mistral 3, Deepseek V3.2, OpenRouter State of AI, Poetiq

先週の大きな話題はMistral3の発表(XユーザーのMistral AIさん: 「Introducing the Mistral 3 family of models: Frontier intelligence at all sizes. Apache 2.0. Details in 🧵 https://t.co/lsrDmhW78u」 / XIntroducing Mistral 3 | Mistral AI)とDeepSeek v3.2(deepseek-ai/DeepSeek-V3.2-Speciale · Hugging Face)だった。いずれも強力な公開モデルであり、フロンティアモデルに近い性能を主張している。新たなモデル発表が相次ぎ、実際の性能検証はこれからという感じではあるが、着実に研究が進展している感がある。

OpenRouterから発表されたState of AI | OpenRouterも興味深いレポートだった。(バイアスはあるのだろうが)コード生成によく用いられている点、多様なモデルが利用されている点など興味深い。

PoetiqからのARC-AGI-2のSoTA(XユーザーのPoetiqさん: 「Poetiq has officially shattered the ARC-AGI-2 SOTA 🚀 @arcprize has officially verified our results: – 54% Accuracy – first to break the 50% barrier! – $30.57 / problem – less than half the cost of the previous best! We are now #1 on the leaderboard for ARC-AGI-2! https://t.co/a8tPtCynVY」 / X)に関する発表も興味深かった。詳細な検証(他チームのものを含む)待ちの面はあるのだろうが、Agenticな処理や複数のLLMの組み合わせには現在でも効果があるように思える。

  • Introducing Mistral 3
    Mistral 3が発表され、14B、8B、3Bの3種類の小型モデルと、41Bのアクティブパラメータを持つ最強のMistral Large 3が公開されました。これらはすべてApache 2.0ライセンスのもとオープンソース化され、開発者コミュニティに強い基盤を提供します。また、Mistral Large 3は、最新のNVIDIA GPUを用いて訓練され、マルチモーダル・マルチリンガル処理において高い性能を発揮します。
  • Introducing Mistral 3 | Mistral AI
  • DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models [219.6]
    本稿では,より優れた推論とエージェント性能で高い計算効率を調和させるモデルであるDeepSeek-V3.2を紹介する。 計算複雑性を大幅に低減する効率的な注意機構であるDSAを導入する。 DeepSeek-V3.2は、堅牢な強化学習プロトコルを実装し、訓練後の計算をスケールすることにより、GPT-5と同等に動作する。
    論文  参考訳(メタデータ)   (Tue, 02 Dec 2025 09:25:14 GMT)
  • DeepSeek Sparse Attentionなど、内部構造にも踏み込んだ論文。
  • 「(3) Large-Scale Agentic Task Synthesis Pipeline: To integrate reasoning into tool-use scenarios, we developed a novel synthesis pipeline that systematically generates training data at scale. This methodology facilitates scalable agentic post-training, yielding substantial improvements in generalization and instruction-following robustness within complex, interactive environments.」とAgenticな処理強化に力を入れている点にも注目。
  • State of AI | OpenRouter
    この一年は大規模言語モデル(LLM)の進化と実世界での利用において重要な転機となった。2024年12月に最初の広く採用された推論モデルo1が公開され、多段階の推論が可能になり、開発や実験が加速した。実際の使用に関するデータ分析により、オープンウェイトモデルの普及や創造的なロールプレイの人気など、多様な利用パターンが浮かび上がった。
  • State of AI | OpenRouter
  • Poetiq Shatters ARC-AGI-2 State of the Art at Half the Cost
    Poetiqは最新のGemini 3とGPT-5.1モデルを迅速に統合し、低コストで高精度な結果を実現しました。このシステムは、ARC-AGI-1およびARC-AGI-2において新しいパレートフロンティアを築き、従来を上回る性能を発揮しています。Poetiqはまた、運用の柔軟性を活かし、最適なモデルの組み合わせを自動的に選択する能力を持つメタシステムを開発しました。
  • Poetiq | ARC-AGI-2 SOTA at Half the Cost
  • Poetiq | Traversing the Frontier of Superintelligenceによれば「The prompt is an interface, not the intelligence: Our system engages in an iterative problem-solving loop. It doesn’t just ask a single question; it uses the LLM to generate a potential solution (sometimes code as in this example), receives feedback, analyzes the feedback, and then uses the LLM again to refine it. This multi-step, self-improving process allows us to incrementally build and perfect the answer.Self-Auditing: The system autonomously audits its own progress. It decides for itself when it has enough information and the solution is satisfactory, allowing it to terminate the process. This self-monitoring is critical for avoiding wasteful computation and minimizing costs.」とのこと。
  • リポジトリが公開されている、GitHub – poetiq-ai/poetiq-arc-agi-solver: This repository allows reproduction of Poetiq’s record-breaking submission to the ARC-AGI-1 and ARC-AGI-2 benchmarks.

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration 

  • ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration [110.2]
    私たちは、他のモデルやさまざまなツールを管理する小さなオーケストレータが、どちらもインテリジェンスの上限を押し上げることができることを示しています。 インテリジェントなツールをコーディネートする,小さなオーケストレータのトレーニング方法であるToolOrchestraを紹介する。 ToolOrchestraを使うことで、従来のツール使用エージェントよりも低コストで精度の高い8BモデルであるOrchestratorを作成できる。
    論文  参考訳(メタデータ)   (Wed, 26 Nov 2025 18:59:46 GMT)
  • 「We introduce ToolOrchestra, a method for training a small language model to serve as the orchestrator of a diverse toolkit, including classical tools and more intelligent models. This dovetails with recent developments in the field testifying that small language models are often sufficiently powerful and far more economical in agentic systems」とエージェント時代に重要な能力であるツールオーケストレーション能力をモデルに与えるための研究
  • リポジトリはToolOrchestraGitHub – NVlabs/ToolOrchestra: ToolOrchestra is an end-to-end RL training framework for orchestrating tools and agentic workflows.