World Action Models are Zero-shot Policies 

  • World Action Models are Zero-shot Policies [111.9]
    本稿では,予めトレーニングされたビデオ拡散バックボーン上に構築されたワールドアクションモデル(WAM)であるDreamZeroを紹介する。 ビデオとアクションを共同でモデリングすることで、DreamZeroは異種ロボットデータから多様なスキルを効果的に学習する。 ビデオのみによる他のロボットや人間によるデモは、目に見えないタスクのパフォーマンスに対して42%以上の相対的な改善をもたらす。
    論文  参考訳(メタデータ)   (Tue, 17 Feb 2026 15:04:02 GMT)
  • 「By jointly predicting video and action, World Action Models (WAMs) inherit world physics priors that enable 1) effective learning from diverse, non-repetitive data, 2) open-world generalization,3) cross-embodiment learning from video-only data, and 4) few-shot adaptation to new robots.」とのことで、ビデオ合成を活用したもの。ゆえに「 we enable a 14B autoregressive video diffusion model to perform real-time closed-loop control at 7Hz.」と高速改善。
  • プロジェクトサイトはDreamZero: World Action Models are Zero-shot Policies
  • Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution [32.9]
    我々は、高速かつスムーズなリアルタイム実行のために最適化された高度な視覚言語アクション(VLA)モデルであるXiaomi-Robotics-0を紹介する。 Xiaomi-Robotics-0は、大規模なクロス・エボディメント・ロボット軌道と視覚言語データに事前訓練された。 我々はXiaomi-Robotics-0をシミュレーションベンチマークで広範囲に評価し、正確で巧妙なバイマニュアル操作を必要とする2つの挑戦的な実ロボットタスクについて検討した。
    論文  参考訳(メタデータ)   (Fri, 13 Feb 2026 07:30:43 GMT)
  • XiaomiによるVLAモデル。「Our robot trajectory data are sourced from multiple open-sourced robot datasets (e g , DROID [23] and MolmoAct [26]) as well as in-house data collected by ourselves. Our in-house data consists of teleoperated trajectories for two challenging tasks: Lego Disassembly and Towel Folding. In total, we collected 338 and 400 hours of data for these two tasks, respectively.」とこちらはデータを作りにいっている。
  • リポジトリはXiaomi-Robotics-0

LLaDA2.1: Speeding Up Text Diffusion via Token Editing 

  • LLaDA2.1: Speeding Up Text Diffusion via Token Editing [72.9]
    我々は、復号速度と生成品質のトレードオフを超越するパラダイムシフトであるLLaDA2.1を発表した。 従来のマスク・ツー・Token(M2T)方式にT2T編集をシームレスに織り込むことで,共同でしきい値復号方式を導入する。 この構造的革新は、2つの異なるペルソナをもたらす: Speedy Mode (S Mode) は、M2T閾値を大胆に下げ、出力を洗練させるためにT2Tに依存しながら従来の制約を回避し、優れたベンチマークを確保するために保守的なしきい値に傾くQuality Mode (Q Mode) である。
    論文  参考訳(メタデータ)   (Tue, 10 Feb 2026 07:11:18 GMT)
  • 高速な生成が可能なDiffusion model、LLaDAの2.1
  • リポジトリはLLaDA2.1 – a inclusionAI Collection

dMLLM-TTS: Self-Verified and Efficient Test-Time Scaling for Diffusion Multi-Modal Large Language Models 

  • dMLLM-TTS: Self-Verified and Efficient Test-Time Scaling for Diffusion Multi-Modal Large Language Models [40.0]
    Diffusion Multi-modal Large Language Models (dMLLMs) は画像生成と理解を統一する新しいアーキテクチャとして最近登場した。 提案するdMLLM-TTSは,2つの相補的スケーリング軸上で動作し,その全生成ポテンシャルを解放する新しいフレームワークである。 我々のフレームワークは線形探索の最大6倍の効率で生成品質を大幅に向上させる。
    論文  参考訳(メタデータ)   (Mon, 22 Dec 2025 14:31:58 GMT)
  • Diffusion Multi-modal Large Language Models (dMLLMs) におけるTest Time Scaling (TTS)手法の研究。「We present the Hierarchical Trajectory Search, which optimizes efficiency, achieving O(N +T) complexity, outperforming conventional linear search baseline with O(NT) complexity. • Superior Performance. The proposed TTS framework elevates dMLLMs to match state-of-the-art generation models, significantly boosting image quality.」と効果的・効率的な手法を提案とのこと。
  • リポジトリはGitHub – Alpha-VLLM/Lumina-DiMOO: Lumina-DiMOO – An Open-Sourced Multi-Modal Large Diffusion Language Model

OpenAI GPT Image-1.5, Gemini 3.0 Flash, Nemotron 3, Xiaomi MiMo-V2-Flash, Olmo 3(論文), Bolmo, LLaDA2.0, Step-GUI, Seedance 1.5 pro, Kling-Omni

OpenAIとGoogleの競争は激しく、OpenAIからはNanoBananaに対抗すると見込まれるGPT Image-1.5が発表された(GPT Image 1.5 Model | OpenAI API)。Googleからはコスパに優れるGemini 3.0 Flash(Introducing Gemini 3 Flash: Benchmarks, global availability)が出ている。とてもコストが安いが一部ベンチマークではProを超えているようにも見え、コスパが高い。

オープン系のモデルでも、Nemotron 3(NVIDIA Nemotron 3 Family of Models – NVIDIA Nemotron)、Xiaomi MiMo-V2-Flash(Xiaomi MiMoXユーザーのXiaomiMiMoさん: 「⚡ Faster than Fast. Designed for Agentic AI. Introducing Xiaomi MiMo-V2-Flash — our new open-source MoE model: 309B total params, 15B active. Blazing speed meets frontier performance. 🔥 Highlights: 🏗️ Hybrid Attention: 5:1 interleaved 128-window SWA + Global | 256K context 📈 https://t.co/yCqP4L8bU4」 / X)、Step-GUI(GELab-Zero – GUI Agent for Mobile Devices)など注目すべき発表があった。Ai2からはOlmo3に関する論文が出ているほか、byte-level language modelという興味深いモデルも発表されている。新たなモデルという観点は規模の大きなDiffusion Language Models、LLaDA2.0にも要注目である。

動画関連でもSeedance 1.5 proや Kling-Omniのテクニカルレポートが発表されている。

  • Step-GUI Technical Report [83.9]
    本稿では,Calibrated Step Reward Systemを利用した自己進化型トレーニングパイプラインを提案する。 また、最先端のGUI性能を実現するモデル群であるStep-GUIについても紹介する。 エージェントが日常的に使えるかどうかを評価するために,AndroidDailyを紹介した。
    論文  参考訳(メタデータ)   (Wed, 17 Dec 2025 13:26:30 GMT)
  • 「we introduce a self-evolving training pipeline centered on the Calibrated Step Reward System (CSRS).」、「The system consists of a Calibration Layer that performs trajectory-level validation (success/failure) and a Data Extraction module powered by thinking models that generates seven categories of structured training data. Model-generated trajectories flow through CSRS in an iterative loop: rollout generates trajectories, CSRS processes them into high-quality training data, and training produces stronger models for the next iteration.」と凝ったパイプライン。7つのカテゴリのデータとは「(1) progress tracking, (2) state summary, (3) effect prediction, (4) self-reflection, (5) state verification, (6) intent execution, and (7) action prediction」を指す。
  • リポジトリはGitHub – stepfun-ai/gelab-zero: GELab: GUI Exploration Lab. One of the best GUI agent solutions in the galaxy, built by the StepFun-GELab team and powered by Step’s research capabilities.
  • Olmo 3 [195.4]
    Olmo 3は、7Bおよび32Bパラメータスケールの最先端で完全にオープンな言語モデルのファミリーである。 私たちのフラッグシップモデルであるOlmo 3 Think 32Bは、これまでリリースされた中で最強の完全オープンな思考モデルです。
    論文  参考訳(メタデータ)   (Mon, 15 Dec 2025 23:41:48 GMT)
  • Olmo3の論文。論文を出すのが間に合っていないくらい進展が速い・・・
  • データやトレーニングログなど、モデルだけでなく様々な部分が公開されている。
  • Bolmo: Byteifying the Next Generation of Language Models [115.3]
    競合する完全オープンなバイトレベル言語モデル(LM)の最初のファミリーであるBolmoを紹介します。 バイト化はサブワードトークン化の限界を克服する。 我々はBolmoがサブワードレベルのLMと競合する推論速度を実現できることを示す。
    論文  参考訳(メタデータ)   (Wed, 17 Dec 2025 16:46:11 GMT)
  • バイトレベルの言語モデル。相応の規模で検証したのがすごい。
  • リポジトリはGitHub – allenai/bolmo-core: Code for Bolmo: Byteifying the Next Generation of Language Models
  • LLaDA2.0: Scaling Up Diffusion Language Models to 100B [96.8]
    LLaDA2.0 – 離散拡散大言語モデル(dLLM)を100億の総パラメータにスケールアップする。 LLaDA2.0は知識継承、進歩的適応、効率性に配慮した設計原則を支持している。 LLaDA2.0-mini (16B) と LLaDA2.0-flash (100B) の2つの命令調整型Mixture-of-Experts (MoE) が実用的展開に最適化されている。
    論文  参考訳(メタデータ)   (Wed, 10 Dec 2025 09:26:18 GMT)
  • ARから変換していくアプローチによるDiffusion Language Modelの構築。「Through extensive evaluations, it validates the feasibility of the training paradigm. The LLaDA2.0-mini and LLaDA2.0-flash models achieve performances that are competitive with their AR counterparts. Slightly surprisingly, LLaDA2.0-flash seems to have demonstrated advantages in complex, structured domains such as code generation, mathematical reasoning, and agentic tool use. These may have opened a new door to future work in the agentic LLM era while solidifying a gaugeable potential of dLLM for test-time scaling.」と効果および利点を報告している。
  • リポジトリはLLaDA 2.0 – a inclusionAI Collection
  • Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model [144.6]
    Seedance 1.5 Proは、ネイティブのジョイントオーディオビデオ生成用に特別に設計された基礎モデルである。 Seedance 1.5 Proは、正確な多言語と方言のリップシンク、ダイナミックシネマカメラコントロール、物語のコヒーレンスの向上を通じて、自分自身を区別する。
    論文  参考訳(メタデータ)   (Mon, 15 Dec 2025 16:36:52 GMT)
  •  「we present Seedance 1.5 pro, a foundational model engineered specifically for native, joint audio-video generation.」
  • リポジトリはSeedance 1.5 pro
  • Kling-Omni Technical Report [80.6]
    Kling-Omniはマルチモーダルな視覚言語入力から直接高忠実度動画を合成するための生成フレームワークである。 Kling-Omniは、多様なビデオ生成、編集、インテリジェントな推論タスク間の機能的分離を橋渡しする。 テキスト命令、参照画像、ビデオコンテキストを含む多様なユーザ入力をサポートし、それらを統一されたマルチモーダル表現に処理する。
    論文  参考訳(メタデータ)   (Thu, 18 Dec 2025 17:08:12 GMT)
  • Kling AI: Next-Gen AI Video & AI Image Generator

Scaling Behavior of Discrete Diffusion Language Models

  • Scaling Behavior of Discrete Diffusion Language Models [74.7]
    離散拡散言語モデル(DLM)の様々なノイズタイプに対するスケーリング挙動について検討する。 実験の結果,DLMのスケーリング挙動はノイズの種類によって大きく異なり,ALMとはかなり異なることがわかった。 均一拡散モデルを1022ドルのFLOPでトレーニングした10Bパラメータまで拡張し、予測されたスケーリング挙動を確認し、現在までに最も広く知られている均一拡散モデルとした。
    論文  参考訳(メタデータ)   (Thu, 11 Dec 2025 17:54:10 GMT)
  • 最近研究が進み応用事例も出てきているDiffusion language modelに対して「Our findings support the case for discrete diffusion language models (DLMs) as a viable alternative to autoregressive language models (ALMs), the prevalent paradigm. DLMs can resolve core limitations of ALMs, enabling parallel generation for improved throughput, possessing the ability to revise and self-correct previously generated tokens, providing trivial ways of scaling test-time compute, and now also showing signs of improved scaling behavior with increased training compute. All in all, we conclude that DLMs in general, and uniform diffusion in particular, are promising candidates for next-generation LLMs.」と主張。
  • リポジトリはGitHub – dvruette/gidd-easydel

TiDAR: Think in Diffusion, Talk in Autoregression

  • TiDAR: Think in Diffusion, Talk in Autoregression [59.9]
    TiDARは、Diffusionでトークン(Thinking)をドラフトし、最終的な出力(Talking)をAutoRegressivelyにサンプリングするシーケンスレベルのハイブリッドアーキテクチャである。 TiDARはARモデルと品質ギャップを埋める最初のアーキテクチャであり、毎秒4.71倍から5.91倍のトークンを提供する。
    論文  参考訳(メタデータ)   (Thu, 13 Nov 2025 01:18:11 GMT)
  • Diffusion modelとAuto regressiveのハイブリッド「We introduce TiDAR, a sequence-level hybrid architecture that drafts tokens (Thinking) in Diffusion and samples final outputs (Talking) AutoRegressively – all within a single forward pass using specially designed structured attention masks.」
  • 「We extensively evaluate TiDAR against AR models, speculative decoding, and diffusion variants across generative and likelihood tasks at 1.5B and 8B scales. Thanks to the parallel drafting and sampling as well as exact KV cache support, TiDAR outperforms speculative decoding in measured throughput and surpasses diffusion models like Dream and Llada in both efficiency and quality. Most notably, TiDAR is the first architecture to close the quality gap with AR models while delivering 4.71× to 5.91× more tokens per second.」とスケールすることが確認できているのがすごい。

Diffusion Language Models are Super Data Learners

  • Diffusion Language Models are Super Data Learners [61.7]
    ユニークなデータが限られている場合、拡散言語モデル(DLM)は、よりエポックなトレーニングによって、常に自己回帰モデル(AR)を上回ります。 本研究の目的は,(1) 任意の次数モデリング,(2) 反復的双方向 denoising からの超高次計算,(3) モンテカルロ増分という3つの複合的要因に起因する。
    論文  参考訳(メタデータ)   (Wed, 05 Nov 2025 08:17:42 GMT)
  • 「The main empirical finding is a Crossover: when total training tokens are fixed but the number of unique tokens is limited, DLMs consistently surpass equally sized AR counterparts. This crossover is not an isolated artifact—it systematically shifts with core factors. With more unique data, it shifts later; with higher data quality, it shifts later; with larger models, the crossover arrives earlier; and it persists across dense and sparse (MoE) architectures (Figures 2, 3, 4). Under compute-bound settings with abundant unique data, AR recovers its edge by fitting the data more rapidly; but in data-bound regimes, which is our focus and, increasingly, the practical reality, DLM is the final winner.」との主張。Diffusion Beats Autoregressive in Data-Constrained Settings  – arXiv最新論文の紹介の主張とも整合的であるように思う。
  • プロジェクトサイトはDiffusion Language Models are Super Data Learners、リポジトリはGitHub – JinjieNi/dlms-are-super-data-learners: The official github repo for “Diffusion Language Models are Super Data Learners”.

同著者の下記論文も興味深い。

Qwen3-Max, K2-Instruct-0905, LongCat-Flash, Dream-Coder 7B, Kwai Keye-VL 1.5

先週もLLM/LRM界隈のニュースは多かった。Qwen3系最大構成のQwen3 Maxの公開(XユーザーのQwenさん: 「Big news: Introducing Qwen3-Max-Preview (Instruct) — our biggest model yet, with over 1 trillion parameters! 🚀 Now available via Qwen Chat & Alibaba Cloud API. Benchmarks show it beats our previous best, Qwen3-235B-A22B-2507. Internal tests + early user feedback confirm: https://t.co/7vQTfHup1Z」 / XModels and pricing – Alibaba Cloud Model Studio – Alibaba Cloud Documentation Center)、Kimi K2のアップデート(XユーザーのKimi.aiさん: 「Kimi K2-0905 update 🚀 – Enhanced coding capabilities, esp. front-end & tool-calling – Context length extended to 256k tokens – Improved integration with various agent scaffolds (e.g., Claude Code, Roo Code, etc) 🔗 Weights & code: https://t.co/83sQekosr9 💬 Chat with new Kimi https://t.co/mkOuBMwzpw」 / Xmoonshotai/Kimi-K2-Instruct-0905 · Hugging Face)やLongCat-Flashの他、Dream-Coder 7B、Kwai Keye-VL 1.5など小規模でもユニークなモデルも発表されている。

Introduction – Agent Client ProtocolGitHub – zed-industries/agent-client-protocol: A protocol for connecting any editor to any agent)といったプロトコルの提案など周辺領域にも目が離せない。

  • LongCat-Flash Technical Report [165.7]
    LongCat-Flashは、560ビリオンパラメータのMixture-of-Experts (MoE)言語モデルである。 計算効率と高度なエージェント能力の両方のために設計されている。 30日以内に20兆トークン以上のモデルトレーニングを完了し、100トークン/秒 (TPS) 以上の推論を0.70パーセントのアウトプットトークンで達成しました。
    論文  参考訳(メタデータ)   (Mon, 01 Sep 2025 10:05:45 GMT)
  • 560B MoE構成、「As a non-thinking model, LongCat-Flash achieves performance comparable to state-of-the-art non-thinking models, including DeepSeek-V3.1 [DeepSeek-AI et al , 2025] and Kimi-K2 [Team et al , 2025], while using fewer parameters and offering faster inference speed. Specifically, LongCat-Flash scores 86.5 on ArenaHard-V2, 39.5 on TerminalBench, and 67.7 on τ 2-Bench, demonstrating robust capabilities in general domains, coding, and agentic tool use.」
  • リポジトリはGitHub – meituan-longcat/LongCat-Flash-Chat
  • Dream-Coder 7B: An Open Diffusion Language Model for Code [99.1]
    そこで,Dream-Coder 7Bを提案する。Dream-Coder 7Bは,任意の順序生成能力を示すコード生成のための,オープンソースの離散拡散言語モデルである。 厳密に左から右にデコードする従来の自己回帰(AR)モデルとは異なり、ドリームコーダ7Bはコーディングタスクに基づいてデコード戦略を適応的に決定する。
    論文  参考訳(メタデータ)   (Mon, 01 Sep 2025 05:30:56 GMT)
  • コーディングタスク強化の拡散モデル
  • リポジトリはGitHub – DreamLM/Dream-Coder
  • Kwai Keye-VL 1.5 Technical Report [91.3]
    本稿では、ビデオ理解における根本的な課題を3つの重要なイノベーションを通じて解決するKeye-VL-1.5を紹介する。 まず,フレーム間の類似性に基づいて動的に計算資源を割り当てるSlow-Fastビデオ符号化方式を提案する。 次に,モデルのコンテキスト長を8Kから128Kまで体系的に拡張する4段階事前学習手法を提案する。 第3に、推論の強化と人間の嗜好の整合性に焦点を当てた総合的な後学習パイプラインを開発する。
    論文  参考訳(メタデータ)   (Mon, 01 Sep 2025 15:46:58 GMT)
  • 「Keye-VL-1.5-8B establishes new state-of-the-art performance among models of similar scale, demonstrating superior results on video-centric benchmarks while maintaining competitive performance on general multimodal and reasoning tasks.」とビデオを扱えるモデル
  • リポジトリはGitHub – Kwai-Keye/Keye

Command A Reasoning, DeepSeek V3.1, Gemma 3 270M, Nemotron Nano 2, Dream 7B

LLM/LRM関連の話題は本当に多い。先週はCohere’s Command A Reasoning Model | Cohere(モデルはCohere’s Command A Reasoning Model | Cohere、CC-BY-NC)の公開、DeepSeek V3.1の公開(DeepSeek-V3.1 Release | DeepSeek API Docs、モデルはdeepseek-ai/DeepSeek-V3.1 · Hugging Face)が大きなニュースだった。フロンティアまたはそれに近いモデルが公開される意義は大きい。また、Intern-S1からはテクニカルレポートが公開されている。

a

小型モデル関連でもGemma 3 270M(Introducing Gemma 3 270M: The compact model for hyper-efficient AI – Google Developers Blog、モデルはgoogle/gemma-3-270m · Hugging Face)は超小型であることが興味深い。性能的には疑問があるとはいえ特化用途にPost trainingするなど使える場面はありそう。NVIDIA のMemtron Nano2も注目である(Nanoという名前で9B)。

HuaweiからはDiffusion系のDream 7Bの論文が出ていた。LLaDAを超え、同規模のAutoregressiveなモデルに負けていなさそうと高い性能。

  • Intern-S1: A Scientific Multimodal Foundation Model [185.4]
    Intern-S1は、一般的な理解と推論機能を備えた専門的なジェネラリストである。 Intern-S1はオフラインおよびオンライン強化学習(RL)をInternBootCampで実施する。 Intern-S1は、オープンソースモデル間の一般的な推論タスクにおける競合性能を示す。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 17:58:00 GMT)
  • Qwen3-Coder, Intern-S1, Step-Audio2, TeleChat2 – arXiv最新論文の紹介で取り上げたモデルのテクニカルレポート
  • NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model [176.4]
    Nemotron-Nano-9B-v2は、推論処理のスループットを向上させるために設計されたハイブリッドのMamba-Transformer言語モデルである。 Nemotron-Nano-9B-v2はNemotron-Hアーキテクチャをベースにしており、共通のTransformerアーキテクチャの自己保持層の大部分をMamba-2層に置き換えている。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 04:18:04 GMT)
  • nvidia/NVIDIA-Nemotron-Nano-9B-v2 · Hugging Face
  • Dream 7B: Diffusion Large Language Models [85.3]
    これまでで最も強力なオープン拡散大言語モデルであるDream 7Bを紹介します。 我々のモデルは、一般的な、数学的、コーディングタスクにおいて、既存の拡散言語モデルよりも一貫して優れています。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 12:09:58 GMT)
  • 「Dream 7B achieves competitive performance with Qwen 2.5 on standard benchmarks (general language understanding, mathematical reasoning, and code generation) while exhibiting superior planning abilities and novel inference flexibility features that naturally emerge from the diffusion modeling paradigm.」とのこと。
  • リポジトリはGitHub – DreamLM/Dream: Dream 7B, a large diffusion language model、モデルはDream 7B – a Dream-org Collection

Diffusion Models for Time Series Forecasting: A Survey

  • Diffusion Models for Time Series Forecasting: A Survey [14.3]
    拡散モデルは、当初は画像合成のために開発されたが、顕著な生成能力を示している。 近年, 時系列予測 (TSF) に応用が拡大され, 有望な結果が得られた。 本調査はTSFにおける拡散モデルの最近の進展と今後の展望を詳述し、この分野の研究者の参考となる。
    論文  参考訳(メタデータ)   (Sat, 19 Jul 2025 07:04:04 GMT)
  • Diffusionモデルの時系列予測への応用に関するサーベイ。
  • リポジトリはhttps://github.com/synlp/TSF-Diff-Review