OpenAIとGoogleの競争は激しく、OpenAIからはNanoBananaに対抗すると見込まれるGPT Image-1.5が発表された(GPT Image 1.5 Model | OpenAI API)。Googleからはコスパに優れるGemini 3.0 Flash(Introducing Gemini 3 Flash: Benchmarks, global availability)が出ている。とてもコストが安いが一部ベンチマークではProを超えているようにも見え、コスパが高い。
オープン系のモデルでも、Nemotron 3(NVIDIA Nemotron 3 Family of Models – NVIDIA Nemotron)、Xiaomi MiMo-V2-Flash(Xiaomi MiMo、XユーザーのXiaomiMiMoさん: 「⚡ Faster than Fast. Designed for Agentic AI. Introducing Xiaomi MiMo-V2-Flash — our new open-source MoE model: 309B total params, 15B active. Blazing speed meets frontier performance. 🔥 Highlights: 🏗️ Hybrid Attention: 5:1 interleaved 128-window SWA + Global | 256K context 📈 https://t.co/yCqP4L8bU4」 / X)、Step-GUI(GELab-Zero – GUI Agent for Mobile Devices)など注目すべき発表があった。Ai2からはOlmo3に関する論文が出ているほか、byte-level language modelという興味深いモデルも発表されている。新たなモデルという観点は規模の大きなDiffusion Language Models、LLaDA2.0にも要注目である。
動画関連でもSeedance 1.5 proや Kling-Omniのテクニカルレポートが発表されている。
- Step-GUI Technical Report [83.9]
本稿では,Calibrated Step Reward Systemを利用した自己進化型トレーニングパイプラインを提案する。 また、最先端のGUI性能を実現するモデル群であるStep-GUIについても紹介する。 エージェントが日常的に使えるかどうかを評価するために,AndroidDailyを紹介した。
論文 参考訳(メタデータ) (Wed, 17 Dec 2025 13:26:30 GMT) - 「we introduce a self-evolving training pipeline centered on the Calibrated Step Reward System (CSRS).」、「The system consists of a Calibration Layer that performs trajectory-level validation (success/failure) and a Data Extraction module powered by thinking models that generates seven categories of structured training data. Model-generated trajectories flow through CSRS in an iterative loop: rollout generates trajectories, CSRS processes them into high-quality training data, and training produces stronger models for the next iteration.」と凝ったパイプライン。7つのカテゴリのデータとは「(1) progress tracking, (2) state summary, (3) effect prediction, (4) self-reflection, (5) state verification, (6) intent execution, and (7) action prediction」を指す。
- リポジトリはGitHub – stepfun-ai/gelab-zero: GELab: GUI Exploration Lab. One of the best GUI agent solutions in the galaxy, built by the StepFun-GELab team and powered by Step’s research capabilities.
- Olmo 3 [195.4]
Olmo 3は、7Bおよび32Bパラメータスケールの最先端で完全にオープンな言語モデルのファミリーである。 私たちのフラッグシップモデルであるOlmo 3 Think 32Bは、これまでリリースされた中で最強の完全オープンな思考モデルです。
論文 参考訳(メタデータ) (Mon, 15 Dec 2025 23:41:48 GMT) - Olmo3の論文。論文を出すのが間に合っていないくらい進展が速い・・・
- データやトレーニングログなど、モデルだけでなく様々な部分が公開されている。
- Bolmo: Byteifying the Next Generation of Language Models [115.3]
競合する完全オープンなバイトレベル言語モデル(LM)の最初のファミリーであるBolmoを紹介します。 バイト化はサブワードトークン化の限界を克服する。 我々はBolmoがサブワードレベルのLMと競合する推論速度を実現できることを示す。
論文 参考訳(メタデータ) (Wed, 17 Dec 2025 16:46:11 GMT) - バイトレベルの言語モデル。相応の規模で検証したのがすごい。
- リポジトリはGitHub – allenai/bolmo-core: Code for Bolmo: Byteifying the Next Generation of Language Models
- LLaDA2.0: Scaling Up Diffusion Language Models to 100B [96.8]
LLaDA2.0 – 離散拡散大言語モデル(dLLM)を100億の総パラメータにスケールアップする。 LLaDA2.0は知識継承、進歩的適応、効率性に配慮した設計原則を支持している。 LLaDA2.0-mini (16B) と LLaDA2.0-flash (100B) の2つの命令調整型Mixture-of-Experts (MoE) が実用的展開に最適化されている。
論文 参考訳(メタデータ) (Wed, 10 Dec 2025 09:26:18 GMT) - ARから変換していくアプローチによるDiffusion Language Modelの構築。「Through extensive evaluations, it validates the feasibility of the training paradigm. The LLaDA2.0-mini and LLaDA2.0-flash models achieve performances that are competitive with their AR counterparts. Slightly surprisingly, LLaDA2.0-flash seems to have demonstrated advantages in complex, structured domains such as code generation, mathematical reasoning, and agentic tool use. These may have opened a new door to future work in the agentic LLM era while solidifying a gaugeable potential of dLLM for test-time scaling.」と効果および利点を報告している。
- リポジトリはLLaDA 2.0 – a inclusionAI Collection
- Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model [144.6]
Seedance 1.5 Proは、ネイティブのジョイントオーディオビデオ生成用に特別に設計された基礎モデルである。 Seedance 1.5 Proは、正確な多言語と方言のリップシンク、ダイナミックシネマカメラコントロール、物語のコヒーレンスの向上を通じて、自分自身を区別する。
論文 参考訳(メタデータ) (Mon, 15 Dec 2025 16:36:52 GMT) - 「we present Seedance 1.5 pro, a foundational model engineered specifically for native, joint audio-video generation.」
- リポジトリはSeedance 1.5 pro
- Kling-Omni Technical Report [80.6]
Kling-Omniはマルチモーダルな視覚言語入力から直接高忠実度動画を合成するための生成フレームワークである。 Kling-Omniは、多様なビデオ生成、編集、インテリジェントな推論タスク間の機能的分離を橋渡しする。 テキスト命令、参照画像、ビデオコンテキストを含む多様なユーザ入力をサポートし、それらを統一されたマルチモーダル表現に処理する。
論文 参考訳(メタデータ) (Thu, 18 Dec 2025 17:08:12 GMT) - Kling AI: Next-Gen AI Video & AI Image Generator