GPT-5.2, Devstral 2, GLM-4.6V, Olmo 3.1

先週の大きなニュースはGPT-5.2の登場だった(GPT-5.2 が登場 | OpenAIgpt-5.2 Model | OpenAI API)非常に強力なモデルであり、Grok 4.1, Gemini 3Pro, GPT-5.1 Pro / Codex , Nano Banana Pro (Gemini Image Pro), Olmo 3, Step-Audio-R1, Omnilingual ASR – arXiv最新論文の紹介のGemini 3 Proを多くのベンチマークで抜き返すなど競争が続いている。

実態は第三者検証待ちといったところだが、手元のベンチマークでは性能が上がったところと下がったところがあり、評価は難しい。10年 | OpenAIにも注目でここ数年で大きな変化をもたらしたこと、AGIを目指せる状況になっているのは凄い。

GPT-5.2以外にも、Devstral 2(Introducing: Devstral 2 and Mistral Vibe CLI. | Mistral AImistralai/Devstral-2-123B-Instruct-2512 · Hugging Faceなど)やGLM-4.6V(GLM-4.6V: Open Source Multimodal Models with Native Tool Usezai-org/GLM-4.6V · Hugging Face)、Olmo 3.1(XユーザーのAi2さん: 「Olmo 3.1 is here. We extended our strongest RL run and scaled our instruct recipe to 32B—releasing Olmo 3.1 Think 32B & Olmo 3.1 Instruct 32B, our most capable models yet. 🧵 https://t.co/i8Ia5yGJoI」 / X)など公開モデル関連でも注目するニュースが多い。

Mistral 3, Deepseek V3.2, OpenRouter State of AI, Poetiq

先週の大きな話題はMistral3の発表(XユーザーのMistral AIさん: 「Introducing the Mistral 3 family of models: Frontier intelligence at all sizes. Apache 2.0. Details in 🧵 https://t.co/lsrDmhW78u」 / XIntroducing Mistral 3 | Mistral AI)とDeepSeek v3.2(deepseek-ai/DeepSeek-V3.2-Speciale · Hugging Face)だった。いずれも強力な公開モデルであり、フロンティアモデルに近い性能を主張している。新たなモデル発表が相次ぎ、実際の性能検証はこれからという感じではあるが、着実に研究が進展している感がある。

OpenRouterから発表されたState of AI | OpenRouterも興味深いレポートだった。(バイアスはあるのだろうが)コード生成によく用いられている点、多様なモデルが利用されている点など興味深い。

PoetiqからのARC-AGI-2のSoTA(XユーザーのPoetiqさん: 「Poetiq has officially shattered the ARC-AGI-2 SOTA 🚀 @arcprize has officially verified our results: – 54% Accuracy – first to break the 50% barrier! – $30.57 / problem – less than half the cost of the previous best! We are now #1 on the leaderboard for ARC-AGI-2! https://t.co/a8tPtCynVY」 / X)に関する発表も興味深かった。詳細な検証(他チームのものを含む)待ちの面はあるのだろうが、Agenticな処理や複数のLLMの組み合わせには現在でも効果があるように思える。

  • Introducing Mistral 3
    Mistral 3が発表され、14B、8B、3Bの3種類の小型モデルと、41Bのアクティブパラメータを持つ最強のMistral Large 3が公開されました。これらはすべてApache 2.0ライセンスのもとオープンソース化され、開発者コミュニティに強い基盤を提供します。また、Mistral Large 3は、最新のNVIDIA GPUを用いて訓練され、マルチモーダル・マルチリンガル処理において高い性能を発揮します。
  • Introducing Mistral 3 | Mistral AI
  • DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models [219.6]
    本稿では,より優れた推論とエージェント性能で高い計算効率を調和させるモデルであるDeepSeek-V3.2を紹介する。 計算複雑性を大幅に低減する効率的な注意機構であるDSAを導入する。 DeepSeek-V3.2は、堅牢な強化学習プロトコルを実装し、訓練後の計算をスケールすることにより、GPT-5と同等に動作する。
    論文  参考訳(メタデータ)   (Tue, 02 Dec 2025 09:25:14 GMT)
  • DeepSeek Sparse Attentionなど、内部構造にも踏み込んだ論文。
  • 「(3) Large-Scale Agentic Task Synthesis Pipeline: To integrate reasoning into tool-use scenarios, we developed a novel synthesis pipeline that systematically generates training data at scale. This methodology facilitates scalable agentic post-training, yielding substantial improvements in generalization and instruction-following robustness within complex, interactive environments.」とAgenticな処理強化に力を入れている点にも注目。
  • State of AI | OpenRouter
    この一年は大規模言語モデル(LLM)の進化と実世界での利用において重要な転機となった。2024年12月に最初の広く採用された推論モデルo1が公開され、多段階の推論が可能になり、開発や実験が加速した。実際の使用に関するデータ分析により、オープンウェイトモデルの普及や創造的なロールプレイの人気など、多様な利用パターンが浮かび上がった。
  • State of AI | OpenRouter
  • Poetiq Shatters ARC-AGI-2 State of the Art at Half the Cost
    Poetiqは最新のGemini 3とGPT-5.1モデルを迅速に統合し、低コストで高精度な結果を実現しました。このシステムは、ARC-AGI-1およびARC-AGI-2において新しいパレートフロンティアを築き、従来を上回る性能を発揮しています。Poetiqはまた、運用の柔軟性を活かし、最適なモデルの組み合わせを自動的に選択する能力を持つメタシステムを開発しました。
  • Poetiq | ARC-AGI-2 SOTA at Half the Cost
  • Poetiq | Traversing the Frontier of Superintelligenceによれば「The prompt is an interface, not the intelligence: Our system engages in an iterative problem-solving loop. It doesn’t just ask a single question; it uses the LLM to generate a potential solution (sometimes code as in this example), receives feedback, analyzes the feedback, and then uses the LLM again to refine it. This multi-step, self-improving process allows us to incrementally build and perfect the answer.Self-Auditing: The system autonomously audits its own progress. It decides for itself when it has enough information and the solution is satisfactory, allowing it to terminate the process. This self-monitoring is critical for avoiding wasteful computation and minimizing costs.」とのこと。
  • リポジトリが公開されている、GitHub – poetiq-ai/poetiq-arc-agi-solver: This repository allows reproduction of Poetiq’s record-breaking submission to the ARC-AGI-1 and ARC-AGI-2 benchmarks.

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration 

  • ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration [110.2]
    私たちは、他のモデルやさまざまなツールを管理する小さなオーケストレータが、どちらもインテリジェンスの上限を押し上げることができることを示しています。 インテリジェントなツールをコーディネートする,小さなオーケストレータのトレーニング方法であるToolOrchestraを紹介する。 ToolOrchestraを使うことで、従来のツール使用エージェントよりも低コストで精度の高い8BモデルであるOrchestratorを作成できる。
    論文  参考訳(メタデータ)   (Wed, 26 Nov 2025 18:59:46 GMT)
  • 「We introduce ToolOrchestra, a method for training a small language model to serve as the orchestrator of a diverse toolkit, including classical tools and more intelligent models. This dovetails with recent developments in the field testifying that small language models are often sufficiently powerful and far more economical in agentic systems」とエージェント時代に重要な能力であるツールオーケストレーション能力をモデルに与えるための研究
  • リポジトリはToolOrchestraGitHub – NVlabs/ToolOrchestra: ToolOrchestra is an end-to-end RL training framework for orchestrating tools and agentic workflows.

Claude Opus 4.5, DeepSeekMath-V2, DR Tulu, Qwen3-VL, HunyuanVideo 1.5

先週はOpus 4.5の発表(Introducing Claude Opus 4.5 \ Anthropic)があり、Anthropic Clodeが特にコード生成においてさすがの性能を見せた。

公開モデル関連では数学に強いDeepSeekMath-V2(deepseek-ai/DeepSeek-Math-V2 · Hugging Face)、Deep Researchに強いDR Tulu(DR Tulu: An open, end-to-end training recipe for long-form deep research | Ai2)やQwen3-VL、HunyuanVideo 1.5のテクニカルレポートに注目という状況。

  • DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research [152.2]
    ディープ・リサーチ・モデルは、多段階の研究を行い、長文でよく理解された回答を生成する。 ほとんどのオープンディープリサーチモデルは、検証可能な報酬を伴う強化学習を通じて、短い形式のQAタスクで訓練されている。 我々は、オープンエンドで長期のディープリサーチのために直接訓練された最初のオープンモデルであるDeep Research Tulu (DR Tulu-8B)を開発した。
    論文  参考訳(メタデータ)   (Wed, 26 Nov 2025 14:52:10 GMT)
  • 「In this paper, we introduce Deep Research Tulu (DR Tulu-8B), the first open model that is directly trained for open-ended, long-form deep research tasks. To address the challenge of verification in long-form tasks, DR Tulu is first finetuned on high-quality, naturally occurring user data, and then trained via a new method we call Reinforcement Learning with Evolving Rubrics (RLER), in which we construct and maintain rubrics that co-evolve with the policy model during training.」とDeepResearchに特化したモデルの提案。強化学習部分も興味深い構成。
  • リポジトリはGitHub – rlresearch/dr-tulu: Official repository for DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research
  • Qwen3-VL Technical Report [153.4]
    Qwen3-VLは、これまでで最も有能な視覚言語モデルであり、幅広いマルチモーダルベンチマークで優れた性能を実現している。 最大256Kトークンのインターリーブコンテキストをサポートし、テキスト、画像、ビデオをシームレスに統合する。 Qwen3-VLは3つの中核柱を提供する: (i) 非常に強い純粋テキスト理解、いくつかのケースにおいて同等のテキストのみのバックボーンを超える、 (ii) テキスト入力とインターリーブされたマルチモーダル入力の両方に256Kのネイティブウィンドウを持つ堅牢な長期理解、 (iii) シングルイメージ、マルチイメージ、ビデオタスクをまたいだ高度なマルチモーダル推論。
    論文  参考訳(メタデータ)   (Wed, 26 Nov 2025 17:59:08 GMT)
  • 「The Qwen3-VL framework integrates a vision encoder and a language model decoder to process multimodal inputs, including text, images, and video. The vision encoder is specifically designed to handle dynamic, native-resolution visual inputs, mapping them to visual tokens of variable length.」という構成、商用モデルと比較可能な性能、一部は上回る。
  • リポジトリはGitHub – QwenLM/Qwen3-VL: Qwen3-VL is the multimodal large language model series developed by Qwen team, Alibaba Cloud.

Grok 4.1, Gemini 3Pro, GPT-5.1 Pro / Codex , Nano Banana Pro (Gemini Image Pro), Olmo 3, Step-Audio-R1, Omnilingual ASR

先週はフロンティアモデルレベルでの激戦がよくわかる週であった。Grok 4.1(Grok 4.1 | xAI)、Gemini3 Pro(Gemini 3 Pro – Google DeepMind、GPT-5.1 Pro(XユーザーのOpenAIさん: 「GPT-5.1 Pro is rolling out today to all Pro users. It delivers clearer, more capable answers for complex work, with strong gains in writing help, data science, and business tasks.」 / X)GPT-5.1-Codex-Max(Building more with GPT-5.1-Codex-Max | OpenAI)と大きな発表が相次いだ。公式のベンチマーク結果の他、様々な方が検証を行っていて、個人的にも検証をしているが、LLM/LRMの性能アップはまだいけるのではないか、と期待の持てる結果になっている。

Googleの Nano Banana Pro(XユーザーのGoogle AIさん: 「Rolling out today we are launching Nano Banana Pro, the world’s best image model built to move beyond casual creation and into a new era of studio-quality, functional design. Nano Banana Pro enables a new level of precision and creative control, transforming the way you bring https://t.co/BsyAgkUY7X」 / X)は画像生成のレベルが1段抜けている印象がある。Geminiのマルチモーダル性能が優れている点など総合力でさすがGoogleとの印象がある今日この頃。

公開モデルでもOlmo3(XユーザーのNathan Lambertさん: 「We present Olmo 3, our next family of fully open, leading language models. This family of 7B and 32B models represents: 1. The best 32B base model. 2. The best 7B Western thinking & instruct models. 3. The first 32B (or larger) fully open reasoning model. This is a big https://t.co/dpMtRHSjRp」 / X)が出ている。32Bモデルとしては最高レベルの性能(Olmo Improvement Benchmark)、音声領域におけるStep-Audio-R1、Omnilingual ASRなどこちらの流れも勢いは衰えていない。

  • Step-Audio-R1 Technical Report [70.4]
    本稿では,音声領域における推論能力の解放に成功した最初の音声推論モデルであるStep-Audio-R1を紹介する。 私たちのモデルは、Gemini 2.5 Proを抜いて、最先端のGemini 3 Proに匹敵するパフォーマンスを実現した、強力なオーディオ推論能力を示しています。
    論文  参考訳(メタデータ)   (Wed, 19 Nov 2025 20:12:50 GMT)
  • Gemini 3 Proとも競合を主張、「Step-Audio-R1, the first audio reasoning model that successfully unlocks reasoning capabilities in the audio domain」
  • リポジトリはGitHub – stepfun-ai/Step-Audio-R1
  • Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages [76.1]
    大規模自動音声認識システムであるOmnilingual ASRを紹介する。 自己教師付き事前学習を7Bパラメータに拡張し、堅牢な音声表現を学習する。 ASRが提供しなかった500以上の言語を含む1,600以上の言語にカバー範囲を広げている。
    論文  参考訳(メタデータ)   (Fri, 14 Nov 2025 01:04:28 GMT)
  • 「Omnilingual ASR illustrates how scaling methods, when combined with deliberate data collection and new architectural innovation, can reshape the trajectory of multilingual ASR. The project not only extends coverage to more than 1,600 languages, with over 500 represented for the first time in any ASR system, but also reframes how coverage itself is conceived.」と非常に多くの言語をカバーするモデル
  • リポジトリはGitHub – facebookresearch/omnilingual-asr: Omnilingual ASR Open-Source Multilingual SpeechRecognition for 1600+ Languages

GPT-5.1, ERNIE 5, Marble, SIMA2

先週もGPT-5.1の公開(GPT-5.1: A smarter, more conversational ChatGPT | OpenAI)、ERNIE 5の公開(XユーザーのBaidu Inc.さん: 「Here comes ERNIE 5.0 — our latest natively omni-modal foundational model. It excels in omni-modal understanding, creative writing, instruction following, and more. We will continue investing in and developing more cutting-edge models to push the boundaries of intelligence. https://t.co/S3L1Tlre2n」 / X)などニュースが続いた。評価はこれから、という感じではあるが大規模展開をすぐに行っていくのがすごい。

動画生成、3D生成など生成モデルをベースとしてWorld Model構築のトライが流行っており、Marble: A Multimodal World Model | World Labsも要注目である。同じく先週発表されたSIMA 2: A Gemini-Powered AI Agent for 3D Virtual Worlds – Google DeepMindのなかでGenie3(Genie 3: A new frontier for world models – Google DeepMind)への言及がある通りAI Agentが学ぶ場としても有効に思える。AIの内心・想像の世界としても有効性が指摘されていてホットな領域。

Kimi K2 Thinking, LongCat-Flash-Omni, iFlyBot-VLA, Nemotron Nano V2 VL

先週も様々な公開モデルやテクニカルレポートの公開があった。非常に進展が速くフロンティアモデルに迫るものが公開されている凄い状況である。

Kimi K2 Thinking(Kimi K2 Thinkingmoonshotai/Kimi-K2-Thinking · Hugging Face)は一部ベンチマークでGPT=5などフロンティアモデルを超える性能を主張するモデル。1Tパラメータ、Active 32BはGrok 4, Phi4-mini-Flash-Reasoning, SmolLM3, Kimi-K2, T5Gemma – arXiv最新論文の紹介の時と同じで「Starting with Kimi K2, we built it as a thinking agent that reasons step-by-step while dynamically invoking tools. It sets a new state-of-the-art on Humanity’s Last Exam (HLE), BrowseComp, and other benchmarks by dramatically scaling multi-step reasoning depth and maintaining stable tool-use across 200–300 sequential calls.」とのこと。

マルチモーダルモデルとしてはLongCat-Flash-Omni(meituan-longcat/LongCat-Flash-Omni · Hugging Face), iFlyBot-VLA(iFlyBot-VLA Tech ReportiFlyBot/iFlyBotVLM · Hugging Face), Nemotron Nano V2 VL(nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1 · Hugging Face)のテクニカルレポートが公開されていた。

  • iFlyBot-VLA Technical Report [25.3]
    iFlyBot-VLA(iFlyBot-VLA)は、新しいフレームワークでトレーニングされた大規模ビジョン・ランゲージ・アクション(VLA)モデルである。 主なコントリビューションは,(1)大規模人体とロボットの操作映像を徹底的に訓練した潜在行動モデル,(2)視覚言語モデル(VLM)と訓練中のアクションエキスパートを協調的に監督する2段階の行動表現フレームワーク,(3)ロボット軌道データと一般的なQAデータセットと空間QAデータセットを組み合わせた混合トレーニング戦略である。
    論文  参考訳(メタデータ)   (Sat, 01 Nov 2025 06:24:56 GMT)
  • iFlyTechのVLAモデル、「The architecture of iFlyBot-VLA consists primarily of a language transformer backbone and an action expert network. The model generates executable robot actions through a combination of explicit and implicit planning.」とのこと
  • iFlyBot/iFlyBotVLM · Hugging Face
  • NVIDIA Nemotron Nano V2 VL [134.5]
    ネモトロン・ナノV2VLは、マンバ・トランスフォーマーのハイブリッドLLMであるネモトロン・ナノV2上に構築される。 BF16、FP8、FP4フォーマットでモデルチェックポイントをリリースしています。
    論文  参考訳(メタデータ)   (Thu, 06 Nov 2025 00:10:19 GMT)
  • 「Nemotron Nano V2 VL delivers significant improvements over our previous model, Llama-3.1-Nemotron-Nano-VL-8B, across all vision and text domains through major enhancements in model architecture, datasets, and training recipes. Nemotron Nano V2 VL builds on Nemotron Nano V2, a hybrid Mamba-Transformer LLM, and innovative token reduction techniques to achieve higher inference throughput in long document and video scenarios.」とハイブリッド構成なマルチモーダルモデル
  • nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1 · Hugging Face

A Survey on Efficient Large Language Model Training: From Data-centric Perspectives

  • A Survey on Efficient Large Language Model Training: From Data-centric Perspectives [42.9]
    本稿では,データ中心の観点から学習後のデータ効率の高い大規模言語モデルに関する最初の体系的な調査を示す。 本稿では,データ選択,データ品質向上,合成データ生成,データ蒸留・圧縮,自己進化型データエコシステムを対象とする,データ効率の高いLCMポストトレーニング手法の分類法を提案する。 我々の研究が、大規模モデルトレーニングにおけるデータ利用の可能性の最大化に、さらなる探究を促すことを願っています。
    論文  参考訳(メタデータ)   (Wed, 29 Oct 2025 17:01:55 GMT)
  • 「We propose a taxonomy of data-efficient LLM post-training methods, covering data selection, data quality enhancement, synthetic data generation, data distillation and compression, and self-evolving data ecosystems. We summarize representative approaches in each category and outline future research directions.」というサーベイ。
  • リポジトリはGitHub – luo-junyu/Awesome-Data-Efficient-LLM: A list of data-efficient and data-centric LLM (Large Language Model) papers. Our Survey Paper: Towards Efficient LLM Post Training: A Data-centric Perspective

A Survey of AI Scientists: Surveying the automatic Scientists and Research

  • A Survey of AI Scientists: Surveying the automatic Scientists and Research [34.9]
    人工知能は、計算機器から科学知識の自律的創始者へと大きく移行している。 本調査では, エンド・ツー・エンドの科学的プロセスを, 文献レビュー, イデオロギー生成, 実験準備, 実験実施, 科学著作, 論文生成に分解する, 統合された6段階の方法論的枠組みを紹介する。
    論文  参考訳(メタデータ)   (Mon, 27 Oct 2025 06:13:21 GMT)
  • 「This survey provides a systematic and comprehensive synthesis of this emerging domain by introducing a unified, six-stage methodological framework that deconstructs the scientific process into: Literature Review, Idea Generation, Experimental Preparation, Experimental Execution, Scientific Writing, and Paper Generation. Through this analytical lens, we systematically map and analyze dozens of seminal works from 2022 to late 2025, revealing a clear three-phase evolutionary trajectory.」と科学へのAI活用に関するサーベイ。
  • リポジトリはGitHub – Mr-Tieguigui/Survey-for-AI-Scientist: A comprehensive survey for AI Scientist.

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM 

  • OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM [128.4]
    我々はOmniVinciを紹介します。OmniVinciは強力でオープンソースのOmni-modal LLMを構築するためのイニシアチブです。 モデルアーキテクチャでは、(i)OmniAlignNetで視覚とオーディオの埋め込みのアライメントを強化する方法、(ii)視覚と音声信号の時間的アライメントをキャプチャするための時間的エンベディンググループ、(iii)オムニモーダル埋め込みにおける絶対時間的情報をエンコードするための制約付きロータリー時間エンベディングという3つの重要なイノベーションを提示する。
    論文  参考訳(メタデータ)   (Fri, 17 Oct 2025 17:59:59 GMT)
  • 「we introduce a new framework to harmonize vision and audio embeddings in a unified omni-modal embedding space, featuring three new techniques: (i) OmniAlignNet that learns to construct a modality-shared space to align vision and audio embeddings from the same video; (ii) Temporal Embedding Grouping that divides the time dimension into multiple chunks and reorganizes the vision and audio embeddings according to their timestamps to align with the corresponding chunks; (iii) Constrained Rotary Time Embedding to directly insert periodic temporal information into vision-audio embeddings.」とマルチモーダルなLLMの提案
  • プロジェクトサイトはOmniVinci: Joint Visual-Audio Understanding