Mistral 3, Deepseek V3.2, OpenRouter State of AI, Poetiq

先週の大きな話題はMistral3の発表(XユーザーのMistral AIさん: 「Introducing the Mistral 3 family of models: Frontier intelligence at all sizes. Apache 2.0. Details in 🧵 https://t.co/lsrDmhW78u」 / XIntroducing Mistral 3 | Mistral AI)とDeepSeek v3.2(deepseek-ai/DeepSeek-V3.2-Speciale · Hugging Face)だった。いずれも強力な公開モデルであり、フロンティアモデルに近い性能を主張している。新たなモデル発表が相次ぎ、実際の性能検証はこれからという感じではあるが、着実に研究が進展している感がある。

OpenRouterから発表されたState of AI | OpenRouterも興味深いレポートだった。(バイアスはあるのだろうが)コード生成によく用いられている点、多様なモデルが利用されている点など興味深い。

PoetiqからのARC-AGI-2のSoTA(XユーザーのPoetiqさん: 「Poetiq has officially shattered the ARC-AGI-2 SOTA 🚀 @arcprize has officially verified our results: – 54% Accuracy – first to break the 50% barrier! – $30.57 / problem – less than half the cost of the previous best! We are now #1 on the leaderboard for ARC-AGI-2! https://t.co/a8tPtCynVY」 / X)に関する発表も興味深かった。詳細な検証(他チームのものを含む)待ちの面はあるのだろうが、Agenticな処理や複数のLLMの組み合わせには現在でも効果があるように思える。

  • Introducing Mistral 3
    Mistral 3が発表され、14B、8B、3Bの3種類の小型モデルと、41Bのアクティブパラメータを持つ最強のMistral Large 3が公開されました。これらはすべてApache 2.0ライセンスのもとオープンソース化され、開発者コミュニティに強い基盤を提供します。また、Mistral Large 3は、最新のNVIDIA GPUを用いて訓練され、マルチモーダル・マルチリンガル処理において高い性能を発揮します。
  • Introducing Mistral 3 | Mistral AI
  • DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models [219.6]
    本稿では,より優れた推論とエージェント性能で高い計算効率を調和させるモデルであるDeepSeek-V3.2を紹介する。 計算複雑性を大幅に低減する効率的な注意機構であるDSAを導入する。 DeepSeek-V3.2は、堅牢な強化学習プロトコルを実装し、訓練後の計算をスケールすることにより、GPT-5と同等に動作する。
    論文  参考訳(メタデータ)   (Tue, 02 Dec 2025 09:25:14 GMT)
  • DeepSeek Sparse Attentionなど、内部構造にも踏み込んだ論文。
  • 「(3) Large-Scale Agentic Task Synthesis Pipeline: To integrate reasoning into tool-use scenarios, we developed a novel synthesis pipeline that systematically generates training data at scale. This methodology facilitates scalable agentic post-training, yielding substantial improvements in generalization and instruction-following robustness within complex, interactive environments.」とAgenticな処理強化に力を入れている点にも注目。
  • State of AI | OpenRouter
    この一年は大規模言語モデル(LLM)の進化と実世界での利用において重要な転機となった。2024年12月に最初の広く採用された推論モデルo1が公開され、多段階の推論が可能になり、開発や実験が加速した。実際の使用に関するデータ分析により、オープンウェイトモデルの普及や創造的なロールプレイの人気など、多様な利用パターンが浮かび上がった。
  • State of AI | OpenRouter
  • Poetiq Shatters ARC-AGI-2 State of the Art at Half the Cost
    Poetiqは最新のGemini 3とGPT-5.1モデルを迅速に統合し、低コストで高精度な結果を実現しました。このシステムは、ARC-AGI-1およびARC-AGI-2において新しいパレートフロンティアを築き、従来を上回る性能を発揮しています。Poetiqはまた、運用の柔軟性を活かし、最適なモデルの組み合わせを自動的に選択する能力を持つメタシステムを開発しました。
  • Poetiq | ARC-AGI-2 SOTA at Half the Cost
  • Poetiq | Traversing the Frontier of Superintelligenceによれば「The prompt is an interface, not the intelligence: Our system engages in an iterative problem-solving loop. It doesn’t just ask a single question; it uses the LLM to generate a potential solution (sometimes code as in this example), receives feedback, analyzes the feedback, and then uses the LLM again to refine it. This multi-step, self-improving process allows us to incrementally build and perfect the answer.Self-Auditing: The system autonomously audits its own progress. It decides for itself when it has enough information and the solution is satisfactory, allowing it to terminate the process. This self-monitoring is critical for avoiding wasteful computation and minimizing costs.」とのこと。
  • リポジトリが公開されている、GitHub – poetiq-ai/poetiq-arc-agi-solver: This repository allows reproduction of Poetiq’s record-breaking submission to the ARC-AGI-1 and ARC-AGI-2 benchmarks.

Measuring Agents in Production

  • Measuring Agents in Production [133.8]
    プロダクションエージェントは通常、シンプルで制御可能なアプローチで構築されています。 信頼性は依然として最大の開発課題であり、エージェントの正しさの確保と評価の難しさによって推進されます。
    論文  参考訳(メタデータ)   (Tue, 02 Dec 2025 16:45:10 GMT)
  • AIエージェント利用に関する調査。現状は効率化や人間の補完を目指した利用が多い、課題は信頼性など納得感がある。「Production agents favor well-scoped, static work-flows: 68% execute at most ten steps before requiring human intervention, with 47% executing fewer than five steps. Furthermore, 85% of detailed case studies forgo third-party agent frameworks, opting instead to build custom agent ap- plication from scratch. Organizations deliberately constrain agent autonomy to maintain reliability.」も現状はそうだろうと思いつつ、徐々に変化していくんだろうなと思わなくもない。

Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

  • Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction [117.6]
    本稿では,対話型環境の多様性と複雑さを体系的にスケールする手法を提案する。 本手法は,3次元に対処することで,このスケーリングを実現する。 Nex-N1は、インフラストラクチャによって確立された多様な複雑なインタラクティブ環境に基づいてトレーニングします。
    論文  参考訳(メタデータ)   (Thu, 04 Dec 2025 16:57:02 GMT)
  • 「NexA4A (Agent for Agent), a generative system that automatically synthesizes diverse agent architectures and workflows from natural language specifications; and NexGAP (General Agent-data Pipeline), which leverages real-world Model Context Protocol (MCP) tools and information fusion to generate massive-scale, end-to-end trajectories rooted in authentic execution.」とエージェント化を前提とした軌跡生成のフレームワーク。「Future work will focus on evolving this infrastructure into a large-scale simulation platform for Reinforcement Learning. We aim to automatically construct environments that are not only highly diverse and increasingly difficult but also objectively verifiable.」と書かれたFuture workに期待大。
  • リポジトリはGitHub – nex-agi/Nex-N1