GPT-5.2, Devstral 2, GLM-4.6V, Olmo 3.1

先週の大きなニュースはGPT-5.2の登場だった(GPT-5.2 が登場 | OpenAIgpt-5.2 Model | OpenAI API)非常に強力なモデルであり、Grok 4.1, Gemini 3Pro, GPT-5.1 Pro / Codex , Nano Banana Pro (Gemini Image Pro), Olmo 3, Step-Audio-R1, Omnilingual ASR – arXiv最新論文の紹介のGemini 3 Proを多くのベンチマークで抜き返すなど競争が続いている。

実態は第三者検証待ちといったところだが、手元のベンチマークでは性能が上がったところと下がったところがあり、評価は難しい。10年 | OpenAIにも注目でここ数年で大きな変化をもたらしたこと、AGIを目指せる状況になっているのは凄い。

GPT-5.2以外にも、Devstral 2(Introducing: Devstral 2 and Mistral Vibe CLI. | Mistral AImistralai/Devstral-2-123B-Instruct-2512 · Hugging Faceなど)やGLM-4.6V(GLM-4.6V: Open Source Multimodal Models with Native Tool Usezai-org/GLM-4.6V · Hugging Face)、Olmo 3.1(XユーザーのAi2さん: 「Olmo 3.1 is here. We extended our strongest RL run and scaled our instruct recipe to 32B—releasing Olmo 3.1 Think 32B & Olmo 3.1 Instruct 32B, our most capable models yet. 🧵 https://t.co/i8Ia5yGJoI」 / X)など公開モデル関連でも注目するニュースが多い。

Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

  • Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing [83.5]
    我々は、人間のサイバーセキュリティ専門家に対するAIエージェントの包括的な評価を初めて提示する。 我々は、既存の6人のAIエージェントと、新しいエージェントの足場であるARTEMISとともに、10人のサイバーセキュリティ専門家を評価します。 ARTEMISは総合的に第2位で、9つの有効な脆弱性と82%の有効な提出率を発見した。
    論文  参考訳(メタデータ)   (Wed, 10 Dec 2025 18:12:29 GMT)
  • 「We present the first comprehensive evaluation of AI agents against human cybersecurity professionals in a live enterprise environment. We evaluate ten cybersecurity professionals alongside six existing AI agents and ARTEMIS, our new agent scaffold, on a large university network consisting of ∼8,000 hosts across 12 subnets. ARTEMIS is a multi-agent framework featuring dynamic prompt generation, arbitrary sub-agents, and automatic vulnerability triaging. In our comparative study, ARTEMIS placed second overall, discovering 9 valid vulnerabilities with an 82% valid submission rate and outperforming 9 of 10 human participants.」とAIエージェント vs 人間の比較。このような分析は今後も様々な分野で実施されていくのだと思いつつ、どのように役割分担していくのか(将来的に人間に残される要素はあるのか)など気になるところ。
  • リポジトリはGitHub – Stanford-Trinity/ARTEMIS、プロジェクトサイトはTrinity – Stanford Research

Towards a Science of Scaling Agent Systems 

  • Towards a Science of Scaling Agent Systems [79.6]
    エージェント、言語モデル(LM)ベースのシステムでは、推論、計画、行動が現実のAIアプリケーションの主要なパラダイムになりつつある。 この広く採用されているにもかかわらず、彼らのパフォーマンスを決定する原則は未定のままである。 エージェントシステムのスケーリング原理を導出することで、このギャップに対処する。
    論文  参考訳(メタデータ)   (Tue, 09 Dec 2025 06:52:21 GMT)
  • マルチエージェント化に利点があるのか?が興味深い論文。「We reveal that multi-agent performance exhibits an inverted-U relationship with coordination complexity, with benefits diminishing beyond moderate coordination levels. Domain complexity emerges as the strongest performance predictor (𝛽= −0.114, 𝑝< 0.002), reducing MAS advantage more substantially than architectural choices. Performance gains vary dramatically by task structure: +80.9% on Finance Agent versus −70.0% on PlanCraft, indicating that coordination benefits depend tightly on task decomposability.」と納得感がある(というかそうだよねという)結果