GPT-5, GPT-OSS, Claude Opus 4.1

先週はGPT-5(GPT-5 が切り拓く働き方の新時代 | OpenAI)、gpt-oss 20B・120B(gpt-oss が登場 | OpenAI), Claude Opus 4.1(Claude Opus 4.1 \ Anthropic), DeepMind Genie 3(Genie 3: A new frontier for world models – Google DeepMind)と大きな発表が相次いだ。

GPT-5はベンチマーク性能でSoTAをしっかりとっており非常に性能が高い。一方でその少し前に発表されたClaude 4.1 Opusとの性能差が大きくなかったこと(システムカードの「All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.」(gpt5-system-card-aug7.pdf)という記述も気になる)や、Chatbot Arenaの日本語版でGemini 2.5 Proに負けていること(かつ1 vs 1の勝負などGemini 2.5 Proの勝率の方が高い)などから期待ほどではないという印象もある。それとGPT-5でも創作漢字(Pixels, Patterns, but No Poetry: To See The World like Humans  – arXiv最新論文の紹介)は読めなかった・・・。戦略的な価格付けであり、また、Measuring AI Ability to Complete Long Tasks – METRではまさにフロンティアなスコアを出していることもあって実態がどうかの評価にはもう少し時間が必要そう。

GPT-OSSは性能の高い公開モデルであり、Apache-2ライセンス。実用的なレベルと思われるモデルが公開された意義は大きい。From GPT-2 to gpt-oss: Analyzing the Architectural Advancesではtransformerといっても様々な改善がされてきたことが分かる。

Claude 4.1 Opus, Gemini 2.5 ProとOpenAI以外の会社も非常に高性能なモデルを出しており、DeepSeekやKimi、Hunyuanといった中国のモデルの高性能化も進んでいる。OpenAI一強は終わっているものの進化は続いている印象。

R-Zero: Self-Evolving Reasoning LLM from Zero Data

  • R-Zero: Self-Evolving Reasoning LLM from Zero Data [56.7]
    自己進化型大規模言語モデル(LLM)は、自身の経験から自律的に生成、精製、学習することで、超知性へのスケーラブルなパスを提供する。 このようなモデルを訓練するための既存の方法は、いまだに膨大な人為的なタスクやラベルに大きく依存している。 R-Zeroは、完全に自律的なフレームワークで、スクラッチから独自のトレーニングデータを生成する。
    論文  参考訳(メタデータ)   (Thu, 07 Aug 2025 03:38:16 GMT)
  • 「we propose R-Zero, a framework for training reasoning LLMs that can self-evolve from zero external data. In R-Zero, a single base model is initialized with two roles – a Challenger and a Solver that are independently optimized but co-evolve throughout the RL process.」、「Challenger is rewarded for proposing tasks near the edge of the Solver’s capability, and the Solver is rewarded for solving increasingly challenging tasks posed by the Challenger.」というGANっぽいフレームワーク。
  • リポジトリはChengsong-Huang/R-Zero: codes for R-Zero: Self-Evolving Reasoning LLM from Zero Data (https://www.arxiv.org/pdf/2508.05004)

RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing

  • RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing [111.1]
    RMTBenchは、80の多様な文字と8000以上の対話ラウンドを特徴とする、総合的なテキストバプサー中心のバイリンガルロールプレイングベンチマークである。 本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。 RMTBenchは、キャラクタバックグラウンドからユーザ意図のフルフィルメントにフォーカスを移すことで、学術的な評価と実践的なデプロイメント要件のギャップを埋める。
    論文  参考訳(メタデータ)   (Sun, 27 Jul 2025 16:49:47 GMT)
  • 「our User-Centric Dialogues are built around virtual users with clear intentions, enhancing continuity across multi-turn interactions and better reflecting real-world applications.」という特徴を持つベンチマークの提案。
  • 英語、中国語ともQWEN2.5-MAXが高スコア。