先週はGPT-5(GPT-5 が切り拓く働き方の新時代 | OpenAI)、gpt-oss 20B・120B(gpt-oss が登場 | OpenAI), Claude Opus 4.1(Claude Opus 4.1 \ Anthropic), DeepMind Genie 3(Genie 3: A new frontier for world models – Google DeepMind)と大きな発表が相次いだ。
GPT-5はベンチマーク性能でSoTAをしっかりとっており非常に性能が高い。一方でその少し前に発表されたClaude 4.1 Opusとの性能差が大きくなかったこと(システムカードの「All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.」(gpt5-system-card-aug7.pdf)という記述も気になる)や、Chatbot Arenaの日本語版でGemini 2.5 Proに負けていること(かつ1 vs 1の勝負などGemini 2.5 Proの勝率の方が高い)などから期待ほどではないという印象もある。それとGPT-5でも創作漢字(Pixels, Patterns, but No Poetry: To See The World like Humans – arXiv最新論文の紹介)は読めなかった・・・。戦略的な価格付けであり、また、Measuring AI Ability to Complete Long Tasks – METRではまさにフロンティアなスコアを出していることもあって実態がどうかの評価にはもう少し時間が必要そう。
GPT-OSSは性能の高い公開モデルであり、Apache-2ライセンス。実用的なレベルと思われるモデルが公開された意義は大きい。From GPT-2 to gpt-oss: Analyzing the Architectural Advancesではtransformerといっても様々な改善がされてきたことが分かる。
Claude 4.1 Opus, Gemini 2.5 ProとOpenAI以外の会社も非常に高性能なモデルを出しており、DeepSeekやKimi、Hunyuanといった中国のモデルの高性能化も進んでいる。OpenAI一強は終わっているものの進化は続いている印象。