先週の大きなニュースはOpenAI o3でFrontierMath、ARC-AGI、SWE-benchなど難しいベンチマークで驚異的な性能を出している。12 Days of OpenAIは興味深い発表が多く、一方でAGIと言い切れるほどのものはなく、また、動画生成など分野によっては競合(GitHub – Tencent/Tencent-Hunyuan-Largeなど)の猛追も印象的だった。
12 Days of OpenAI | OpenAI
OpenAIの「12 Days」まとめ – ITmedia NEWS
GoogleもGemini 2.0 Flash Thinkingを発表(Gemini 2.0 Flash の思考モード | Gemini API | Google AI for Developers)、OpenAI o3の性能にも迫っていきそうな雰囲気を感じる。OSS界隈でもo3を目指す動きが盛り上がっていて期待できそう。
AGIを目指すとすると、推論(思考)性能はタスクによるとはいえかなり汎用的に人間(以上)レベルを達成できている感じで、今後は別機能(記憶とか自己改善とかEmbodiedとか)のインテグレーションがカギになりそう。Embodied AIに関連して先週はシミュレーション環境であるGenesisも話題になっていた。
華々しい発表ではなかったかもしれないがFinally, a Replacement for BERT: Introducing ModernBERTも重要な成果。decoder only全盛という感じではあるが、実務タスクを解く場合、BERT系列の選択肢は持っておきたいところ。