OpenAI o1

先週の最大のニュースは今まで様々なうわさがあった、OpenAI o1 Introducing OpenAI o1 | OpenAIの公開だろう。特にSTEM分野で強力な性能を発揮している。

技術的な情報は公開されていない部分が多いが、Learning to Reason with LLMs | OpenAIに書かれている「Our large-scale reinforcement learning algorithm teaches the model how to think productively using its chain of thought in a highly data-efficient training process. We have found that the performance of o1 consistently improves with more reinforcement learning (train-time compute) and with more time spent thinking (test-time compute). The constraints on scaling this approach differ substantially from those of LLM pretraining, and we are continuing to investigate them.」では自己改善・合成データ活用の流れ(self-X – arXiv最新論文の紹介 ( data – arXiv最新論文の紹介 (に近いのかなと思う。


  • OpenAI o-1はモデルであってシステムではない、(ユーザには見せない)長い推論過程を生成するモデルである
  • GPT-4oのプロンプトエンジニアリングによってOpenAI o-1の性能と競合することはできない
  • RAGはOpenAI o-1においても有効


今後、エージェント的動作を行う場合を含め様々なベンチマークで評価されているのだろうと思うが、CybenchCybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models – arXiv最新論文の紹介 (では「Subtasks % Solved: Percentage of subtasks solved per task, macro-averaged across the tasks.」が向上している(GPT-4oで負けていたClaude 3.5 Sonnetを抜いた)一方でSuccessRateはGPT-4oに及んでいない。


