Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models
Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models [33.1] 大規模言語モデル(LLM)は、複雑な推論タスクに対処するためにそれらを活用することに大きな研究の関心を呼んだ。 最近の研究は、LLMがテスト時間推論中により多くのトークンで”考える”ことを奨励することは、推論の精度を著しく向上させることを示した。 OpenAIのo1シリーズの導入は、この研究の方向性において重要なマイルストーンである。 論文参考訳(メタデータ) (Thu, 16 Jan 2025 17:37:58 GMT)
OpenAI o1ライクなモデル、Large Reasoning Modelsのサーベイ。「We begin by introducing the foundational background of LLMs and then explore the key technical components driving the development of large reasoning models, with a focus on automated data construction, learning-to-reason techniques, and test-time scaling.」とある通り包括的な内容。
下記でも思ったが本当に進展が速い
O1 Replication Journey — Part 3: Inference-time Scaling for Medical Reasoning [27.8] この研究は、医学的推論タスクのための大規模言語モデル(LLM)における推論時間スケーリングの可能性を探るものである。 500サンプルを適度にトレーニングすることで,本モデルでは6%-11%の性能向上を実現した。 論文参考訳(メタデータ) (Sat, 11 Jan 2025 07:10:23 GMT)