Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions [40.2] Marco-o1は数学、物理学、コーディングなどの標準解を持つ分野に焦点を当てている。 o1モデルは、明確な標準が欠如し、報酬が定量化が難しい広い領域に効果的に一般化しますか? Marco-o1は、Chain-of-Thoughtファインチューニング、Monte Carlo Tree Search (MCTS)、リフレクションメカニズム、革新的な推論戦略によって実現されている。 論文参考訳(メタデータ) (Thu, 21 Nov 2024 18:37:33 GMT)
「Our Marco-o1 enhances the reasoning ability by integrating Chain-of-Thought (CoT) fine-tuning, Monte Carlo Tree Search (MCTS), and novel reasoning action strategies.」というo1ライクなモデル構築に関する報告。
Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.9] OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。 本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。 論文参考訳(メタデータ) (Wed, 18 Dec 2024 18:24:47 GMT)
「In this paper, we present a roadmap for reproducing o1 from the perspective of reinforcement learning, emphasizing key components such as policy initialization, reward design, search, and learning.」という論文も。