Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions 

  • Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions [40.2]
    Marco-o1は数学、物理学、コーディングなどの標準解を持つ分野に焦点を当てている。 o1モデルは、明確な標準が欠如し、報酬が定量化が難しい広い領域に効果的に一般化しますか? Marco-o1は、Chain-of-Thoughtファインチューニング、Monte Carlo Tree Search (MCTS)、リフレクションメカニズム、革新的な推論戦略によって実現されている。
    論文  参考訳(メタデータ)   (Thu, 21 Nov 2024 18:37:33 GMT)
  • 「Our Marco-o1 enhances the reasoning ability by integrating Chain-of-Thought (CoT) fine-tuning, Monte Carlo Tree Search (MCTS), and novel reasoning action strategies.」というo1ライクなモデル構築に関する報告。
  • Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.9]
    OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。 本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
    論文  参考訳(メタデータ)   (Wed, 18 Dec 2024 18:24:47 GMT)
  • 「In this paper, we present a roadmap for reproducing o1 from the perspective of reinforcement learning, emphasizing key components such as policy initialization, reward design, search, and learning.」という論文も。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です