Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?

  • Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.9]
    我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。 これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。 並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
    論文  参考訳(メタデータ)   (Mon, 17 Feb 2025 07:21:11 GMT)
  • 必ず長い推論が性能向上につながっておらず「These results reveal that self-revision ability is a key factor in the effectiveness of sequential scaling for o1-like models.」だったとのこと。実験結果から「Shortest Majority Vote, which incorporate parallel scaling approaches with our insight on sequential scaling.」を提案。
  • 前半はThe Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks – arXiv最新論文の紹介を思いうかぶ。提案手法の再現実験などが気になるところ。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です