Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.9] 我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。 これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。 並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。 論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:21:11 GMT)
必ず長い推論が性能向上につながっておらず「These results reveal that self-revision ability is a key factor in the effectiveness of sequential scaling for o1-like models.」だったとのこと。実験結果から「Shortest Majority Vote, which incorporate parallel scaling approaches with our insight on sequential scaling.」を提案。