The Self-Improvement Paradox: Can Language Models Bootstrap Reasoning Capabilities without External Scaffolding?
The Self-Improvement Paradox: Can Language Models Bootstrap Reasoning Capabilities without External Scaffolding? [39.6] 本稿では,高品質な質問応答データを完全自律的に生成するフレームワークであるCrescentを提案する。 数学推論のための外部監視信号がゼロであることから、クレセントは真の自己改善の可能性に光を当てている。 論文参考訳(メタデータ) (Wed, 19 Feb 2025 05:37:08 GMT)
「CRESCENT as a simple yet effective framework – leveraging techniques of bait prompting, diversification, and consensus enhancement – for exploring the self-improvement problem of LLMs.」の提案、CoTなどに比べても高い性能を発揮とのこと。