The Self-Improvement Paradox: Can Language Models Bootstrap Reasoning Capabilities without External Scaffolding? 

  • The Self-Improvement Paradox: Can Language Models Bootstrap Reasoning Capabilities without External Scaffolding? [39.6]
    本稿では,高品質な質問応答データを完全自律的に生成するフレームワークであるCrescentを提案する。 数学推論のための外部監視信号がゼロであることから、クレセントは真の自己改善の可能性に光を当てている。
    論文  参考訳(メタデータ)   (Wed, 19 Feb 2025 05:37:08 GMT)
  • 「CRESCENT as a simple yet effective framework – leveraging techniques of bait prompting, diversification, and consensus enhancement – for exploring the self-improvement problem of LLMs.」の提案、CoTなどに比べても高い性能を発揮とのこと。
  • 何らかの情報が増えているわけではないのでTTCにパワーを使っている効果が出ているという解釈で良いのだろうか。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です