Boosting LLM Reasoning via Spontaneous Self-Correction

Boosting LLM Reasoning via Spontaneous Self-Correction [43.5]
数学推論を改善するためのアプローチの1つは自己補正である。既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
論文参考訳（メタデータ） (Sat, 07 Jun 2025 21:23:00 GMT)
「we introduce SPOC, a spontaneous self-correction approach that enables LLMs to spontaneously generate interleaved solutions and verifications in a single inference pass.」とCoT（ToT）とLRMの関係を思い出すアプローチ。
この手の強化を行ったモデルをMoA的に束ねるのが良いのか、いろいろなものを一つのモデルが吸収していくのか、興味があるところ。

コメントを残す

コメントを残す コメントをキャンセル