Boosting LLM Reasoning via Spontaneous Self-Correction

  • Boosting LLM Reasoning via Spontaneous Self-Correction [43.5]
    数学推論を改善するためのアプローチの1つは自己補正である。 既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。 本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
    論文  参考訳(メタデータ)   (Sat, 07 Jun 2025 21:23:00 GMT)
  • 「we introduce SPOC, a spontaneous self-correction approach that enables LLMs to spontaneously generate interleaved solutions and verifications in a single inference pass.」とCoT(ToT)とLRMの関係を思い出すアプローチ。
  • この手の強化を行ったモデルをMoA的に束ねるのが良いのか、いろいろなものを一つのモデルが吸収していくのか、興味があるところ。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です