Decoding the Critique Mechanism in Large Reasoning Models

  • Decoding the Critique Mechanism in Large Reasoning Models [50.8]
    大規模推論モデル(LRM)は、バックトラックと自己検証メカニズムを示し、中間ステップを修正して正しい解に到達できるようにする。 中間推論ステップに算術ミスを挿入することにより,現在のLEMがエラーからどのように回復するかを検討する。 チェーン・オブ・シークレットを伝播する誤りにもかかわらず、モデルは依然として正しい最終解に達している。
    論文  参考訳(メタデータ)   (Tue, 17 Mar 2026 10:03:30 GMT)
  • 「we demonstrate that the critique vector influences test-time scaling: increasing it helps the model better recognize its mistakes and improve its final accuracy, while decreasing it degrades performance.」というのがとても興味深い。
  • リポジトリはGitHub – mail-research/lrm-critique-vectors · GitHub

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です