Self-rewarding correction for mathematical reasoning 

  • Self-rewarding correction for mathematical reasoning [19.5]
    我々は,大規模言語モデル(LLM)の自己回帰的推論について研究する。 LLMは、ステップバイステップの推論を同時に生成し、外部からのフィードバックを伴わない推論時間における出力の正しさを評価する。 本稿では,自己生成データのみを用いて自己回帰推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。
    論文  参考訳(メタデータ)   (Wed, 26 Feb 2025 23:01:16 GMT)
  • 「self-rewarding reasoning framework for LLMs, which integrates the generator and reward model into a single LLM, enabling autonomous reasoning, evaluation, and correction.」、「self-correction in mathematical reasoning and propose a two-stage framework that relies only on self-generated data.」の提案。
  • リポジトリはGitHub – RLHFlow/Self-rewarding-reasoning-LLM: Recipes to train the self-rewarding reasoning LLMs.

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です