Refine-n-Judge: Curating High-Quality Preference Chains for LLM-Fine-Tuning

  • Refine-n-Judge: Curating High-Quality Preference Chains for LLM-Fine-Tuning [14.3]
    大規模言語モデル(LLM)は、好みに基づく微調整を通じて顕著な進歩を見せている。 本稿では、1つのLCMを精細化と判定の両方に活用し、データセットの品質を向上させる自動反復手法であるRefine-n-Judgeを紹介する。 本研究では,5つのコーパスにまたがる公開データセットにまたがるRefine-n-Judgeの有効性を示す。
    論文  参考訳(メタデータ)   (Sun, 03 Aug 2025 01:56:03 GMT)
  • 「Bringing these capabilities together, we propose Refine-n-Judge, a fully automated dataset curation pipeline, summarized in Figure 2. In this framework, an LLM model serves as both the refiner- generating improved outputs- and the judge-comparing the refined output against the original and selecting the preferred version.」という高品質化フレームワークの提案。
  • judge 部分なしでは十分な効果がなかったという結果が興味深い。改善とは異なるタスクとしてjudge をLLMに解かせるというのが重要なんだろうか。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です