Refine-n-Judge: Curating High-Quality Preference Chains for LLM-Fine-Tuning
Refine-n-Judge: Curating High-Quality Preference Chains for LLM-Fine-Tuning [14.3] 大規模言語モデル(LLM)は、好みに基づく微調整を通じて顕著な進歩を見せている。 本稿では、1つのLCMを精細化と判定の両方に活用し、データセットの品質を向上させる自動反復手法であるRefine-n-Judgeを紹介する。 本研究では,5つのコーパスにまたがる公開データセットにまたがるRefine-n-Judgeの有効性を示す。 論文参考訳(メタデータ) (Sun, 03 Aug 2025 01:56:03 GMT)
「Bringing these capabilities together, we propose Refine-n-Judge, a fully automated dataset curation pipeline, summarized in Figure 2. In this framework, an LLM model serves as both the refiner- generating improved outputs- and the judge-comparing the refined output against the original and selecting the preferred version.」という高品質化フレームワークの提案。