What Matters in LLM-generated Data: Diversity and Its Effect on Model Fine-Tuning [
What Matters in LLM-generated Data: Diversity and Its Effect on Model Fine-Tuning [22.4] LLM生成データの多様性レベルが下流モデルの性能にどのように影響するかを示す。 また、LLM生成データの異なる割合を混合したデータに基づいて訓練されたモデルの性能についても検討する。 論文参考訳(メタデータ) (Tue, 24 Jun 2025 02:44:58 GMT)
合成データが与える影響に関する報告。特に多様性の度合いに注目している。
「Our experimental results show that, with minimal distribution shift, moderately diverse LLM-generated data can enhance model performance in scenarios with insufficient labeled data, whereas highly diverse generated data has a negative impact.」とのこと。