What Matters in LLM-generated Data: Diversity and Its Effect on Model Fine-Tuning [

  • What Matters in LLM-generated Data: Diversity and Its Effect on Model Fine-Tuning [22.4]
    LLM生成データの多様性レベルが下流モデルの性能にどのように影響するかを示す。 また、LLM生成データの異なる割合を混合したデータに基づいて訓練されたモデルの性能についても検討する。
    論文  参考訳(メタデータ)   (Tue, 24 Jun 2025 02:44:58 GMT)
  • 合成データが与える影響に関する報告。特に多様性の度合いに注目している。
  • 「Our experimental results show that, with minimal distribution shift, moderately diverse LLM-generated data can enhance model performance in scenarios with insufficient labeled data, whereas highly diverse generated data has a negative impact.」とのこと。

How to Synthesize Text Data without Model Collapse?

  • How to Synthesize Text Data without Model Collapse? [37.2]
    合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。 半合成データを得るために,人為的データに対するトークン編集を提案する。
    論文  参考訳(メタデータ)   (Thu, 19 Dec 2024 09:43:39 GMT)
  • 合成データを用いたモデル構築で、モデル崩壊の分析とそれを抑える手法の提案。