How to Synthesize Text Data without Model Collapse? How to Synthesize Text Data without Model Collapse? [37.2]合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。 半合成データを得るために,人為的データに対するトークン編集を提案する。論文 参考訳(メタデータ) (Thu, 19 Dec 2024 09:43:39 GMT) 合成データを用いたモデル構築で、モデル崩壊の分析とそれを抑える手法の提案。