Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources
Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources [38.3] 我々は、コストのかかる人的アノテーションに頼ることなく、LLMに新しいスキルを教えるために使用できる新しい方法、Source2 Synthを提案する。 Source2 Synthはカスタムデータソースを入力として、実世界のソースをベースとした中間的推論ステップを備えた合成データポイントを生成する。 マルチホップ質問応答(MHQA)とツール質問応答(TQA)の推論能力をテストする。 論文参考訳(メタデータ) (Thu, 12 Sep 2024 17:39:08 GMT)
「we propose Source2Synth, a general approach to generate synthetic data grounded in external real-world sources.」でDataset generation → Dataset Curation → Fine tuningに進むながれ。
キュレーションフェーズで「This is achieved by slicing the dataset in two and using one slice to fine-tune the LLM (LLMSynth).」、「Data filtering During filtering, LLMSynth is used to predict the output of the given synthetic example using k tries. If the output cannot be predicted at least once, it is assumed the example is low quality and is not included in the final curated dataset.」とのこと。極端なデータだけフィルタするような意図なのだろうか。(at least oneだと問題ないかもだが、閾値によってモデル崩壊を招くのかどうかなど気になるところ)