Surveying the Effects of Quality, Diversity, and Complexity in Synthetic Data From Large Language Models
Surveying the Effects of Quality, Diversity, and Complexity in Synthetic Data From Large Language Models [12.9] データ品質,多様性,複雑性の観点から,各アルゴリズムが生成した合成データの構成によるアルゴリズムの評価を行った。 合成データパイプラインにおける各種成分が各データ特性に与える影響について検討する。 これらのトレードオフのバランスは、将来の自己改善アルゴリズムの開発に不可欠である、と我々は主張する。 論文参考訳(メタデータ) (Wed, 04 Dec 2024 02:47:45 GMT)
合成データに関するQuality、Diversity、Complexityからのサーベイ。「Overall, we found that domain specific, attribute measures utilizing LLMs-as-a-judge provide the best measures in complex tasks and domains in terms of correlation with downstream metrics.」という記載が興味深いところ。