- A Survey on Data Selection for Language Models [151.6]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。 ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。 広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (Mon, 26 Feb 2024 18:54:35 GMT) - データ選択(クレンジング含む)に関するサーベイ。40ページ超と分量が多い。
- この処理が重要であることはよく知られているが、あまり発表されることがない。非常に貴重な資料だと思う。