A Survey on Data Selection for Language Models

  • A Survey on Data Selection for Language Models [151.6]
    データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。 ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。 広範なデータ選択研究のリソースを持つ組織はほとんどない。
    論文  参考訳(メタデータ)   (Mon, 26 Feb 2024 18:54:35 GMT)
  • データ選択(クレンジング含む)に関するサーベイ。40ページ超と分量が多い。
  • この処理が重要であることはよく知られているが、あまり発表されることがない。非常に貴重な資料だと思う。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です