Predictive Data Selection: The Data That Predicts Is the Data That Teaches

  • Predictive Data Selection: The Data That Predicts Is the Data That Teaches [19.0]
    予測データ選択(PreSelect)は,高速テキストベースのスコアラのみのトレーニングとデプロイを必要とする軽量で効率的なデータ選択手法である。 我々は、PreSelectで選択された30Bトークンでトレーニングされたモデルが300Bトークンでトレーニングされたバニラベースラインのパフォーマンスを上回ることを示した。
    論文  参考訳(メタデータ)   (Tue, 04 Mar 2025 06:15:27 GMT)
  • 「Building on this observation, we hypothesize that data on which model losses are predictive of downstream abilities also contribute effectively to learning.」という仮定の下設計されたデータ選択手法PRESELECTの提案。「PRESELECT demonstrates remarkable performance, with an average absolute improvement of 2.8% over the random selection and 20% gains in Math and Code raw text BPC, which shows a promising trend.」と効果を主張。
  • リポジトリはGitHub – hkust-nlp/PreSelect

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です