データ削減(重要なデータか否かの仕分けやもっと単純に重複排除)の効果に関連する論文がいくつか出ている。「ニューラル機械翻訳モデルと対訳データの品質」にも関連するが、不要っぽいデータが含まれているデータセットは多い。
- Distribution of Classification Margins: Are All Data Equal? [61.2]
最近の理論的結果は、指数損失関数の下でのディープニューラルネットワークの勾配降下が局所的に分類マージンを最大化することを示しており、これはマージン制約の下で重み行列のノルムを最小化するのと同値である。 我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを示す。 次に、データ分離が達成されれば、パフォーマンスを著しく損なうことなく、トレーニングセットを99%以上動的に削減できることを示す。 興味深いことに、得られた”高容量”特徴のサブセットは、異なるトレーニング実行間で一貫性がない。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 21 Jul 2021 16:41:57 GMT)
- Deep Learning on a Data Diet: Finding Important Examples Early in Training [38.8]
個別学習例の初期損失勾配基準は、一般化に重要な訓練データの小さな集合を特定するのに有効であることを示す。 本研究では,訓練の早い段階でローカル情報のみを使用するデータ解析手法を提案し,トレーニング中に忘れられることがほとんどない例を捨てることで,データを創出する最近の研究に接続する。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 15 Jul 2021 02:12:20 GMT)
- Deduplicating Training Data Makes Language Models Better [50.2]
既存の言語モデリングデータセットには、多くのほぼ重複した例と長い反復が含まれている。 これらのデータセットでトレーニングされた言語モデルのプロンプトなしの出力の1%以上が、トレーニングデータからコピーされている。 重複排除により記憶したテキストの出力が10分の1以下になり、同様の精度を少ないステップで達成できる。
論文 参考訳(メタデータ) (Wed, 14 Jul 2021 06:06:52 GMT)