Dataset distillation – ページ 2 – arXiv最新論文の紹介

Data Distillationのサーベイ

Data Distillation: A Survey [8.5]
ディープラーニングは、膨大な数の大規模および多言語データセットのキュレーションにつながった。個々のタスクで人間に近いパフォーマンスを持つにもかかわらず、大規模なデータセットでパラメータハングリーモデルをトレーニングすることは、多面的な問題を引き起こす。データ蒸留アプローチは、元のデータセットの効果的なドロップイン置換として機能する、簡潔なデータ要約を合成することを目的としている。
論文参考訳（メタデータ） (Wed, 11 Jan 2023 02:25:10 GMT)

CiT: Curation in Training for Effective Vision-Language Data [84.8]
本稿では,学習対象を学習対象とする視覚テキスト学習アルゴリズムであるCuration in Training (CiT)を提案する。 CiTは、コントラストのある画像テキストトレーニングを高速化するために、品質データを自動生成する。我々は,特に生データサイズが大きい場合,CitTが1桁以上のトレーニングを高速化できることを観察した。
論文参考訳（メタデータ） (Thu, 5 Jan 2023 18:59:57 GMT)
近年のモデル構築時には大規模データセットからメタデータ等を用いて目的にあったものをフィルタリングすることが多いが、そのキュレーション作業をTrainingプロセスに組み込むという手法の提案。
GitHub – facebookresearch/CiT: Code for the paper titled “CiT Curation in Training for Effective Vision-Language Data”.

Dataset Distillation via Factorization [58.8]
既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。 emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
論文参考訳（メタデータ） (Sun, 30 Oct 2022 08:36:19 GMT)
- データセットDistillationの新たな手法を提案。

Dataset Distillation for Medical Dataset Sharing [38.7]
データセットの蒸留は、トレーニングされたモデルが元の大きなデータセットと同等のパフォーマンスを達成するように、小さなデータセットを合成することができる。新型コロナウイルスの胸部X線画像データセットによる実験結果から,胸部X線画像が不足していても高い検出性能が得られた。
論文参考訳（メタデータ） (Thu, 29 Sep 2022 07:49:20 GMT)
- Dataset Distillationを医療画像のようなプライバシーが重要な分野に適用するという論文。プライバシー保護とコスト低減を両立できそうな点が面白い
  - 各種攻撃への耐性に興味津々

同じグループからデータセット蒸留法も提案されている。

Dataset Distillation using Parameter Pruning [38.7]
データセットの蒸留は、トレーニングされたモデルが元の大きなデータセットと同等に高いパフォーマンスを達成するように、小さなデータセットを合成することができる。提案手法は, より堅牢な蒸留データセットを合成し, 蒸留プロセスにおいて, 難解なパラメータを抽出することにより蒸留性能を向上させる。
論文参考訳（メタデータ） (Thu, 29 Sep 2022 07:58:32 GMT)

A Data-Based Perspective on Transfer Learning [76.3]
転送学習におけるソースデータセットの合成の役割について,より詳しく検討する。我々のフレームワークは、転送学習の脆さをピンポインティングするなど、新しい機能を生み出します。
論文参考訳（メタデータ） (Tue, 12 Jul 2022 17:58:28 GMT)
- 事前学習用データから不要なものを取り除くことで最終性能が上がること、および、そのフレームワークの提案
  - 頑健性の変化についても知りたいところ。。
- リポジトリはGitHub – MadryLab/data-transfer

Dataset Distillation by Matching Training Trajectories [75.9]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文参考訳（メタデータ） (Tue, 22 Mar 2022 17:58:59 GMT)
- 多くの画像を用いて効率的に学習可能な合成データを作成する研究。
  - Deep Learning的には効率的に学習可能でもやや不気味な画像ではある・・・
- リポジトリはDataset Distillation by Matching Training Trajectories (georgecazenavette.github.io)、データセットの提供もされている