TIVE: Task-level and Instance-level Value Estimation

  • Less is More: Data Value Estimation for Visual Instruction Tuning [127.4]
    視覚的命令データにおける冗長性を除去する新しいデータ選択手法を提案する。 LLaVA-1.5の実験では、約7.5%のデータしか使用していないアプローチが、フルデータ微調整モデルと同等の性能を達成できることが示されている。
    論文  参考訳(メタデータ)   (Thu, 14 Mar 2024 16:47:25 GMT)
  • visual instruction datasetには不要・冗長なデータが多く含まれており、その重要性を評価して削減する手法を提案。「using only about 7.5% data can achieve comparable performance as the full-data fine-tuned model across seven benchmarks, even surpassing it on four of the benchmarks.」とのことで、非常に効果的に見える。
  • 「Our code and data will be publicly released.」らしい

Effective pruning of web-scale datasets based on complexity of concept clusters 

  • Effective pruning of web-scale datasets based on complexity of concept clusters [48.1]
    本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。 高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減し、より高いパフォーマンスをもたらす可能性があることに気付きました。 DataComp Mediumのベンチマークでは,38のタスクに対して,最先端のImageNetゼロショット精度と競合平均ゼロショット精度を実現している。
    論文  参考訳(メタデータ)   (Tue, 9 Jan 2024 14:32:24 GMT)
  • データセットの効果的なフィルタリング方法の提案。LAION datasetで検証。
  • deduplication, CLIP-score filtering, Density-Based-Pruningのパイプラインでembeddingを効果的に使うアプローチ

AlpaGasus: Training A Better Alpaca with Fewer Data

  • AlpaGasus: Training A Better Alpaca with Fewer Data [106.9]
    52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを紹介する。 AlpaGasus は、複数のテストセットで GPT-4 で評価されたオリジナルの Alpaca を著しく上回っている。 また、5.7倍高速な訓練も提供し、7B型の訓練時間を80分(アルパカ用)から14分に短縮した。
    論文  参考訳(メタデータ)   (Mon, 17 Jul 2023 17:59:40 GMT)
  • LLMを用いてinstruction-finetuning用データを高品質化、品質の高い少数データの利用が有効だったという報告。instruction-finetuningのデータ品質の重要性は他の論文でも指摘されており(ゆえにRLHFが有効という話もあり)参考になる。
  • プロジェクトサイトはAlpaGasus: Training a Better Alpaca with Fewer Data (lichang-chen.github.io)

DoReMi: Domain Reweighting with Minimax Optimization

  • DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining [172.3]
    ミニマックス最適化(DoReMi)を用いたドメイン再重み付けを提案する。 DoReMiはまず、ドメイン上のグループ分散ロバスト最適化(Group DRO)を使用して小さなプロキシモデルをトレーニングし、ドメイン重みを生成する。 次に、これらのドメインウェイトでデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。
    論文  参考訳(メタデータ)   (Wed, 17 May 2023 17:58:13 GMT)
  • データセットのドメインに対するウェイトを調整する手法の提案。小さなモデルで試行後に大きなモデルでのドメインウェイトを決めるアプトローチで「DoReMi improves average one-shot downstream accuracy by 6.5% and reaches the baseline accuracy 2.6x faster when pretraining on The Pile.」ととても効果的そう
  • The Pileを用いた実験でWikipediaのウェイトがベースラインよりも低くなっているにもかかわらず、Wikipedia由来のデータセットでのdown stream性能が上がっているのが面白い。なぜなんだろう・・・?

Dataset Distlillationのサーベイ

最近よく見るデータセット蒸留のサーベイ。基本的には少ないデータで十分な性能のモデル構築ができるようなデータセット作成を目的にしているが、生データを公開しなくてもよくなる場合があり情報保護の観点からも重要な技術になりうる。アプローチも様々で興味深い。

  • Dataset Distillation: A Comprehensive Review [54.3]
    データセット蒸留(DD)は、いくつかの合成サンプルを含むはるかに小さなデータセットを目標としている。 本稿では,最近のDDの進歩と応用について概説する。
    論文  参考訳(メタデータ)   (Tue, 17 Jan 2023 17:03:28 GMT)

  • A Comprehensive Survey to Dataset Distillation [91.4]
    限られた計算能力で無制限に成長するデータに対処することは困難になっている。 ディープラーニング技術はこの10年で前例のない発展を遂げた。 本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
    論文  参考訳(メタデータ)   (Fri, 13 Jan 2023 15:11:38 GMT)

Data Distillationのサーベイ

  • Data Distillation: A Survey [8.5]
    ディープラーニングは、膨大な数の大規模および多言語データセットのキュレーションにつながった。 個々のタスクで人間に近いパフォーマンスを持つにもかかわらず、大規模なデータセットでパラメータハングリーモデルをトレーニングすることは、多面的な問題を引き起こす。 データ蒸留アプローチは、元のデータセットの効果的なドロップイン置換として機能する、簡潔なデータ要約を合成することを目的としている。
    論文  参考訳(メタデータ)   (Wed, 11 Jan 2023 02:25:10 GMT)

CiT: Curation in Training

  • CiT: Curation in Training for Effective Vision-Language Data [84.8]
    本稿では,学習対象を学習対象とする視覚テキスト学習アルゴリズムであるCuration in Training (CiT)を提案する。 CiTは、コントラストのある画像テキストトレーニングを高速化するために、品質データを自動生成する。 我々は,特に生データサイズが大きい場合,CitTが1桁以上のトレーニングを高速化できることを観察した。
    論文  参考訳(メタデータ)   (Thu, 5 Jan 2023 18:59:57 GMT)
  • 近年のモデル構築時には大規模データセットからメタデータ等を用いて目的にあったものをフィルタリングすることが多いが、そのキュレーション作業をTrainingプロセスに組み込むという手法の提案。
  • GitHub – facebookresearch/CiT: Code for the paper titled “CiT Curation in Training for Effective Vision-Language Data”.

Dataset Distillation via Factorization

  • Dataset Distillation via Factorization [58.8]
    既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。 emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。 提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
    論文  参考訳(メタデータ)   (Sun, 30 Oct 2022 08:36:19 GMT)
    • データセットDistillationの新たな手法を提案。

Dataset distillationを用いた医療画像共有

  • Dataset Distillation for Medical Dataset Sharing [38.7]
    データセットの蒸留は、トレーニングされたモデルが元の大きなデータセットと同等のパフォーマンスを達成するように、小さなデータセットを合成することができる。 新型コロナウイルスの胸部X線画像データセットによる実験結果から,胸部X線画像が不足していても高い検出性能が得られた。
    論文  参考訳(メタデータ)   (Thu, 29 Sep 2022 07:49:20 GMT)
    • Dataset Distillationを医療画像のようなプライバシーが重要な分野に適用するという論文。プライバシー保護とコスト低減を両立できそうな点が面白い
      • 各種攻撃への耐性に興味津々

同じグループからデータセット蒸留法も提案されている。

  • Dataset Distillation using Parameter Pruning [38.7]
    データセットの蒸留は、トレーニングされたモデルが元の大きなデータセットと同等に高いパフォーマンスを達成するように、小さなデータセットを合成することができる。 提案手法は, より堅牢な蒸留データセットを合成し, 蒸留プロセスにおいて, 難解なパラメータを抽出することにより蒸留性能を向上させる。
    論文  参考訳(メタデータ)   (Thu, 29 Sep 2022 07:58:32 GMT)

転送学習におけるソースデータセットの役割

  • A Data-Based Perspective on Transfer Learning [76.3]
    転送学習におけるソースデータセットの合成の役割について,より詳しく検討する。 我々のフレームワークは、転送学習の脆さをピンポインティングするなど、新しい機能を生み出します。
    論文  参考訳(メタデータ)   (Tue, 12 Jul 2022 17:58:28 GMT)
    • 事前学習用データから不要なものを取り除くことで最終性能が上がること、および、そのフレームワークの提案
      • 頑健性の変化についても知りたいところ。。
    • リポジトリはGitHub – MadryLab/data-transfer