Data Selection via Optimal Control for Language Models

  • Data Selection via Optimal Control for Language Models [134.7]
    本研究は,大規模コーパスから高品質な事前学習データを選択することにより,下流利用におけるLMの能力を向上させることを目的とする。 PMP条件を解くことで最適なデータ選択を近似するフレームワークであるPMPベースのデータ選択(PDS)を導入する。 PDSの利点は、スケーリング法則に従ってテスト損失曲線の外挿によって証明されたように、10Tトークンでトレーニングされた400Bモデルにまで拡張される。
    論文  参考訳(メタデータ)   (Wed, 09 Oct 2024 17:06:57 GMT)
  • 「by treating data selection as the control variables (i.e., whether a data point is included in pre-training), the LM pre-training process as the dynamic system, and the LM’s downstream performance as the objective, we leverage Pontryagin’s Maximum Principle (PMP; 63) to derive the necessary conditions for optimal data selection in theory.」という制御理論を応用したデータセレクション手法の提案。「The overhead of running PDS to select data is only about 1/9 of that of pre-training a 1.7B model.」と実用的に思える。
  • プロジェクトサイトはAdvancing AI for Humanity (thegenerality.com)、リポジトリはLMOps/data_selection at main · microsoft/LMOps · GitHub

DataComp-LM: In search of the next generation of training sets for language models

  • DataComp-LM: In search of the next generation of training sets for language models [193.3]
    DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。 我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。 DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
    論文  参考訳(メタデータ)   (Mon, 17 Jun 2024 17:42:57 GMT)
  • 言語モデルトレーニング時のデータキュレーションのためのベンチマークDataComp for Language Models (DCLM)の提案。重要なベンチマークで小さめのトラックも用意されている(最小トラックは412Mパラメータ、8.2B学習用トークン(元データ469B)、学習用の計算量は2.0e19FLOPs、H100換算で26時間)が、それにしても参加するにも結構な環境が必要そう。。。
  • プロジェクトサイトはDataComp

関連するものとして下記論文も参考になる。

  • Data-Centric AI in the Age of Large Language Models [51.2]
    本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。 本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。 データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
    論文  参考訳(メタデータ)   (Thu, 20 Jun 2024 16:34:07 GMT)
  • LLMの時代においてもデータは重要、DataCOMPについては「DataComp is a more suitable starting point due to its scale and the promising initial findings.」と記載。

TIVE: Task-level and Instance-level Value Estimation

  • Less is More: Data Value Estimation for Visual Instruction Tuning [127.4]
    視覚的命令データにおける冗長性を除去する新しいデータ選択手法を提案する。 LLaVA-1.5の実験では、約7.5%のデータしか使用していないアプローチが、フルデータ微調整モデルと同等の性能を達成できることが示されている。
    論文  参考訳(メタデータ)   (Thu, 14 Mar 2024 16:47:25 GMT)
  • visual instruction datasetには不要・冗長なデータが多く含まれており、その重要性を評価して削減する手法を提案。「using only about 7.5% data can achieve comparable performance as the full-data fine-tuned model across seven benchmarks, even surpassing it on four of the benchmarks.」とのことで、非常に効果的に見える。
  • 「Our code and data will be publicly released.」らしい

Effective pruning of web-scale datasets based on complexity of concept clusters 

  • Effective pruning of web-scale datasets based on complexity of concept clusters [48.1]
    本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。 高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減し、より高いパフォーマンスをもたらす可能性があることに気付きました。 DataComp Mediumのベンチマークでは,38のタスクに対して,最先端のImageNetゼロショット精度と競合平均ゼロショット精度を実現している。
    論文  参考訳(メタデータ)   (Tue, 9 Jan 2024 14:32:24 GMT)
  • データセットの効果的なフィルタリング方法の提案。LAION datasetで検証。
  • deduplication, CLIP-score filtering, Density-Based-Pruningのパイプラインでembeddingを効果的に使うアプローチ

AlpaGasus: Training A Better Alpaca with Fewer Data

  • AlpaGasus: Training A Better Alpaca with Fewer Data [106.9]
    52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを紹介する。 AlpaGasus は、複数のテストセットで GPT-4 で評価されたオリジナルの Alpaca を著しく上回っている。 また、5.7倍高速な訓練も提供し、7B型の訓練時間を80分(アルパカ用)から14分に短縮した。
    論文  参考訳(メタデータ)   (Mon, 17 Jul 2023 17:59:40 GMT)
  • LLMを用いてinstruction-finetuning用データを高品質化、品質の高い少数データの利用が有効だったという報告。instruction-finetuningのデータ品質の重要性は他の論文でも指摘されており(ゆえにRLHFが有効という話もあり)参考になる。
  • プロジェクトサイトはAlpaGasus: Training a Better Alpaca with Fewer Data (lichang-chen.github.io)

DoReMi: Domain Reweighting with Minimax Optimization

  • DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining [172.3]
    ミニマックス最適化(DoReMi)を用いたドメイン再重み付けを提案する。 DoReMiはまず、ドメイン上のグループ分散ロバスト最適化(Group DRO)を使用して小さなプロキシモデルをトレーニングし、ドメイン重みを生成する。 次に、これらのドメインウェイトでデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。
    論文  参考訳(メタデータ)   (Wed, 17 May 2023 17:58:13 GMT)
  • データセットのドメインに対するウェイトを調整する手法の提案。小さなモデルで試行後に大きなモデルでのドメインウェイトを決めるアプトローチで「DoReMi improves average one-shot downstream accuracy by 6.5% and reaches the baseline accuracy 2.6x faster when pretraining on The Pile.」ととても効果的そう
  • The Pileを用いた実験でWikipediaのウェイトがベースラインよりも低くなっているにもかかわらず、Wikipedia由来のデータセットでのdown stream性能が上がっているのが面白い。なぜなんだろう・・・?

Dataset Distlillationのサーベイ

最近よく見るデータセット蒸留のサーベイ。基本的には少ないデータで十分な性能のモデル構築ができるようなデータセット作成を目的にしているが、生データを公開しなくてもよくなる場合があり情報保護の観点からも重要な技術になりうる。アプローチも様々で興味深い。

  • Dataset Distillation: A Comprehensive Review [54.3]
    データセット蒸留(DD)は、いくつかの合成サンプルを含むはるかに小さなデータセットを目標としている。 本稿では,最近のDDの進歩と応用について概説する。
    論文  参考訳(メタデータ)   (Tue, 17 Jan 2023 17:03:28 GMT)

  • A Comprehensive Survey to Dataset Distillation [91.4]
    限られた計算能力で無制限に成長するデータに対処することは困難になっている。 ディープラーニング技術はこの10年で前例のない発展を遂げた。 本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
    論文  参考訳(メタデータ)   (Fri, 13 Jan 2023 15:11:38 GMT)

Data Distillationのサーベイ

  • Data Distillation: A Survey [8.5]
    ディープラーニングは、膨大な数の大規模および多言語データセットのキュレーションにつながった。 個々のタスクで人間に近いパフォーマンスを持つにもかかわらず、大規模なデータセットでパラメータハングリーモデルをトレーニングすることは、多面的な問題を引き起こす。 データ蒸留アプローチは、元のデータセットの効果的なドロップイン置換として機能する、簡潔なデータ要約を合成することを目的としている。
    論文  参考訳(メタデータ)   (Wed, 11 Jan 2023 02:25:10 GMT)

CiT: Curation in Training

  • CiT: Curation in Training for Effective Vision-Language Data [84.8]
    本稿では,学習対象を学習対象とする視覚テキスト学習アルゴリズムであるCuration in Training (CiT)を提案する。 CiTは、コントラストのある画像テキストトレーニングを高速化するために、品質データを自動生成する。 我々は,特に生データサイズが大きい場合,CitTが1桁以上のトレーニングを高速化できることを観察した。
    論文  参考訳(メタデータ)   (Thu, 5 Jan 2023 18:59:57 GMT)
  • 近年のモデル構築時には大規模データセットからメタデータ等を用いて目的にあったものをフィルタリングすることが多いが、そのキュレーション作業をTrainingプロセスに組み込むという手法の提案。
  • GitHub – facebookresearch/CiT: Code for the paper titled “CiT Curation in Training for Effective Vision-Language Data”.

Dataset Distillation via Factorization

  • Dataset Distillation via Factorization [58.8]
    既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。 emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。 提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
    論文  参考訳(メタデータ)   (Sun, 30 Oct 2022 08:36:19 GMT)
    • データセットDistillationの新たな手法を提案。