AutoBencher、A Survey of Data Synthesis Approaches

  • AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models [84.7]
    3つのデシラタを言語モデルのための優れたベンチマークとして提示する。 ベンチマークでは、以前のベンチマークでは示されていなかったモデルランキングの新しいトレンドが明らかになった。 AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。
    論文  参考訳(メタデータ)   (Thu, 11 Jul 2024 10:03:47 GMT)
  • ベンチマークを自動的に構築する取り組み。
  • しばらくするとベンチマークを自動構築、後述のような方法でデータも自動合成、自己改善、みたいなモデル構築が流行ったりするのだろうか。まさにAutoML。
  • リポジトリはGitHub – XiangLi1999/AutoBencher
  • A Survey of Data Synthesis Approaches [20.2]
    1)多様性の向上,2)データバランシング,3)ドメインシフトへの対応,4)エッジケースの解決。 本稿では, 合成データの今後の方向性と, 重要な3つの方向性についても論じる: 1) 品質, 2) 合成データの評価, 3) マルチモデルデータ拡張。
    論文  参考訳(メタデータ)   (Thu, 04 Jul 2024 06:37:09 GMT)
  • 合成データ関連のサーベイ。
  • リポジトリはGitHub – MiuLab/SynData-Survey

Scaling Synthetic Data Creation with 1,000,000,000 Personas

  • Scaling Synthetic Data Creation with 1,000,000,000 Personas [31.5]
    私たちは、Webデータから自動的にキュレートされた10億の多様なペルソナのコレクションであるPersona Hubを紹介します。 この10億のペルソナ(世界の人口の13%)は、世界の知識の分散キャリアとして機能し、大きな言語モデルにカプセル化されたほぼ全ての視点に到達することができる。 ペルソナ駆動のデータ合成は、汎用的で、スケーラブルで、柔軟性があり、使いやすく、合成データ作成とアプリケーションの実践におけるパラダイムシフトを促進する可能性があることを実証する。
    論文  参考訳(メタデータ)   (Fri, 28 Jun 2024 17:59:01 GMT)
  • 多様なペルソナを用いた合成データ生成手法の提案。合成データを作るために多様なペルソナを使うというのは確かに有効そう。論文では「our approach allows a 7B LLM to achieve 65% on MATH, matching the performance of gpt-4-turbo-preview」と主張。
  • リポジトリはGitHub – tencent-ailab/persona-hub

On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey

  • On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey [26.7]
    大規模言語モデル(LLM)は、合成データ生成による現実世界のデータ制限を軽減するために、データ中心のソリューションを提供する。 本稿では、合成データ生成の一般的なワークフローに基づく、関連する研究の組織を提供する。
    論文  参考訳(メタデータ)   (Fri, 14 Jun 2024 07:47:09 GMT)
  • 合成データ生成の汎用ワークフローに関するサーベイ

Nemotron-4 340B

NVIDIAからオープンなモデルNemotron-4 340Bが発表された。

NVIDIA Releases Open Synthetic Data Generation Pipeline for Training Large Language Models | NVIDIA Blog

NVIDIA today announced Nemotron-4 340B, a family of open models that developers can use to generate synthetic data for training large language models (LLMs) for commercial applications across healthcare, finance, manufacturing, retail and every other industry.

とのことでSynthetic dataの生成を目的として挙げている珍しいタイプのモデル。ライセンスも寛容(nvidia-open-model-license-agreement-june-2024.pdf)で

• Models are commercially useable.
• You are free to create and distribute Derivative Models.
• NVIDIA does not claim ownership to any outputs generated using the Models or Model Derivatives.

とのこと。下記条項も特徴的。Apache-2ライセンスの特許条項に近いものを感じる。

If You institute copyright or patent litigation against any entity (including a crossclaim or counterclaim in a lawsuit) alleging that the Model or a Derivative Model constitutes direct or contributory copyright or patent infringement, then any licenses granted to You under this Agreement for that Model or Derivative Model will terminate as of the date such litigation is filed.	

性能は高くllama3 70Bを超えていそう。また、Nemotron-4-340B-RewardはGitHub – allenai/reward-bench: RewardBench: the first evaluation tool for reward models.で商用モデル(GPT-4oやGemini Proなど)を上回る。

fine tuningを含めローカルLLMを作ろうと考えるときに非常に有用なモデルでハードウェアを押さえているNVIDIAらしい動き。

Rewardモデルについては下記論文も参考になる。

JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models

  • JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.5]
    既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。 そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。 我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
    論文  参考訳(メタデータ)   (Thu, 23 May 2024 09:43:19 GMT)
  • 数学問題について高品質な合成データを構築し小規模LLMをfinetuning、優れた性能を達成とのこと。商用ではライセンス的に難しい場合も多いが有望なアプローチであると思う。実験でJiuZhang3.0-8B (LLaMA-3-8Bベース) と7B (Mistral-7Bベース)を構築していて早速Llama 3を取り込んでいるのがすごい&両者の性能がタスクによって大きく異なるのが興味深い。
  • リポジトリはGitHub – RUCAIBox/JiuZhang3.0: The code and data for the paper JiuZhang3.0

SCORE: Self-COrrection ability in REasoning tasks

  • Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.9]
    大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。 本研究は,より小さい (= 13B) 言語モデル (LM) が,より強い LM から最小限の入力で推論タスクを自己補正できるかどうかを考察する。
    論文  参考訳(メタデータ)   (Fri, 26 Apr 2024 03:41:28 GMT)
  • 自己補正を強化するためのfine tuningプロセスの提案。学習用データをモデルに作らせるアプローチで自分自身を強化している感がある。
  • リポジトリはhttps://github.com/yunx-z/SCOREとのことだが、現在はNotFound

Adaptive inflation

  • Do Generated Data Always Help Contrastive Learning? [32.6]
    コントラスト学習(CL)は、教師なし視覚表現学習において最も成功したパラダイムの1つである。 生成モデル、特に拡散モデルの増加に伴い、実際のデータ分布に近い現実的な画像を生成する能力はよく認識されている。 しかし、生成したデータ(DDPMのような優れた拡散モデルからでも)は、コントラスト学習に害を与えることもある。
    論文  参考訳(メタデータ)   (Tue, 19 Mar 2024 05:17:47 GMT)
  • 合成データ+データ拡張はうまくいかないことが多い。その分析と対応方法をまとめた論文。強力な画像生成モデルによる合成データ活用が検討されるなか、重要な報告だと思う。
  • リポジトリはPKU-ML/adainf: Official code for ICLR 2024 paper Do Generated Data Always Help Contrastive Learning? (github.com)

Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora 

  • Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [104.8]
    大規模言語モデルに基づく効率的なデータ収集手法を提案する。 この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。 特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
    論文  参考訳(メタデータ)   (Fri, 26 Jan 2024 03:38:23 GMT)
  • 特定ドメインのデータを構築するための手法の提案。 Query Bootstrapping とData Retrievalからなり、前者でシードとなる検索を拡張、後者でBM25を用いて実際にデータを取得する。本件が想定するような大規模データだとBM25を使わざるを得ないのはそうだと思う。
  • コードは公開予定とのことだが、現時点ではリポジトリが見つからなかった。

SynCDR

  • SynCDR : Training Cross Domain Retrieval Models with Synthetic Data [90.5]
    クロスドメイン検索では、同じ意味圏から2つの視覚領域にまたがるイメージを識別するためにモデルが必要である。 本稿では、これらの欠落したカテゴリの例をドメイン間で補うために合成データを生成するための簡単な解を提案する。 我々は、この翻訳のために訓練された2つのドメインと、プロンプトを介して大規模に訓練されたテキストから画像への拡散モデルを使用するドメインを比較した。
    論文  参考訳(メタデータ)   (Sun, 31 Dec 2023 08:06:53 GMT)
  • クロスドメイン検索へのデータ合成の応用
  • リポジトリはsamarth4149/SynCDR: Code for SynCDR (github.com)

Scaling Laws of Synthetic Images for Model Training

  • Scaling Laws of Synthetic Images for Model Training … for Now [54.4]
    本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。 合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
    論文  参考訳(メタデータ)   (Thu, 7 Dec 2023 18:59:59 GMT)
  • 合成データを用いた時のスケーリング則の検証。合成データの利用は有望なアプローチである一方で不明点も多く、大規模検証はありがたい。「In supervised settings, synthetic data does not scale as effectively as real data.」というのはまぁそうだろうと思うが、「However, our study also highlights several scenarios where synthetic data proves advantageous: (1) In certain classes, synthetic data demonstrates better scaling behavior compared to real data; (2) Synthetic data is particularly effective when real data is scarce, for instance, in CLIP training with limited datasets; (3) Models trained on synthetic data may exhibit superior generalization to out-of-distribution data.」とのFindingsは重要。
  • リポジトリはGitHub – google-research/syn-rep-learn: Learning from synthetic data – code and models