LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement 

  • LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.3]
    事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。 LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。 GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
    論文  参考訳(メタデータ)   (Sat, 13 Jul 2024 07:36:49 GMT)
  • fine tuning用のデータを拡張していくフレームワークの提案。間違った部分に注目するアプローチでLlama-2-7Bを用いて有効性を検証とのこと。
  • リポジトリはGitHub – SqueezeAILab/LLM2LLM: [ACL 2024] LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement

A Comprehensive Survey on Data Augmentation 

  • A Comprehensive Survey on Data Augmentation [55.4]
    データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。 既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。 本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
    論文  参考訳(メタデータ)   (Wed, 15 May 2024 11:58:08 GMT)
  • データ拡張のサーベイ。生成AIを用いた手法も含まれる。

Adaptive inflation

  • Do Generated Data Always Help Contrastive Learning? [32.6]
    コントラスト学習(CL)は、教師なし視覚表現学習において最も成功したパラダイムの1つである。 生成モデル、特に拡散モデルの増加に伴い、実際のデータ分布に近い現実的な画像を生成する能力はよく認識されている。 しかし、生成したデータ(DDPMのような優れた拡散モデルからでも)は、コントラスト学習に害を与えることもある。
    論文  参考訳(メタデータ)   (Tue, 19 Mar 2024 05:17:47 GMT)
  • 合成データ+データ拡張はうまくいかないことが多い。その分析と対応方法をまとめた論文。強力な画像生成モデルによる合成データ活用が検討されるなか、重要な報告だと思う。
  • リポジトリはPKU-ML/adainf: Official code for ICLR 2024 paper Do Generated Data Always Help Contrastive Learning? (github.com)

Data Augmentation for Conversational AI

  • Data Augmentation for Conversational AI [17.5]
    データ拡張(DA)は、会話システムにおけるデータ不足問題を軽減するための感情的なアプローチである。 このチュートリアルは、会話システムのコンテキストにおけるDAアプローチの包括的で最新の概要を提供する。
    論文  参考訳(メタデータ)   (Sat, 9 Sep 2023 09:56:35 GMT)
  • 対話データのデータ拡張に関するCIKMのチュートリアル。プロジェクトサイトはData Augmentation for Conversational AI | Fundamentals and Advances (dataug-convai.github.io)
  • 現時点では資料などアップロードされていないが面白そう。

ChatGPT as Data Augmentation for Compositional Generalization: A Case Study in Open Intent Detection

  • ChatGPT as Data Augmentation for Compositional Generalization: A Case Study in Open Intent Detection [30.1]
    本稿では,ChatGPTをデータ拡張技術として活用し,オープンな意図検出タスクにおける合成一般化を強化するケーススタディを提案する。 本稿では,ChatGPTが生成した合成データをトレーニングプロセスに組み込むことで,モデル性能を効果的に改善できることを実証する。
    論文  参考訳(メタデータ)   (Fri, 25 Aug 2023 17:51:23 GMT)
  • ChatGPTを用いたデータ拡張に効果があったとの論文。LLMの知識がパラフレージングなどに有効というのは納得感がある。

ExaRanker

  • ExaRanker: Explanation-Augmented Neural Ranker [67.5]
    本研究は,ニューラルランカーが説明の恩恵を受けることを示す。 我々は、GPT-3.5のようなLCMを用いて、説明付き検索データセットを増強する。 ExaRankerと呼ばれる私たちのモデルは、数千の例で微調整され、合成説明は、説明なしで3倍の例で微調整されたモデルと同等に実行される。
    論文  参考訳(メタデータ)   (Wed, 25 Jan 2023 11:03:04 GMT)
  • 大規模言語モデルを用いた説明をNeural Rankerの補強として使うという論文。BM25、monoT5をout perform。
  • リポジトリはGitHub – unicamp-dl/ExaRanker

MixDA: Mix-based Data Augmentationのサーベイ

  • A Survey of Mix-based Data Augmentation: Taxonomy, Methods, Applications, and Explainability [13.3]
    データ拡張(DA)は、現代の機械学習やディープニューラルネットワークでは不可欠である。 本研究では、MixDA (Mix-based Data Augmentation) が必須のサブセットについてレビューする。 単一サンプルの操作やドメイン知識を必要とする従来のDAアプローチとは異なり、MixDAはより幅広い新しいデータを作成するのに一般的である。
    論文  参考訳(メタデータ)   (Wed, 21 Dec 2022 09:58:14 GMT)
  • データ拡張の中でも複数のデータを混合するアプローチであるMix-based Data Augmentation (MixDA)のサーベイ
  • リポジトリはGitHub – ChengtaiCao/Awesome-Mix: A curated list of awesome Mix

X-Paste

  • X-Paste: Revisit Copy-Paste at Scale with CLIP and StableDiffusion [137.8]
    Copy-Pasteは、インスタンスセグメンテーションのためのシンプルで効果的なデータ拡張戦略である。 新たに登場したゼロショット認識モデルのパワーで、Copy-Pasteを大規模に再考する。 我々は、text2imageモデルを用いて画像を生成するか、あるいはゼロショット認識モデルを用いてノイズの多いクローリング画像をフィルタリングすることが、Copy-Pasteを真にスケーラブルにする方法であることを示す。
    論文  参考訳(メタデータ)   (Wed, 7 Dec 2022 18:59:59 GMT)
  • ゼロショットな画像認識(CLIPなど)+テキストでの画像生成モデル(Stable Diffusion)+Copy-Paste data augmentationでセグメンテーション性能が上がるという報告

教師無し異常検知におけるData Augmentation

  • Role of Data Augmentation in Unsupervised Anomaly Detection [30.4]
    自己教師付き学習(SSL)は、現実のタスクの監視信号を作成するための有望な代替手段として登場した。 近年の研究では、増強のタイプがパフォーマンスに重大な影響を与えることが報告されている。
    論文  参考訳(メタデータ)   (Tue, 16 Aug 2022 13:09:25 GMT)
    • (やるべきか迷いことも多い)異常検知におけるData Augmentationの調査。
    • 当然といえば当然だが異常発生メカニズムの整合が重要とのこと。対象はSelf-supervised learningのAnomaly Detectionだが、一般的にも通用する話だと思う。

Data Augmentationのサーベイ

  • A Survey of Automated Data Augmentation Algorithms for Deep Learning-based Image Classication Tasks [21.6]
    データ駆動技術であるディープモデルは、大量の正確なラベル付きトレーニングデータを必要とします。 Data Augmentation (DA)は、オリジナルのサンプルから新しいイメージを人工的に生成することができる。 データ拡張戦略はデータセットによって異なり、さまざまなデータ型がモデルのトレーニングを容易にするために異なる拡張を必要とする可能性がある。 AutoDAモデルの目的は、モデルの性能向上を最大化できる最適なDAポリシーを見つけることである。
    論文  参考訳(メタデータ)   (Tue, 14 Jun 2022 01:40:09 GMT)
    • データ拡張に関するサーベイ。
      • AutoMLのようなAutomated Data Augmentationという研究分野があるらしく参考になる。