コンテンツへスキップ
- A Survey on Data Synthesis and Augmentation for Large Language Models [35.6]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。 これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文 参考訳(メタデータ) (Wed, 16 Oct 2024 16:12:39 GMT)
- 重要性が増すLLMに関するデータ合成のサーベイ
- Leveraging Web-Crawled Data for High-Quality Fine-Tuning [24.2]
我々は、GPT-4のような先進的なモデルに頼ることなく、高品質な教師付き微調整のための貴重な情報源として、Webcrawled Dataが有効であると主張している。 我々は、Webcrawledデータをより小さな高品質なデータ集合と整列させることで、ペア化されたトレーニングデータセットを自動生成する。 実験の結果, モデル変換データを用いた学習は, 中国における数学問題の平均スコア9.4%で, 高品質なデータのみによるトレーニングを上回り, より良い結果が得られることがわかった。
論文 参考訳(メタデータ) (Thu, 15 Aug 2024 08:12:52 GMT)
- 「Drawing on the intuition that rewriting data is comparatively simpler than performing intricate reasoning tasks for LLMs, we propose a method to augment the dataset by converting web-crawled data into high-quality ones.」という手法の提案。小規模なシードデータと大規模なクローリングデータのマッチングをとり、専用モデルを作るアプローチ。クリーニングが大変なのが伝わってくる。数学的な問題のバリエーションはとても多そうだけど、この方針でうまくいくのはなぜなのだろうか。。。(有名な問題の別解情報が使われているんだろうか)
- リポジトリはGitHub – zhouj8553/Web_to_SFT: official code for the paper “Leveraging Web-Crawled Data for High-Quality Fine-Tuning”
- A Comprehensive Survey on Data Augmentation [55.4]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。 既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。 本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (Wed, 15 May 2024 11:58:08 GMT)
- データ拡張のサーベイ。生成AIを用いた手法も含まれる。
- ChatGPT as Data Augmentation for Compositional Generalization: A Case Study in Open Intent Detection [30.1]
本稿では,ChatGPTをデータ拡張技術として活用し,オープンな意図検出タスクにおける合成一般化を強化するケーススタディを提案する。 本稿では,ChatGPTが生成した合成データをトレーニングプロセスに組み込むことで,モデル性能を効果的に改善できることを実証する。
論文 参考訳(メタデータ) (Fri, 25 Aug 2023 17:51:23 GMT)
- ChatGPTを用いたデータ拡張に効果があったとの論文。LLMの知識がパラフレージングなどに有効というのは納得感がある。
- ExaRanker: Explanation-Augmented Neural Ranker [67.5]
本研究は,ニューラルランカーが説明の恩恵を受けることを示す。 我々は、GPT-3.5のようなLCMを用いて、説明付き検索データセットを増強する。 ExaRankerと呼ばれる私たちのモデルは、数千の例で微調整され、合成説明は、説明なしで3倍の例で微調整されたモデルと同等に実行される。
論文 参考訳(メタデータ) (Wed, 25 Jan 2023 11:03:04 GMT)
- 大規模言語モデルを用いた説明をNeural Rankerの補強として使うという論文。BM25、monoT5をout perform。
- リポジトリはGitHub – unicamp-dl/ExaRanker
- A Survey of Mix-based Data Augmentation: Taxonomy, Methods, Applications, and Explainability [13.3]
データ拡張(DA)は、現代の機械学習やディープニューラルネットワークでは不可欠である。 本研究では、MixDA (Mix-based Data Augmentation) が必須のサブセットについてレビューする。 単一サンプルの操作やドメイン知識を必要とする従来のDAアプローチとは異なり、MixDAはより幅広い新しいデータを作成するのに一般的である。
論文 参考訳(メタデータ) (Wed, 21 Dec 2022 09:58:14 GMT)
- データ拡張の中でも複数のデータを混合するアプローチであるMix-based Data Augmentation (MixDA)のサーベイ
- リポジトリはGitHub – ChengtaiCao/Awesome-Mix: A curated list of awesome Mix
- X-Paste: Revisit Copy-Paste at Scale with CLIP and StableDiffusion [137.8]
Copy-Pasteは、インスタンスセグメンテーションのためのシンプルで効果的なデータ拡張戦略である。 新たに登場したゼロショット認識モデルのパワーで、Copy-Pasteを大規模に再考する。 我々は、text2imageモデルを用いて画像を生成するか、あるいはゼロショット認識モデルを用いてノイズの多いクローリング画像をフィルタリングすることが、Copy-Pasteを真にスケーラブルにする方法であることを示す。
論文 参考訳(メタデータ) (Wed, 7 Dec 2022 18:59:59 GMT)
- ゼロショットな画像認識(CLIPなど)+テキストでの画像生成モデル(Stable Diffusion)+Copy-Paste data augmentationでセグメンテーション性能が上がるという報告