Data Augmentation – ページ 2 – arXiv最新論文の紹介

ExaRanker

ExaRanker: Explanation-Augmented Neural Ranker [67.5]
本研究は,ニューラルランカーが説明の恩恵を受けることを示す。我々は、GPT-3.5のようなLCMを用いて、説明付き検索データセットを増強する。 ExaRankerと呼ばれる私たちのモデルは、数千の例で微調整され、合成説明は、説明なしで3倍の例で微調整されたモデルと同等に実行される。
論文参考訳（メタデータ） (Wed, 25 Jan 2023 11:03:04 GMT)
大規模言語モデルを用いた説明をNeural Rankerの補強として使うという論文。BM25、monoT5をout perform。
リポジトリはGitHub – unicamp-dl/ExaRanker

MixDA: Mix-based Data Augmentationのサーベイ

A Survey of Mix-based Data Augmentation: Taxonomy, Methods, Applications, and Explainability [13.3]
データ拡張(DA)は、現代の機械学習やディープニューラルネットワークでは不可欠である。本研究では、MixDA (Mix-based Data Augmentation) が必須のサブセットについてレビューする。単一サンプルの操作やドメイン知識を必要とする従来のDAアプローチとは異なり、MixDAはより幅広い新しいデータを作成するのに一般的である。
論文参考訳（メタデータ） (Wed, 21 Dec 2022 09:58:14 GMT)
データ拡張の中でも複数のデータを混合するアプローチであるMix-based Data Augmentation (MixDA)のサーベイ
リポジトリはGitHub – ChengtaiCao/Awesome-Mix: A curated list of awesome Mix

X-Paste

X-Paste: Revisit Copy-Paste at Scale with CLIP and StableDiffusion [137.8]
Copy-Pasteは、インスタンスセグメンテーションのためのシンプルで効果的なデータ拡張戦略である。新たに登場したゼロショット認識モデルのパワーで、Copy-Pasteを大規模に再考する。我々は、text2imageモデルを用いて画像を生成するか、あるいはゼロショット認識モデルを用いてノイズの多いクローリング画像をフィルタリングすることが、Copy-Pasteを真にスケーラブルにする方法であることを示す。
論文参考訳（メタデータ） (Wed, 7 Dec 2022 18:59:59 GMT)
ゼロショットな画像認識（CLIPなど）＋テキストでの画像生成モデル（Stable Diffusion）＋Copy-Paste data augmentationでセグメンテーション性能が上がるという報告

教師無し異常検知におけるData Augmentation

Role of Data Augmentation in Unsupervised Anomaly Detection [30.4]
自己教師付き学習(SSL)は、現実のタスクの監視信号を作成するための有望な代替手段として登場した。近年の研究では、増強のタイプがパフォーマンスに重大な影響を与えることが報告されている。
論文参考訳（メタデータ） (Tue, 16 Aug 2022 13:09:25 GMT)
- （やるべきか迷いことも多い）異常検知におけるData Augmentationの調査。
- 当然といえば当然だが異常発生メカニズムの整合が重要とのこと。対象はSelf-supervised learningのAnomaly Detectionだが、一般的にも通用する話だと思う。

Data Augmentationのサーベイ

A Survey of Automated Data Augmentation Algorithms for Deep Learning-based Image Classication Tasks [21.6]
データ駆動技術であるディープモデルは、大量の正確なラベル付きトレーニングデータを必要とします。 Data Augmentation (DA)は、オリジナルのサンプルから新しいイメージを人工的に生成することができる。データ拡張戦略はデータセットによって異なり、さまざまなデータ型がモデルのトレーニングを容易にするために異なる拡張を必要とする可能性がある。 AutoDAモデルの目的は、モデルの性能向上を最大化できる最適なDAポリシーを見つけることである。
論文参考訳（メタデータ） (Tue, 14 Jun 2022 01:40:09 GMT)
- データ拡張に関するサーベイ。
  - AutoMLのようなAutomated Data Augmentationという研究分野があるらしく参考になる。

言語モデルを用いた弱教師有り学習

Weakly Supervised Text Classification using Supervision Signals from a Language Model [33.6]
我々は文書自体と「この記事は[MASK]について話している」ことを組み合わせたプロンプトを設計する。マスク付き言語モデルは[MASK]トークンの単語を生成することができる。文書の内容を要約した生成された単語を監視信号として利用することができる。
論文参考訳（メタデータ） (Fri, 13 May 2022 12:57:15 GMT)
- 大規模言語モデルを用いて教師信号を作り、弱教師有り学習に持ち込む研究。言語モデルで単語を生成させ、その単語とカテゴリを紐づけている。
- 大規模言語モデルからの情報抽出は結構流行っている印象

合成データ活用に関するサーベイ

Synthetic Data — what, why and how? [30.4]
本資料は, 合成データ技術の現状を概観することを目的としている。この記事は技術的でない聴衆を対象としているが、専門家に明確性を提供するための正式な定義がいくつか与えられている。
論文参考訳（メタデータ） (Fri, 6 May 2022 14:27:45 GMT)
- 合成データに関するサーベイ、主な観点としてprivate data release 、data de-biasing and fairness、data augmentation for robustnessを挙げ、関連領域（攻撃や防御など）についても記載がある。

CsaNMT: Continuous Semantic Augmentationを用いたニューラル機械翻訳

Learning to Generalize to More: Continuous Semantic Augmentation for Neural Machine Translation [50.5]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。 CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文参考訳（メタデータ） (Thu, 14 Apr 2022 08:16:28 GMT)
- データ拡張によって優れた性能を発揮する手法の提案。BackTranslationを大きく上回っている（がモノリンガルデータは導入していない？）。データ拡張系手法の中でSoTAを主張。
- GitHub – pemywei/csanmt: This is a code repository for the ACL 2022 paper “Learning to Generalize to More: Continuous Semantic Augmentation for Neural Machine Translation”

DeepAA(Deep AutoAugment): データ拡張の自動化

Deep AutoAugment [22.3]
我々はDeep AutoAugment(DeepAA)というデータ拡張検索のための完全自動化手法を提案する。 DeepAAは、収束に到達するまで、一度に1つの増層レイヤを積み重ねることで、スクラッチから多層データ拡張パイプラインを構築する。実験の結果, 既定の増補がなくても, 従来よりも高い性能を達成した増補政策を学習できることが判明した。
論文参考訳（メタデータ） (Fri, 11 Mar 2022 18:57:27 GMT)
- 多層アーキテクチャによるデータ拡張の自動化。他手法に比べて優れた性能を達成したとのこと。
  - CIFAR-10についてはParticleAugmentの方が上に見える。
- リポジトリはGitHub – MSU-MLSys-Lab/DeepAA: [ICLR 2022] “Deep AutoAugment” by Yu Zheng, Zhi Zhang, Shen Yan, Mi Zhang

ExtraPhrase: 抽象型要約のためのデータ拡張（extractive + paraphrasing）

ExtraPhrase: Efficient Data Augmentation for Abstractive Summarization [27.9]
ExtraPhraseは2つのステップで擬似トレーニングデータを構築する。 ROUGEスコアにおいて,ExtraPhraseは抽象的な要約タスクの性能を0.50ポイント以上向上することを示す。また,実際のトレーニングデータの量が著しく少ない場合,ExtraPhraseは極めて有効であることを示す。
論文参考訳（メタデータ） (Fri, 14 Jan 2022 06:14:34 GMT)
- 抽出型要約と言い換えを用いて抽象型要約のための合成データを作るというアプローチ。データ数が少ない場合に特に有効とのこと。
- 抽象型要約のデータは高価なので有効そうな場面はありそう。

2026年7月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31