教師無し異常検知におけるData Augmentation

  • Role of Data Augmentation in Unsupervised Anomaly Detection [30.4]
    自己教師付き学習(SSL)は、現実のタスクの監視信号を作成するための有望な代替手段として登場した。 近年の研究では、増強のタイプがパフォーマンスに重大な影響を与えることが報告されている。
    論文  参考訳(メタデータ)   (Tue, 16 Aug 2022 13:09:25 GMT)
    • (やるべきか迷いことも多い)異常検知におけるData Augmentationの調査。
    • 当然といえば当然だが異常発生メカニズムの整合が重要とのこと。対象はSelf-supervised learningのAnomaly Detectionだが、一般的にも通用する話だと思う。

Data Augmentationのサーベイ

  • A Survey of Automated Data Augmentation Algorithms for Deep Learning-based Image Classication Tasks [21.6]
    データ駆動技術であるディープモデルは、大量の正確なラベル付きトレーニングデータを必要とします。 Data Augmentation (DA)は、オリジナルのサンプルから新しいイメージを人工的に生成することができる。 データ拡張戦略はデータセットによって異なり、さまざまなデータ型がモデルのトレーニングを容易にするために異なる拡張を必要とする可能性がある。 AutoDAモデルの目的は、モデルの性能向上を最大化できる最適なDAポリシーを見つけることである。
    論文  参考訳(メタデータ)   (Tue, 14 Jun 2022 01:40:09 GMT)
    • データ拡張に関するサーベイ。
      • AutoMLのようなAutomated Data Augmentationという研究分野があるらしく参考になる。

言語モデルを用いた弱教師有り学習

  • Weakly Supervised Text Classification using Supervision Signals from a Language Model [33.6]
    我々は文書自体と「この記事は[MASK]について話している」ことを組み合わせたプロンプトを設計する。 マスク付き言語モデルは[MASK]トークンの単語を生成することができる。 文書の内容を要約した生成された単語を監視信号として利用することができる。
    論文  参考訳(メタデータ)   (Fri, 13 May 2022 12:57:15 GMT)
    • 大規模言語モデルを用いて教師信号を作り、弱教師有り学習に持ち込む研究。言語モデルで単語を生成させ、その単語とカテゴリを紐づけている。
    • 大規模言語モデルからの情報抽出は結構流行っている印象

合成データ活用に関するサーベイ

  • Synthetic Data — what, why and how? [30.4]
    本資料は, 合成データ技術の現状を概観することを目的としている。 この記事は技術的でない聴衆を対象としているが、専門家に明確性を提供するための正式な定義がいくつか与えられている。
    論文  参考訳(メタデータ)   (Fri, 6 May 2022 14:27:45 GMT)
    • 合成データに関するサーベイ、主な観点としてprivate data release 、data de-biasing and fairness、data augmentation for robustnessを挙げ、関連領域(攻撃や防御など)についても記載がある。

CsaNMT: Continuous Semantic Augmentationを用いたニューラル機械翻訳

DeepAA(Deep AutoAugment): データ拡張の自動化

  • Deep AutoAugment [22.3]
    我々はDeep AutoAugment(DeepAA)というデータ拡張検索のための完全自動化手法を提案する。 DeepAAは、収束に到達するまで、一度に1つの増層レイヤを積み重ねることで、スクラッチから多層データ拡張パイプラインを構築する。 実験の結果, 既定の増補がなくても, 従来よりも高い性能を達成した増補政策を学習できることが判明した。
    論文  参考訳(メタデータ)   (Fri, 11 Mar 2022 18:57:27 GMT)
    • 多層アーキテクチャによるデータ拡張の自動化。他手法に比べて優れた性能を達成したとのこと。

ExtraPhrase: 抽象型要約のためのデータ拡張(extractive + paraphrasing)

  • ExtraPhrase: Efficient Data Augmentation for Abstractive Summarization [27.9]
    ExtraPhraseは2つのステップで擬似トレーニングデータを構築する。 ROUGEスコアにおいて,ExtraPhraseは抽象的な要約タスクの性能を0.50ポイント以上向上することを示す。 また,実際のトレーニングデータの量が著しく少ない場合,ExtraPhraseは極めて有効であることを示す。
    論文  参考訳(メタデータ)   (Fri, 14 Jan 2022 06:14:34 GMT)
    • 抽出型要約と言い換えを用いて抽象型要約のための合成データを作るというアプローチ。データ数が少ない場合に特に有効とのこと。
    • 抽象型要約のデータは高価なので有効そうな場面はありそう。

PRIME: 画像データの変化(破損)に対するデータ拡張スキーム

NL-Augmenter: 自然言語処理におけるデータ拡張フレームワーク

  • NL-Augmenter: A Framework for Task-Sensitive Natural Language Augmentation [92.0]
    提案するNL-Augmenterは,Pythonベースの自然言語拡張フレームワークである。 このフレームワークと117の変換と23のフィルタを、さまざまな自然言語タスクに対して記述する。 我々は,NL-Augmenterの有効性を,NL-Augmenterの変換を用いて検証し,自然言語モデルのロバスト性を解析した。
    論文  参考訳(メタデータ)   (Mon, 6 Dec 2021 00:37:59 GMT)

自然言語処理におけるデータ拡張

  • Data Augmentation Approaches in Natural Language Processing: A Survey [28.9]
    データ拡張(DA)は、ディープラーニング技術が失敗する可能性のあるデータの不足シナリオを軽減する。 DA手法の主な焦点の1つは、トレーニングデータの多様性を改善することである。 DA手法をパラフレーズ化, ノイズ化, サンプリングなど, 拡張データの多様性に基づいて3つのカテゴリに分類する。
    論文  参考訳(メタデータ)   (Tue, 5 Oct 2021 07:35:32 GMT)
    • 自然言語処理におけるデータ拡張の幅広いサーベイ。言い換え、ノイズ付与、サンプリングの3カテゴリで整理を行っている。42ページ、引用論文数122と規模が大きい。論文中に出てくる図が非常に参考になる。