コンテンツへスキップ
- Learning to Generalize to More: Continuous Semantic Augmentation for Neural Machine Translation [50.5]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。 CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (Thu, 14 Apr 2022 08:16:28 GMT)- データ拡張によって優れた性能を発揮する手法の提案。BackTranslationを大きく上回っている(がモノリンガルデータは導入していない?)。データ拡張系手法の中でSoTAを主張。
- Deep AutoAugment [22.3]
我々はDeep AutoAugment(DeepAA)というデータ拡張検索のための完全自動化手法を提案する。 DeepAAは、収束に到達するまで、一度に1つの増層レイヤを積み重ねることで、スクラッチから多層データ拡張パイプラインを構築する。 実験の結果, 既定の増補がなくても, 従来よりも高い性能を達成した増補政策を学習できることが判明した。
論文 参考訳(メタデータ) (Fri, 11 Mar 2022 18:57:27 GMT)- 多層アーキテクチャによるデータ拡張の自動化。他手法に比べて優れた性能を達成したとのこと。
- ExtraPhrase: Efficient Data Augmentation for Abstractive Summarization [27.9]
ExtraPhraseは2つのステップで擬似トレーニングデータを構築する。 ROUGEスコアにおいて,ExtraPhraseは抽象的な要約タスクの性能を0.50ポイント以上向上することを示す。 また,実際のトレーニングデータの量が著しく少ない場合,ExtraPhraseは極めて有効であることを示す。
論文 参考訳(メタデータ) (Fri, 14 Jan 2022 06:14:34 GMT)- 抽出型要約と言い換えを用いて抽象型要約のための合成データを作るというアプローチ。データ数が少ない場合に特に有効とのこと。
- 抽象型要約のデータは高価なので有効そうな場面はありそう。
- PRIME: A Few Primitives Can Boost Robustness to Common Corruptions [60.1]
ディープ・ネットワークは画像の破損を 一般化するのに苦労しています。 本稿では,最大エントロピー画像変換の単純なファミリーからなる汎用データ拡張スキームPRIMEを提案する。 PRIMEは従来の汚損防止技術よりも優れており,そのシンプルさとプラグ・アンド・プレイ性により,他の手法と組み合わせて堅牢性をさらに向上させることができる。
論文 参考訳(メタデータ) (Mon, 27 Dec 2021 07:17:51 GMT)
- NL-Augmenter: A Framework for Task-Sensitive Natural Language Augmentation [92.0]
提案するNL-Augmenterは,Pythonベースの自然言語拡張フレームワークである。 このフレームワークと117の変換と23のフィルタを、さまざまな自然言語タスクに対して記述する。 我々は,NL-Augmenterの有効性を,NL-Augmenterの変換を用いて検証し,自然言語モデルのロバスト性を解析した。
論文 参考訳(メタデータ) (Mon, 6 Dec 2021 00:37:59 GMT)
- Data Augmentation Approaches in Natural Language Processing: A Survey [28.9]
データ拡張(DA)は、ディープラーニング技術が失敗する可能性のあるデータの不足シナリオを軽減する。 DA手法の主な焦点の1つは、トレーニングデータの多様性を改善することである。 DA手法をパラフレーズ化, ノイズ化, サンプリングなど, 拡張データの多様性に基づいて3つのカテゴリに分類する。
論文 参考訳(メタデータ) (Tue, 5 Oct 2021 07:35:32 GMT)- 自然言語処理におけるデータ拡張の幅広いサーベイ。言い換え、ノイズ付与、サンプリングの3カテゴリで整理を行っている。42ページ、引用論文数122と規模が大きい。論文中に出てくる図が非常に参考になる。