2021年10月8日 – arXiv最新論文の紹介

BadPre: 事前学習モデルでのバックドア攻撃

BadPre: Task-agnostic Backdoor Attacks to Pre-trained NLP Foundation Models [25.9]
我々は,訓練済みNLPモデルに対する最初のタスク非依存のバックドアアタックを提案する。事前訓練されたモデルにバックドアを埋め込む際に、下流タスクに関する事前情報を必要としない。実験結果から,本手法は,幅広い下流NLPタスクを効果的かつステルスな方法で攻撃できる可能性が示唆された。
論文参考訳（メタデータ） (Wed, 6 Oct 2021 02:48:58 GMT)
- 事前学習モデルを活用する形のNLPが流行しているが、その事前学習モデルにバックドアを仕込むことが可能という報告。下流タスクによらず特定ワードでの性能を著しく劣化されることが可能。
  - 論文中の図に出てくるBERTが恐ろしい。

自然言語処理におけるデータ拡張

Data Augmentation Approaches in Natural Language Processing: A Survey [28.9]
データ拡張(DA)は、ディープラーニング技術が失敗する可能性のあるデータの不足シナリオを軽減する。 DA手法の主な焦点の1つは、トレーニングデータの多様性を改善することである。 DA手法をパラフレーズ化, ノイズ化, サンプリングなど, 拡張データの多様性に基づいて3つのカテゴリに分類する。
論文参考訳（メタデータ） (Tue, 5 Oct 2021 07:35:32 GMT)
- 自然言語処理におけるデータ拡張の幅広いサーベイ。言い換え、ノイズ付与、サンプリングの3カテゴリで整理を行っている。42ページ、引用論文数122と規模が大きい。論文中に出てくる図が非常に参考になる。

FooDI-ML: マルチリンガルな食品画像＋説明のデータセット

FooDI-ML: a large multi-language dataset of food, drinks and groceries images and descriptions [0.0]
このデータセットは、東ヨーロッパと西アジア(ウクライナ語やカザフ語など)の870万の言語のサンプルを含む33の言語を記述している。データセットにはスペイン語や英語など、広く話されている言語も含まれている。
論文参考訳（メタデータ） (Tue, 5 Oct 2021 13:33:08 GMT)
- 2.8M以上の食料品や飲料など画像と33言語の9.5M以上の説明文、店舗名、商品名、収集セクションを含むデータセット。ライセンスはCC BY-NC-SA。今後2倍以上のサイズのデータセット構築を予定しているとのこと。
- リポジトリはhttps://github.com/Glovo/foodi-ml-dataset