バックドア – arXiv最新論文の紹介

BackdoorBench

BackdoorBench: A Comprehensive Benchmark of Backdoor Learning [57.9]
バックドア学習は、ディープニューラルネットワーク(DNN)の脆弱性を研究する上で、新しく重要なトピックである多くの先駆的なバックドア攻撃と防衛手法が、素早い武器競争の状況において、連続的または同時に提案されている。 BackdoorBenchというバックドア学習の総合的なベンチマークを構築しています。
論文参考訳（メタデータ） (Sat, 25 Jun 2022 13:48:04 GMT)
- バックドア攻撃と防御のためのベンチマーク。攻撃手法、防御手法の組み合わせで表現されたリーダーボードが面白い。
- プロジェクトサイトはBackdoorBench

BadPre: 事前学習モデルでのバックドア攻撃

BadPre: Task-agnostic Backdoor Attacks to Pre-trained NLP Foundation Models [25.9]
我々は,訓練済みNLPモデルに対する最初のタスク非依存のバックドアアタックを提案する。事前訓練されたモデルにバックドアを埋め込む際に、下流タスクに関する事前情報を必要としない。実験結果から,本手法は,幅広い下流NLPタスクを効果的かつステルスな方法で攻撃できる可能性が示唆された。
論文参考訳（メタデータ） (Wed, 6 Oct 2021 02:48:58 GMT)
- 事前学習モデルを活用する形のNLPが流行しているが、その事前学習モデルにバックドアを仕込むことが可能という報告。下流タスクによらず特定ワードでの性能を著しく劣化されることが可能。
  - 論文中の図に出てくるBERTが恐ろしい。

Poison Ink: 目に見えないバックドア攻撃

Poison Ink: Robust and Invisible Backdoor Attack [122.5]
我々はポイズン・インクと呼ばれる頑健で目に見えないバックドア攻撃を提案する。具体的には、まず、画像構造を標的の中毒領域として利用し、それらを毒インク(情報)で満たしてトリガーパターンを生成する。既存の一般的なバックドア攻撃方法と比較して、Poison Inkはステルスネスとロバストネスの両方で優れている。
論文参考訳（メタデータ） (Thu, 5 Aug 2021 09:52:49 GMT)
- 画像の構造（物体の輪郭）に情報を埋め込んだバックドア攻撃の提案。防御手法の多くが仮定している「静的パッチが埋め込まれた状況」とは異なり、動的な場所のため防御が難しいとのこと。
- 論文中にも書かれている通り「DNNは浅い層で構造を捉えやすいが、最終的にはテクスチャ情報を分類の重要な手掛かりにしている」という特徴をうまく利用している。

検知しにくい自然言語処理モデル（BERTなど）のバックドア

Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.6]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文参考訳（メタデータ） (Wed, 26 May 2021 08:54:19 GMT)
- 単純なテキストではなく構文構造をトリガーとするバックドアを作れることを示した論文。検知・防御は非常に困難であり攻撃手法としてとても有効。
- https://github.com/thunlp/hiddenkiller　ソースコード等も公開予定とのこと（現状ではまだ未公開）