BadPre: 事前学習モデルでのバックドア攻撃

BadPre: Task-agnostic Backdoor Attacks to Pre-trained NLP Foundation Models [25.9]
我々は,訓練済みNLPモデルに対する最初のタスク非依存のバックドアアタックを提案する。事前訓練されたモデルにバックドアを埋め込む際に、下流タスクに関する事前情報を必要としない。実験結果から,本手法は,幅広い下流NLPタスクを効果的かつステルスな方法で攻撃できる可能性が示唆された。
論文参考訳（メタデータ） (Wed, 6 Oct 2021 02:48:58 GMT)
- 事前学習モデルを活用する形のNLPが流行しているが、その事前学習モデルにバックドアを仕込むことが可能という報告。下流タスクによらず特定ワードでの性能を著しく劣化されることが可能。
  - 論文中の図に出てくるBERTが恐ろしい。

コメントを残す

コメントを残す コメントをキャンセル