Text Adversarial Purification as Defense against Adversarial Attacks

Text Adversarial Purification as Defense against Adversarial Attacks [46.8]
敵の浄化は敵の攻撃に対する防御機構として成功している。本稿では,テキストの敵対的攻撃に対する防御に焦点を当てた,新たな敵対的浄化手法を提案する。本研究では, Textfooler や BERT-Attack などの強力な攻撃手法を用いて, 提案手法を検証した。
論文参考訳（メタデータ） (Wed, 3 May 2023 09:09:22 GMT)
単語置き換えの攻撃を防御するため、[MASK]を入れる or [MASK]に置き換える処理を行った後、MLMによって復元、データを浄化するプロセスを提案。
シンプルな戦略だが効果は有るようで、多くのベンチマークで防御に成功している。

コメントを残す

コメントを残す コメントをキャンセル