検知しにくい自然言語処理モデル(BERTなど)のバックドア

  • Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.6]
    本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。 我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。 また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
    論文  参考訳(メタデータ)   (Wed, 26 May 2021 08:54:19 GMT)
    • 単純なテキストではなく構文構造をトリガーとするバックドアを作れることを示した論文。検知・防御は非常に困難であり攻撃手法としてとても有効。
    • https://github.com/thunlp/hiddenkiller ソースコード等も公開予定とのこと(現状ではまだ未公開)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です