Backdoor検出 – arXiv最新論文の紹介

BDMMT: Backdoor Sample Detection for Language Models through Model Mutation Testing

BDMMT: Backdoor Sample Detection for Language Models through Model Mutation Testing [14.9]
本稿では,深層モデル変異検査に基づく防御手法を提案する。バックドアサンプルの検出におけるモデル変異検査の有効性をまず確認した。次に,広範に研究された3つのバックドアアタックレベルに対して,系統的に防御を行った。
論文参考訳（メタデータ） (Wed, 25 Jan 2023 05:24:46 GMT)
「backdoor samples are much more robust than clean samples」という仮定に基づくバックドア検出手法の提案。char-level, word-level, sentence-level, style-levelの4種類の攻撃（現時点でメジャーなすべての攻撃）に対応可能とのこと。
この分野は画像で盛んな印象があったが、最近は自然言語処理の領域でも広く研究されている気がする。

Backdoor Vulnerabilities in Normally Trained Deep Learning Models [23.8]
本研究は,通常訓練されたモデルにおいて,20種類のバックドア攻撃をガイダンスとして活用し,その対応性について検討する。インターネットからダウンロードされる56のモデルには、315の自然のバックドアがあり、あらゆるカテゴリがカバーされています。既存のスキャナーは、注入されたバックドア用に設計されており、少なくとも65個のバックドアを検知することができる。
論文参考訳（メタデータ） (Tue, 29 Nov 2022 04:55:32 GMT)
普通のモデルに存在し、Poisoningなどを用いなくても利用可能なNatural backdoorに関して整理した論文。
意図せず存在している点が悩ましい。

Detecting Backdoor Attacks Against Point Cloud Classifiers [34.1]
ポイントクラウド(PC)分類器に対する最初のBAが提案され、自律運転を含む多くの重要なアプリケーションに対する新たな脅威が生まれた。本稿では,PC分類器がトレーニングセットにアクセスすることなく,バックドア攻撃であるかどうかを推定するリバースエンジニアリングディフェンスを提案する。本研究の有効性を,PC用ベンチマークModeNet40データセットで実証した。
論文参考訳（メタデータ）参考訳（全文） (Wed, 20 Oct 2021 03:12:06 GMT)
- 様々な場所で活用が進みつつあるポイントクラウド分類器へのバックドア攻撃検出。論文の指摘通り、画像分類ではよく見るがポイントクラウド分類に対する研究はあまり見ない気がする。そして画像で有効な防御方法がPoint Cloudに対して有効とは限らないというのは直感的にもその通りで重要な研究だと思う。
  - RED （ reverse-engineering defense）はうまく機械翻訳できていない・・・。