Backdoor – arXiv最新論文の紹介

BDMMT: Backdoor Sample Detection for Language Models through Model Mutation Testing

BDMMT: Backdoor Sample Detection for Language Models through Model Mutation Testing [14.9]
本稿では,深層モデル変異検査に基づく防御手法を提案する。バックドアサンプルの検出におけるモデル変異検査の有効性をまず確認した。次に,広範に研究された3つのバックドアアタックレベルに対して,系統的に防御を行った。
論文参考訳（メタデータ） (Wed, 25 Jan 2023 05:24:46 GMT)
「backdoor samples are much more robust than clean samples」という仮定に基づくバックドア検出手法の提案。char-level, word-level, sentence-level, style-levelの4種類の攻撃（現時点でメジャーなすべての攻撃）に対応可能とのこと。
この分野は画像で盛んな印象があったが、最近は自然言語処理の領域でも広く研究されている気がする。

Backdoor Vulnerabilities in Normally Trained Deep Learning Models [23.8]
本研究は,通常訓練されたモデルにおいて,20種類のバックドア攻撃をガイダンスとして活用し,その対応性について検討する。インターネットからダウンロードされる56のモデルには、315の自然のバックドアがあり、あらゆるカテゴリがカバーされています。既存のスキャナーは、注入されたバックドア用に設計されており、少なくとも65個のバックドアを検知することができる。
論文参考訳（メタデータ） (Tue, 29 Nov 2022 04:55:32 GMT)
普通のモデルに存在し、Poisoningなどを用いなくても利用可能なNatural backdoorに関して整理した論文。
意図せず存在している点が悩ましい。

Backdoor Attacks in the Supply Chain of Masked Image Modeling [26.9]
Masked Image Modeling (MIM)は、イメージ事前トレーニングのための自己教師付き学習(SSL)に革命をもたらす。本稿では,バックドア攻撃のレンズを用いてMIMの最初のセキュリティリスク定量化を行う。評価の結果、MIMで構築したモデルは、リリースおよびダウンストリームフェーズにおける既存のバックドアアタックに対して脆弱であることがわかった。
論文参考訳（メタデータ） (Tue, 4 Oct 2022 14:27:42 GMT)
- MIM(Masked Image Modeling)を用いたモデルに対し、構築過程ごとにリスク分析を行った論文。驚きの結果というわけではないが、攻撃方法（前提）の整理がとても参考になる。

Just Rotate it: Deploying Backdoor Attacks via Rotation Transformation [48.2]
回転に基づく画像変換により,高い効率のバックドアを容易に挿入できることが判明した。私たちの研究は、バックドア攻撃のための、新しく、シンプルで、物理的に実現可能で、非常に効果的なベクターに焦点を当てています。
論文参考訳（メタデータ） (Fri, 22 Jul 2022 00:21:18 GMT)
- 画像回転によるバックドア埋め込みに関する報告。動画を見ると動きが良くわかる。
- Rotation Backdoor Attacks Demo – YouTube

PiDAn: A Coherence Optimization Approach for Backdoor Attack Detection and Mitigation in Deep Neural Networks [22.9]
バックドア攻撃はディープニューラルネットワーク(DNN)に新たな脅威をもたらす汚染されたデータを浄化するコヒーレンス最適化に基づくアルゴリズムであるPiDAnを提案する。当社のPiDAnアルゴリズムは90%以上の感染クラスを検出でき、95%の有毒サンプルを識別できる。
論文参考訳（メタデータ） (Thu, 17 Mar 2022 12:37:21 GMT)
- バックドア攻撃に対して本物のデータと有害な（有毒な）データを見分ける手法の提案。GTSRB、ILSVRC2012データセットで有効性を検証とのこと。

Backdoor Pre-trained Models Can Transfer to All [33.7]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。 NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文参考訳（メタデータ） (Sat, 30 Oct 2021 07:11:24 GMT)
- 幅広い下流タスクで有効なバックドア攻撃。事前学習モデルを外部に依存することが多い状況下では脅威となる結果。

Anti-Backdoor Learning: Training Clean Models on Poisoned Data [17.6]
ディープニューラルネットワーク(DNN)に対するセキュリティ上の脅威としてバックドア攻撃が浮上している。1) モデルはクリーンなデータよりもバックドアドデータを学習する。 2) バックドアタスクは特定のクラス(バックドアターゲットクラス)に結び付けられる。これら2つの弱点に基づきアンチバックドア学習(ABL)を提案する。ABL学習モデルは、純粋にクリーンなデータでトレーニングされたのと同じ性能を実証的に示す。
論文参考訳（メタデータ）参考訳（全文） (Mon, 25 Oct 2021 03:41:22 GMT)
- バックドア攻撃の特徴を使った防御法を提案。最先端のバックドア攻撃10件に対して効果的に防御できることを示し、品質が不明瞭なデータを使った学習時に安全性を確保できるとのこと。
  - 攻撃と防御のいたちごっこになる感はあるが、このような研究は重要。
- リポジトリはhttps://github.com/bboylyg/ABL

Detecting Backdoor Attacks Against Point Cloud Classifiers [34.1]
ポイントクラウド(PC)分類器に対する最初のBAが提案され、自律運転を含む多くの重要なアプリケーションに対する新たな脅威が生まれた。本稿では,PC分類器がトレーニングセットにアクセスすることなく,バックドア攻撃であるかどうかを推定するリバースエンジニアリングディフェンスを提案する。本研究の有効性を,PC用ベンチマークModeNet40データセットで実証した。
論文参考訳（メタデータ）参考訳（全文） (Wed, 20 Oct 2021 03:12:06 GMT)
- 様々な場所で活用が進みつつあるポイントクラウド分類器へのバックドア攻撃検出。論文の指摘通り、画像分類ではよく見るがポイントクラウド分類に対する研究はあまり見ない気がする。そして画像で有効な防御方法がPoint Cloudに対して有効とは限らないというのは直感的にもその通りで重要な研究だと思う。
  - RED （ reverse-engineering defense）はうまく機械翻訳できていない・・・。