Truth Serum: 秘密データの漏洩攻撃

  • Truth Serum: Poisoning Machine Learning Models to Reveal Their Secrets [53.9]
    トレーニングデータセットを有害にすることができる敵が、このデータセットでトレーニングされたモデルに、他の当事者のプライベート詳細を漏洩させる可能性があることを示す。 私たちの攻撃は、メンバーシップ推論、属性推論、データ抽出に効果的です。 私たちの結果は、機械学習のためのマルチパーティプロトコルにおける暗号化プライバシ保証の関連性に疑問を投げかけました。
    論文  参考訳(メタデータ)   (Thu, 31 Mar 2022 18:06:28 GMT)
    • 学習用のデータセットに攻撃をすることで、プライバシーに関連するデータを漏洩させることができるとの報告。先行研究ではモデルの保護は困難とのこと。
    • 「Untrusted data is not only a threat to integrity.」「Large neural networks are trained on massive datasets which are hard to curate.」ですよね・・・

ブラックボックスモデルの頑健性向上

  • How to Robustify Black-Box ML Models? A Zeroth-Order Optimization Perspective [74.5]
    入力クエリと出力フィードバックだけでブラックボックスモデルを堅牢化する方法? 我々は,ブラックボックスモデルに適用可能な防御操作の一般的な概念を提案し,一階法(FO)認定防衛技術である denoized smoothing (DS) のレンズを用いて設計する。 我々は,Zeroth-Order AutoEncoder-based Denoised Smoothingが既存のベースラインよりも精度,堅牢性,クエリの複雑さを向上できることを実証的に示す。
    論文  参考訳(メタデータ)   (Sun, 27 Mar 2022 03:23:32 GMT)

Authorship-Deobfuscation

  • A Girl Has A Name, And It’s … Adversarial Authorship Attribution for Deobfuscation [9.6]
    既存のオーサシップ難読化アプローチは、敵の脅威モデルを考慮していない。 このギャップを埋めるために, 難読化に対する敵対的著作者帰属の問題を検討する。 その結果,既存の難読化者の有効性を20~30%から5~10%に低下させることができた。 私たちの結果は、難読化に抵抗するより強固な難読化アプローチの必要性を強調する
    論文  参考訳(メタデータ)   (Tue, 22 Mar 2022 16:26:09 GMT)

PAEG(Phrase-level Adversarial Example Generation) を用いた機械翻訳モデルの頑健性向上

  • Phrase-level Adversarial Example Generation for Neural Machine Translation [75.0]
     エンドツーエンドのニューラルネットワーク翻訳(NMT)は目覚ましい進歩を遂げているが、ノイズの多い入力は通常、モデルが脆弱で不安定になる。拡張データとして逆例を生成することはこの問題を軽減するのに有用であることが証明された。 本稿では,モデルの堅牢性を高めるために,句レベル逆例生成(PAEG)手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 6 Jan 2022 11:00:49 GMT)
    • フェーズレベルの置き換えを用いたAdversarial Exampleを作成、その活用でモデルの頑健性向上を確認とのこと。生成にはBERTを活用。

RAWイメージを介した敵対的攻撃の防御

  • All You Need is RAW: Defending Against Adversarial Attacks with Camera Image Pipelines [31.0]
    画像と画像のマッピングのためのモデルに依存しない対角防御法を提案する。 この方法は、入力されたRGB画像をRAW空間にマッピングし、学習したカメラ画像信号処理パイプラインを用いて出力RGBにマッピングする。 その結果、余分な再トレーニングを伴わずに未確認タスクに一般化する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 16 Dec 2021 21:54:26 GMT)
    • RAWイメージを介することでAdversarial Attackからの防御を行う手法の提案。自然なやり方に思える。

敵対的攻撃と防御のサーベイ

  • A Review of Adversarial Attack and Defense for Classification Methods [78.5]
    本稿では,敵対的事例の生成と保護に焦点をあてる。 この論文は、多くの統計学者が、この重要かつエキサイティングな分野において、敵の事例を生成・防御することを奨励するものである。
    論文  参考訳(メタデータ)   (Thu, 18 Nov 2021 22:13:43 GMT)
    • ディープ系モデルに対する敵対的攻撃とその防御に関するサーベイ、数式多めだが分かりやすい。
    • リポジトリはGitHub – liyao880/revew_adv_defense

Adversarial GLUE: NLPの頑健性(攻撃耐性)を評価するベンチマーク

  • Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.0]
    AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。 テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 4 Nov 2021 12:59:55 GMT)
    • 敵対的攻撃環境下で動作させることを目的としたベンチマーク、データセットの提案。「攻撃アルゴリズムの多くが無効または曖昧な例を生成する → 慎重なフィルタリング処理を実施」「言語モデルとトレーニングメソッドはAdvGLUEではパフォーマンスが悪く、スコアは大きく劣化」という攻撃する側、される側ともに課題がありそうなのが興味深い。
    • プロジェクトサイトはhttps://adversarialglue.github.io/

ML Defense Models Competition