堅牢なViTへのレシピ

  • A Light Recipe to Train Robust Vision Transformers [34.5]
    我々は、ViTが、回避攻撃に対する機械学習モデルの堅牢性を改善するための基盤となるアーキテクチャとして機能することを示します。 我々は、ImageNetデータセットのサブセットに関する厳密なアブレーション研究を用いて、独自の逆トレーニングレシピを用いて、この目的を達成する。 提案手法は,完全なImageNet-1k上でのViTアーキテクチャと大規模モデルの異なるクラスに一般化可能であることを示す。
    論文  参考訳(メタデータ)   (Thu, 15 Sep 2022 16:00:04 GMT)
    • 堅牢なViT実現に向けた学習方法の提案。XCiTをベースにシンプルなデータ拡張、warmupとdecayを変更。様々な手法との比較が参考になる。

チャットボットに対する攻撃

  • Why So Toxic? Measuring and Triggering Toxic Behavior in Open-Domain Chatbots [42.0]
    本稿では,チャットボットの毒性を定量的に測定する。 一般に利用可能なチャットボットは、有害なクエリを入力した場合、有害な応答を提供する傾向がある。 そこで我々は,GPT-2を微調整して非有害なクエリを生成する攻撃ToxicBuddyの設計と実験を行った。
    論文  参考訳(メタデータ)   (Wed, 7 Sep 2022 20:45:41 GMT)
    • チャットボットが無害なクエリに対して有害な返答を行ってくるようなクエリを作成する攻撃手法ToxicBuppyを提案。攻撃の成功レートは条件に依存するが現実的な条件でも一定精度(数%程度)の成功率はあるよう。既存の防御手段では性能を保持したままの対応が難しいとのこと。

AI/機械学習に対する攻撃のアンケート調査

  • “Why do so?” — A Practical Perspective on Machine Learning Security [21.5]
    我々は139人の産業従事者との攻撃発生と懸念を分析した。 私たちの結果は、デプロイされた機械学習に対する現実世界の攻撃に光を当てています。 我々の研究は、現実の敵対的機械学習に関するさらなる研究の道を開くものだ。
    論文  参考訳(メタデータ)   (Mon, 11 Jul 2022 19:58:56 GMT)
    • AIに対する攻撃に関する調査で、100人以上を対象としており興味深い。Poisoningなどに危険性を感じている人が思ったよりも多いという印象。

テキストバックドア攻撃の防御ツールキットOpenBackdoor 

  • A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks [72.7]
    我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。 また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
    論文  参考訳(メタデータ)   (Fri, 17 Jun 2022 02:29:23 GMT)
    • バックドア攻撃(データセット、事前学習モデル、ファインチューニング後のモデル)を整理、ツールキットを開発し、防御手法CUBE(ClUstering-based poisoned sample filtering for Backdoor-freE trainingを)提案。
      • CUBEはデータセットのクラスタリングを行い主要なクラスタを残すアプローチ。攻撃用のデータはそれ以外に比べて少ない事を仮定・利用している。
    • リポジトリはGitHub – thunlp/OpenBackdoor: An open-source toolkit for textual backdoor attack and defense

PLAT(Phrase-Level textual adversarial ATtack):フレーズ単位のAdversarial Attack

  • Phrase-level Textual Adversarial Attack with Label Preservation [34.4]
    本稿では,フレーズレベルの摂動を通じて対数サンプルを生成するPhrase-Level Textual Adrial aTtack (PLAT)を提案する。 PLATは強力なベースラインよりも攻撃効率が優れ、ラベルの一貫性も優れている。
    論文  参考訳(メタデータ)   (Sun, 22 May 2022 02:22:38 GMT)
    • テキスト内のフレーズを攻撃対象としたAdversarial Attack手法の提案。単語単位で摂動させるよりも攻撃範囲が広く、不自然さが軽減されるとのこと。
    • リポジトリはGitHub – Yibin-Lei/PLAT

Truth Serum: 秘密データの漏洩攻撃

  • Truth Serum: Poisoning Machine Learning Models to Reveal Their Secrets [53.9]
    トレーニングデータセットを有害にすることができる敵が、このデータセットでトレーニングされたモデルに、他の当事者のプライベート詳細を漏洩させる可能性があることを示す。 私たちの攻撃は、メンバーシップ推論、属性推論、データ抽出に効果的です。 私たちの結果は、機械学習のためのマルチパーティプロトコルにおける暗号化プライバシ保証の関連性に疑問を投げかけました。
    論文  参考訳(メタデータ)   (Thu, 31 Mar 2022 18:06:28 GMT)
    • 学習用のデータセットに攻撃をすることで、プライバシーに関連するデータを漏洩させることができるとの報告。先行研究ではモデルの保護は困難とのこと。
    • 「Untrusted data is not only a threat to integrity.」「Large neural networks are trained on massive datasets which are hard to curate.」ですよね・・・

ブラックボックスモデルの頑健性向上

  • How to Robustify Black-Box ML Models? A Zeroth-Order Optimization Perspective [74.5]
    入力クエリと出力フィードバックだけでブラックボックスモデルを堅牢化する方法? 我々は,ブラックボックスモデルに適用可能な防御操作の一般的な概念を提案し,一階法(FO)認定防衛技術である denoized smoothing (DS) のレンズを用いて設計する。 我々は,Zeroth-Order AutoEncoder-based Denoised Smoothingが既存のベースラインよりも精度,堅牢性,クエリの複雑さを向上できることを実証的に示す。
    論文  参考訳(メタデータ)   (Sun, 27 Mar 2022 03:23:32 GMT)

Authorship-Deobfuscation

  • A Girl Has A Name, And It’s … Adversarial Authorship Attribution for Deobfuscation [9.6]
    既存のオーサシップ難読化アプローチは、敵の脅威モデルを考慮していない。 このギャップを埋めるために, 難読化に対する敵対的著作者帰属の問題を検討する。 その結果,既存の難読化者の有効性を20~30%から5~10%に低下させることができた。 私たちの結果は、難読化に抵抗するより強固な難読化アプローチの必要性を強調する
    論文  参考訳(メタデータ)   (Tue, 22 Mar 2022 16:26:09 GMT)

PAEG(Phrase-level Adversarial Example Generation) を用いた機械翻訳モデルの頑健性向上

  • Phrase-level Adversarial Example Generation for Neural Machine Translation [75.0]
     エンドツーエンドのニューラルネットワーク翻訳(NMT)は目覚ましい進歩を遂げているが、ノイズの多い入力は通常、モデルが脆弱で不安定になる。拡張データとして逆例を生成することはこの問題を軽減するのに有用であることが証明された。 本稿では,モデルの堅牢性を高めるために,句レベル逆例生成(PAEG)手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 6 Jan 2022 11:00:49 GMT)
    • フェーズレベルの置き換えを用いたAdversarial Exampleを作成、その活用でモデルの頑健性向上を確認とのこと。生成にはBERTを活用。

RAWイメージを介した敵対的攻撃の防御

  • All You Need is RAW: Defending Against Adversarial Attacks with Camera Image Pipelines [31.0]
    画像と画像のマッピングのためのモデルに依存しない対角防御法を提案する。 この方法は、入力されたRGB画像をRAW空間にマッピングし、学習したカメラ画像信号処理パイプラインを用いて出力RGBにマッピングする。 その結果、余分な再トレーニングを伴わずに未確認タスクに一般化する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 16 Dec 2021 21:54:26 GMT)
    • RAWイメージを介することでAdversarial Attackからの防御を行う手法の提案。自然なやり方に思える。