Adversarial Attack – arXiv最新論文の紹介

Generating Adversarial Examples Robust to Round-Trip Translation

Lost In Translation: Generating Adversarial Examples Robust to Round-Trip Translation [66.3]
本研究は, ラウンドトリップ翻訳における現在のテキスト対逆攻撃の堅牢性に関する包括的研究である。筆者らは,現在最先端のテキストベースの6つの敵攻撃が,ラウンドトリップ翻訳後の有効性を維持していないことを実証した。本稿では,機械翻訳を逆例生成のプロセスに組み込むことにより,この問題に対する介入に基づく解決策を提案する。
論文参考訳（メタデータ） (Mon, 24 Jul 2023 04:29:43 GMT)
多くのadversarial attacks 手法が機械翻訳システムを用いたラウンドトリップ翻訳（日→英→日のようにある言語を介して元の言語に戻す翻訳）下で有効性が減じるため、それを乗り越える手法を提案したとの報告。
「We demonstrate that round trip translation can be used as a cheap and effective defence against current textual adversarial attacks.」というのは機械翻訳モデルを作っている側としては面白い話だが、「we find that round-trip translation defensive capabilities can be bypassed by our proposed attack-agnostic algorithm」というのにいたちごっこさ感じる。
リポジトリはGitHub – neelbhandari6/NMT_Text_Attack: This repository is the implementation of the paper ‘Lost In Translation’.

Text Adversarial Purification as Defense against Adversarial Attacks

Text Adversarial Purification as Defense against Adversarial Attacks [46.8]
敵の浄化は敵の攻撃に対する防御機構として成功している。本稿では,テキストの敵対的攻撃に対する防御に焦点を当てた,新たな敵対的浄化手法を提案する。本研究では, Textfooler や BERT-Attack などの強力な攻撃手法を用いて, 提案手法を検証した。
論文参考訳（メタデータ） (Wed, 3 May 2023 09:09:22 GMT)
単語置き換えの攻撃を防御するため、[MASK]を入れる or [MASK]に置き換える処理を行った後、MLMによって復元、データを浄化するプロセスを提案。
シンプルな戦略だが効果は有るようで、多くのベンチマークで防御に成功している。

A Survey of Adversarial Defences and Robustness in NLP

A Survey of Adversarial Defences and Robustness in NLP [26.3]
深層ニューラルネットワークは、入力データにおける敵の摂動に耐えるほど弾力性がないことが、ますます明らかになっている。 NLPにおける敵防御のためのいくつかの手法が提案され、異なるNLPタスクに対応している。本調査は,過去数年間にNLPにおける敵防衛のために提案された様々な手法を,新しい分類法を導入して検討することを目的とする。
論文参考訳（メタデータ） (Tue, 18 Apr 2023 05:00:29 GMT)
NLPにおける敵対的攻撃への防御に関するサーベイ
conclusionがサーベイ自体のサマリになっておりざっくりと説明するには良い資料な気がする

TransFool

TransFool: An Adversarial Attack against Neural Machine Translation Models [49.5]
敵攻撃に対するニューラルネットワーク翻訳(NMT)モデルの脆弱性を調査し,TransFoolと呼ばれる新たな攻撃アルゴリズムを提案する。クリーンなサンプルと高いレベルのセマンティックな類似性を保ったソースコード言語で、流動的な逆の例を生成する。自動的および人的評価に基づいて、TransFoolは、既存の攻撃と比較して成功率、意味的類似性、流布率の改善につながる。
論文参考訳（メタデータ） (Thu, 2 Feb 2023 08:35:34 GMT)
ニューラル機械翻訳に対する（ホワイトボックスな）敵対的攻撃手法の提案。高い攻撃成功率を達成とのこと。「Our attack is also transferable to black-box settings with different structures and even different target languages.」という転送可能性があるというのが非常に面白い。本質的に解釈が難しい文が作れるとかなんだろうか。
コードはhttps://github.com/sssadrizadeh/TransFoolで公開予定とのことだが、現時点では404

Are AlphaZero-like Agents Robust to Adversarial Perturbations?

Are AlphaZero-like Agents Robust to Adversarial Perturbations? [73.1]
AlphaZero(AZ)は、ニューラルネットワークベースのGo AIが人間のパフォーマンスを大きく上回ることを示した。私たちは、Go AIが驚くほど間違った行動を起こさせる可能性のある、敵対的な状態が存在するかどうか尋ねる。我々は、Go AIに対する最初の敵攻撃を開発し、探索空間を戦略的に減らし、効率よく敵の状態を探索する。
論文参考訳（メタデータ） (Mon, 7 Nov 2022 18:43:25 GMT)
強力な囲碁AIを誤らせるような敵対的攻撃が可能か検証した論文。現状最強と思われる（人間よりも強い）囲碁AIに対しても攻撃は可能とのこと。
リポジトリはlan-lc/adversarial_example_of_Go (github.com)

堅牢なViTへのレシピ

A Light Recipe to Train Robust Vision Transformers [34.5]
我々は、ViTが、回避攻撃に対する機械学習モデルの堅牢性を改善するための基盤となるアーキテクチャとして機能することを示します。我々は、ImageNetデータセットのサブセットに関する厳密なアブレーション研究を用いて、独自の逆トレーニングレシピを用いて、この目的を達成する。提案手法は,完全なImageNet-1k上でのViTアーキテクチャと大規模モデルの異なるクラスに一般化可能であることを示す。
論文参考訳（メタデータ） (Thu, 15 Sep 2022 16:00:04 GMT)
- 堅牢なViT実現に向けた学習方法の提案。XCiTをベースにシンプルなデータ拡張、warmupとdecayを変更。様々な手法との比較が参考になる。

チャットボットに対する攻撃

Why So Toxic? Measuring and Triggering Toxic Behavior in Open-Domain Chatbots [42.0]
本稿では,チャットボットの毒性を定量的に測定する。一般に利用可能なチャットボットは、有害なクエリを入力した場合、有害な応答を提供する傾向がある。そこで我々は,GPT-2を微調整して非有害なクエリを生成する攻撃ToxicBuddyの設計と実験を行った。
論文参考訳（メタデータ） (Wed, 7 Sep 2022 20:45:41 GMT)
- チャットボットが無害なクエリに対して有害な返答を行ってくるようなクエリを作成する攻撃手法ToxicBuppyを提案。攻撃の成功レートは条件に依存するが現実的な条件でも一定精度（数％程度）の成功率はあるよう。既存の防御手段では性能を保持したままの対応が難しいとのこと。

AI/機械学習に対する攻撃のアンケート調査

“Why do so?” — A Practical Perspective on Machine Learning Security [21.5]
我々は139人の産業従事者との攻撃発生と懸念を分析した。私たちの結果は、デプロイされた機械学習に対する現実世界の攻撃に光を当てています。我々の研究は、現実の敵対的機械学習に関するさらなる研究の道を開くものだ。
論文参考訳（メタデータ） (Mon, 11 Jul 2022 19:58:56 GMT)
- AIに対する攻撃に関する調査で、100人以上を対象としており興味深い。Poisoningなどに危険性を感じている人が思ったよりも多いという印象。

テキストバックドア攻撃の防御ツールキットOpenBackdoor

A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks [72.7]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文参考訳（メタデータ） (Fri, 17 Jun 2022 02:29:23 GMT)
- バックドア攻撃（データセット、事前学習モデル、ファインチューニング後のモデル）を整理、ツールキットを開発し、防御手法CUBE（ClUstering-based poisoned sample ﬁltering for Backdoor-freE trainingを）提案。
  - CUBEはデータセットのクラスタリングを行い主要なクラスタを残すアプローチ。攻撃用のデータはそれ以外に比べて少ない事を仮定・利用している。
- リポジトリはGitHub – thunlp/OpenBackdoor: An open-source toolkit for textual backdoor attack and defense

PLAT（Phrase-Level textual adversarial ATtack）:フレーズ単位のAdversarial Attack

Phrase-level Textual Adversarial Attack with Label Preservation [34.4]
本稿では,フレーズレベルの摂動を通じて対数サンプルを生成するPhrase-Level Textual Adrial aTtack (PLAT)を提案する。 PLATは強力なベースラインよりも攻撃効率が優れ、ラベルの一貫性も優れている。
論文参考訳（メタデータ） (Sun, 22 May 2022 02:22:38 GMT)
- テキスト内のフレーズを攻撃対象としたAdversarial Attack手法の提案。単語単位で摂動させるよりも攻撃範囲が広く、不自然さが軽減されるとのこと。
- リポジトリはGitHub – Yibin-Lei/PLAT

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31