Defense – arXiv最新論文の紹介

Shh, don’t say that! Domain Certification in LLMs

Shh, don’t say that! Domain Certification in LLMs [124.6]
大きな言語モデル(LLM)は狭いドメインで制約されたタスクを実行するためにしばしばデプロイされる。ドメイン認証は、言語モデルのドメイン外動作を正確に特徴付ける保証である。次に, 逆境界を証明として提供するVALIDを, 単純かつ効果的なアプローチとして提案する。
論文参考訳（メタデータ） (Wed, 26 Feb 2025 17:13:19 GMT)
任意の入力がある状況下で狙ったドメイン以外の回答をしないようにする手法、Verified Adversarial LLM Output via Iterative Dismissal (VALID)の提案。

Baseline Defenses for Adversarial Attacks Against Aligned Language Models

Baseline Defenses for Adversarial Attacks Against Aligned Language Models [109.8]
我々は,大規模言語モデルに対する主要な敵攻撃に対するベースライン防衛戦略を評価した。検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。驚くべきことに、他のドメインで予想されるよりも、フィルタリングや前処理で成功しています。
論文参考訳（メタデータ） (Fri, 1 Sep 2023 17:59:44 GMT)
LLMへの攻撃に対する対応に関する研究、detection (perplexity based), input preprocessing (paraphrase and retokenization), adversarial trainingが対象
「Interestingly, in this initial analysis, we find much more success with filtering and preprocessing strategies than in the vision domain, and that adaptive attacks against such defenses are non-trivial.」「The domain of LLMs is appreciably different from “classical” problems in adversarial machine learning.」という記載が印象的。

Generating Adversarial Examples Robust to Round-Trip Translation

Lost In Translation: Generating Adversarial Examples Robust to Round-Trip Translation [66.3]
本研究は, ラウンドトリップ翻訳における現在のテキスト対逆攻撃の堅牢性に関する包括的研究である。筆者らは,現在最先端のテキストベースの6つの敵攻撃が,ラウンドトリップ翻訳後の有効性を維持していないことを実証した。本稿では,機械翻訳を逆例生成のプロセスに組み込むことにより,この問題に対する介入に基づく解決策を提案する。
論文参考訳（メタデータ） (Mon, 24 Jul 2023 04:29:43 GMT)
多くのadversarial attacks 手法が機械翻訳システムを用いたラウンドトリップ翻訳（日→英→日のようにある言語を介して元の言語に戻す翻訳）下で有効性が減じるため、それを乗り越える手法を提案したとの報告。
「We demonstrate that round trip translation can be used as a cheap and effective defence against current textual adversarial attacks.」というのは機械翻訳モデルを作っている側としては面白い話だが、「we find that round-trip translation defensive capabilities can be bypassed by our proposed attack-agnostic algorithm」というのにいたちごっこさ感じる。
リポジトリはGitHub – neelbhandari6/NMT_Text_Attack: This repository is the implementation of the paper ‘Lost In Translation’.

Text Adversarial Purification as Defense against Adversarial Attacks

Text Adversarial Purification as Defense against Adversarial Attacks [46.8]
敵の浄化は敵の攻撃に対する防御機構として成功している。本稿では,テキストの敵対的攻撃に対する防御に焦点を当てた,新たな敵対的浄化手法を提案する。本研究では, Textfooler や BERT-Attack などの強力な攻撃手法を用いて, 提案手法を検証した。
論文参考訳（メタデータ） (Wed, 3 May 2023 09:09:22 GMT)
単語置き換えの攻撃を防御するため、[MASK]を入れる or [MASK]に置き換える処理を行った後、MLMによって復元、データを浄化するプロセスを提案。
シンプルな戦略だが効果は有るようで、多くのベンチマークで防御に成功している。

A Survey of Adversarial Defences and Robustness in NLP

A Survey of Adversarial Defences and Robustness in NLP [26.3]
深層ニューラルネットワークは、入力データにおける敵の摂動に耐えるほど弾力性がないことが、ますます明らかになっている。 NLPにおける敵防御のためのいくつかの手法が提案され、異なるNLPタスクに対応している。本調査は,過去数年間にNLPにおける敵防衛のために提案された様々な手法を,新しい分類法を導入して検討することを目的とする。
論文参考訳（メタデータ） (Tue, 18 Apr 2023 05:00:29 GMT)
NLPにおける敵対的攻撃への防御に関するサーベイ
conclusionがサーベイ自体のサマリになっておりざっくりと説明するには良い資料な気がする

テキストバックドア攻撃の防御ツールキットOpenBackdoor

A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks [72.7]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文参考訳（メタデータ） (Fri, 17 Jun 2022 02:29:23 GMT)
- バックドア攻撃（データセット、事前学習モデル、ファインチューニング後のモデル）を整理、ツールキットを開発し、防御手法CUBE（ClUstering-based poisoned sample ﬁltering for Backdoor-freE trainingを）提案。
  - CUBEはデータセットのクラスタリングを行い主要なクラスタを残すアプローチ。攻撃用のデータはそれ以外に比べて少ない事を仮定・利用している。
- リポジトリはGitHub – thunlp/OpenBackdoor: An open-source toolkit for textual backdoor attack and defense

ブラックボックスモデルの頑健性向上

How to Robustify Black-Box ML Models? A Zeroth-Order Optimization Perspective [74.5]
入力クエリと出力フィードバックだけでブラックボックスモデルを堅牢化する方法? 我々は,ブラックボックスモデルに適用可能な防御操作の一般的な概念を提案し,一階法(FO)認定防衛技術である denoized smoothing (DS) のレンズを用いて設計する。我々は,Zeroth-Order AutoEncoder-based Denoised Smoothingが既存のベースラインよりも精度,堅牢性,クエリの複雑さを向上できることを実証的に示す。
論文参考訳（メタデータ） (Sun, 27 Mar 2022 03:23:32 GMT)
- ブラックボックスモデルに対して頑健性を向上させるという論文。とても実用的な設定ではあるが本当にできるのか？という思いもある。
- リポジトリはGitHub – damon-demon/Black-Box-Defense: Robustify Black-Box Models (ICLR’22 – Spotlight)

RAWイメージを介した敵対的攻撃の防御

All You Need is RAW: Defending Against Adversarial Attacks with Camera Image Pipelines [31.0]
画像と画像のマッピングのためのモデルに依存しない対角防御法を提案する。この方法は、入力されたRGB画像をRAW空間にマッピングし、学習したカメラ画像信号処理パイプラインを用いて出力RGBにマッピングする。その結果、余分な再トレーニングを伴わずに未確認タスクに一般化する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 16 Dec 2021 21:54:26 GMT)
- RAWイメージを介することでAdversarial Attackからの防御を行う手法の提案。自然なやり方に思える。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31