Attack – ページ 3 – arXiv最新論文の紹介

Do Membership Inference Attacks Work on Large Language Models?

Do Membership Inference Attacks Work on Large Language Models? [145.9]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文参考訳（メタデータ） (Mon, 12 Feb 2024 17:52:05 GMT)
LLMへのメンバシップ推論攻撃は有効ではないのでは？という報告。「We identify specific settings where LLMs have been shown to be vulnerable to membership inference and show that the apparent success in such settings can be attributed to a distribution shift, such as when members and non-members are drawn from the seemingly identical domain but with different temporal ranges.」と手厳しい。結論にも書いてあったが、こういった特性を理解せずに何かに応用するのは危険であると思う。
リポジトリはiamgroot42/mimir: Python package for measuring memorization in LLMs (github.com)

Prompt Injection Attacks and Defenses in LLM-Integrated Applications

Prompt Injection Attacks and Defenses in LLM-Integrated Applications [63.9]
本稿では,インジェクション攻撃とその防御を形式化する枠組みを提案する。我々のフレームワークは、既存の攻撃を組み合わせることで、新たな攻撃を設計できる。また,迅速なインジェクション攻撃に対する防御を体系化する枠組みを提案する。
論文参考訳（メタデータ） (Thu, 19 Oct 2023 15:12:09 GMT)
LLMに対する攻撃を整理した報告
リポジトリはGitHub – liu00222/Open-Prompt-Injection: Prompt injection attacks and defenses in LLM-integrated applications

Baseline Defenses for Adversarial Attacks Against Aligned Language Models

Baseline Defenses for Adversarial Attacks Against Aligned Language Models [109.8]
我々は,大規模言語モデルに対する主要な敵攻撃に対するベースライン防衛戦略を評価した。検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。驚くべきことに、他のドメインで予想されるよりも、フィルタリングや前処理で成功しています。
論文参考訳（メタデータ） (Fri, 1 Sep 2023 17:59:44 GMT)
LLMへの攻撃に対する対応に関する研究、detection (perplexity based), input preprocessing (paraphrase and retokenization), adversarial trainingが対象
「Interestingly, in this initial analysis, we find much more success with filtering and preprocessing strategies than in the vision domain, and that adaptive attacks against such defenses are non-trivial.」「The domain of LLMs is appreciably different from “classical” problems in adversarial machine learning.」という記載が印象的。

GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher

GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher [89.5]
実験により、いくつかの安全領域において、GPT-4の安全性アライメントをバイパスするために、ある暗号がほぼ100%の時間で成功することが示された。本稿では,ロールプレイのみを使用し,自然言語によるいくつかの実演を行い,これを誘発する新しいSelfCipherを提案する。
論文参考訳（メタデータ） (Sat, 12 Aug 2023 04:05:57 GMT)
暗号を介する事でGPT-4の安全対策を回避できたという報告。最初にLLMに暗号化と復号のルールを教えこむプロセスなのが面白い。
リポジトリはGitHub – RobustNLP/CipherChat: A framework to evaluate the generalization capability of safety alignment for LLMs

MultiRobustBench

MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.7]
機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。 9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
論文参考訳（メタデータ） (Thu, 20 Jul 2023 01:34:16 GMT)
あまり見ないマルチアタックに対する評価フレームワークの提案。CIFAR-10が対象のよう。
プロジェクトサイトはmultirobustbench.github.io

ETHICIST: Extraction THrough loss smoothed soft prompting and calIbrated ConfIdence eSTimationETHICIST:

Ethicist: Targeted Training Data Extraction Through Loss Smoothed Soft Prompting and Calibrated Confidence Estimation [56.6]
本研究では,対象とするトレーニングデータ抽出のためのEthicistという手法を提案する。メモリ化を誘発するため、モデルを固定しながらソフトなプロンプト埋め込みをチューニングする。我々は,最近提案された公開ベンチマークにおいて,エティシストが抽出性能を著しく向上することを示す。
論文参考訳（メタデータ） (Mon, 10 Jul 2023 08:03:41 GMT)
学習データを抽出する手法の提案、GitHub – google-research/lm-extraction-benchmarkで効果を確認とのこと。
リポジトリはGitHub – thu-coai/Targeted-Data-Extraction: Official Code for ACL 2023 paper: “Ethicist: Targeted Training Data Extraction Through Loss Smoothed Soft Prompting and Calibrated Confidence Estimation”

prompt extraction attacks

Prompts Should not be Seen as Secrets: Systematically Measuring Prompt Extraction Attack Success [13.8]
本稿では,迅速な抽出攻撃の成功を測定するための枠組みを提案する。単純なテキストベースの攻撃は、実際に高い確率でプロンプトを明らかにすることができる。
論文参考訳（メタデータ） (Thu, 13 Jul 2023 16:15:08 GMT)
Prompt抽出攻撃が高い確率で成功し、かつ、成功したことを確認可能であるという報告。防御も簡単ではないとのこと。。

Prompt Injection

More than you’ve asked for: A Comprehensive Analysis of Novel Prompt Injection Threats to Application-Integrated Large Language Models [64.7]
検索とAPI呼び出し機能を備えた大規模言語モデルの拡張は、全く新しい攻撃ベクトルを誘導することを示す。これらのLSMは、敵によって事前に注入され選択された悪意のあるプロンプトを含むWebから検索された有毒なコンテンツを処理する。
論文参考訳（メタデータ） (Thu, 23 Feb 2023 17:14:38 GMT)
プロンプトインジェクションに関する論文、指摘されている通りApplication-Integrated LLMでは大きな脅威になりうる（そして対策も難しい）。この論文では信頼できない外部ソースを取りに行かせるタイプの攻撃をIndirect Prompt Injectionと呼んでおり、Bingの新機能のようにデータを取得しに行くタイプのLLMでは問題になりそう（もちろん、将来ToolformerのようにAPIを呼びに行くようなAIではさらに問題が大きい）
下記のようにうまくプロンプトを作ろうとする方向性もあれば、攻撃できないかという方向性もあり、研究は様々だと思う。（解析的に明らかにしにくい分野でもあり多方面からの研究は非常に重要だとも思う）

Prompting GPT-3 To Be Reliable [117.2]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。 GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (Mon, 17 Oct 2022 14:52:39 GMT)
GitHub – NoviScl/GPT3-Reliability

“Real Attackers Don’t Compute Gradients”: Bridging the Gap Between Adversarial ML Research and Practice

“Real Attackers Don’t Compute Gradients”: Bridging the Gap Between Adversarial ML Research and Practice [10.8]
研究者と実践者の間に明らかなギャップがあることから,本論文は2つの領域を橋渡しすることを目的としている。まず実世界のケーススタディを3つのケーススタディで提示し、そのケーススタディから、未知の、あるいは無視された実用的な洞察を導き出すことができる。次に、トップセキュリティカンファレンスで最近公開されたすべての敵対的ML論文を分析し、ポジティブなトレンドと盲点を強調します。
論文参考訳（メタデータ） (Thu, 29 Dec 2022 14:11:07 GMT)
機械学習を利用したシステムへの攻撃に関する非常に広範なサーベイ。研究と実務のギャップがわかる内容。セキュリティ関連一般に言えることかもだが、悪意のある攻撃からの防御にはシステム全体の考慮が必要。
このサーベイのリソースはReal Attackers Don’t Compute Gradients (real-gradients.github.io)で公開されている。また、Welcome to the Artificial Intelligence Incident Database　が参考文献に挙げられており参考になった

On the Security Vulnerabilities of Text-to-SQL Models

On the Security Vulnerabilities of Text-to-SQL Models [25.3]
2つの商用ブラックボックスのText-to-sqlモジュールは悪意のあるコードを生成するために操作可能であることを示す。これは、NLPモデルが野生における攻撃防御として利用される危険性の初めての実証である。
論文参考訳（メタデータ） (Mon, 28 Nov 2022 14:38:45 GMT)
Text-to-SQLモデルに対する攻撃、一定の対策がなされた商用にシステムに対しても攻撃が成功できているのが興味深い。

2026年5月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31