Prompt Injection

  • More than you’ve asked for: A Comprehensive Analysis of Novel Prompt Injection Threats to Application-Integrated Large Language Models [64.7]
    検索とAPI呼び出し機能を備えた大規模言語モデルの拡張は、全く新しい攻撃ベクトルを誘導することを示す。 これらのLSMは、敵によって事前に注入され選択された悪意のあるプロンプトを含むWebから検索された有毒なコンテンツを処理する。
    論文  参考訳(メタデータ)   (Thu, 23 Feb 2023 17:14:38 GMT)
  • プロンプトインジェクションに関する論文、指摘されている通りApplication-Integrated LLMでは大きな脅威になりうる(そして対策も難しい)。この論文では信頼できない外部ソースを取りに行かせるタイプの攻撃をIndirect Prompt Injectionと呼んでおり、Bingの新機能のようにデータを取得しに行くタイプのLLMでは問題になりそう(もちろん、将来ToolformerのようにAPIを呼びに行くようなAIではさらに問題が大きい)
  • 下記のようにうまくプロンプトを作ろうとする方向性もあれば、攻撃できないかという方向性もあり、研究は様々だと思う。(解析的に明らかにしにくい分野でもあり多方面からの研究は非常に重要だとも思う)
  • Prompting GPT-3 To Be Reliable [117.2]
    この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。 GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
    論文  参考訳(メタデータ)   (Mon, 17 Oct 2022 14:52:39 GMT)
  • GitHub – NoviScl/GPT3-Reliability

“Real Attackers Don’t Compute Gradients”: Bridging the Gap Between Adversarial ML Research and Practice

  • “Real Attackers Don’t Compute Gradients”: Bridging the Gap Between Adversarial ML Research and Practice [10.8]
    研究者と実践者の間に明らかなギャップがあることから,本論文は2つの領域を橋渡しすることを目的としている。 まず実世界のケーススタディを3つのケーススタディで提示し、そのケーススタディから、未知の、あるいは無視された実用的な洞察を導き出すことができる。 次に、トップセキュリティカンファレンスで最近公開されたすべての敵対的ML論文を分析し、ポジティブなトレンドと盲点を強調します。
    論文  参考訳(メタデータ)   (Thu, 29 Dec 2022 14:11:07 GMT)
  • 機械学習を利用したシステムへの攻撃に関する非常に広範なサーベイ。研究と実務のギャップがわかる内容。セキュリティ関連一般に言えることかもだが、悪意のある攻撃からの防御にはシステム全体の考慮が必要。
  • このサーベイのリソースはReal Attackers Don’t Compute Gradients (real-gradients.github.io)で公開されている。また、Welcome to the Artificial Intelligence Incident Database が参考文献に挙げられており参考になった

On the Security Vulnerabilities of Text-to-SQL Models 

  • On the Security Vulnerabilities of Text-to-SQL Models [25.3]
    2つの商用ブラックボックスのText-to-sqlモジュールは悪意のあるコードを生成するために操作可能であることを示す。 これは、NLPモデルが野生における攻撃防御として利用される危険性の初めての実証である。
    論文  参考訳(メタデータ)   (Mon, 28 Nov 2022 14:38:45 GMT)
  • Text-to-SQLモデルに対する攻撃、一定の対策がなされた商用にシステムに対しても攻撃が成功できているのが興味深い。

Backdoor Attacks in the Supply Chain of Masked Image Modeling 

  • Backdoor Attacks in the Supply Chain of Masked Image Modeling [26.9]
    Masked Image Modeling (MIM)は、イメージ事前トレーニングのための自己教師付き学習(SSL)に革命をもたらす。 本稿では,バックドア攻撃のレンズを用いてMIMの最初のセキュリティリスク定量化を行う。 評価の結果、MIMで構築したモデルは、リリースおよびダウンストリームフェーズにおける既存のバックドアアタックに対して脆弱であることがわかった。
    論文  参考訳(メタデータ)   (Tue, 4 Oct 2022 14:27:42 GMT)
    • MIM(Masked Image Modeling)を用いたモデルに対し、構築過程ごとにリスク分析を行った論文。驚きの結果というわけではないが、攻撃方法(前提)の整理がとても参考になる。