Baseline Defenses for Adversarial Attacks Against Aligned Language Models

  • Baseline Defenses for Adversarial Attacks Against Aligned Language Models [109.8]
    我々は,大規模言語モデルに対する主要な敵攻撃に対するベースライン防衛戦略を評価した。 検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。 驚くべきことに、他のドメインで予想されるよりも、フィルタリングや前処理で成功しています。
    論文  参考訳(メタデータ)   (Fri, 1 Sep 2023 17:59:44 GMT)
  • LLMへの攻撃に対する対応に関する研究、detection (perplexity based), input preprocessing (paraphrase and retokenization), adversarial trainingが対象
  • 「Interestingly, in this initial analysis, we find much more success with filtering and preprocessing strategies than in the vision domain, and that adaptive attacks against such defenses are non-trivial.」「The domain of LLMs is appreciably different from “classical” problems in adversarial machine learning.」という記載が印象的。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です