- Against The Achilles’ Heel: A Survey on Red Teaming for Generative Models [60.2]
赤いチーム作りの分野は急速に成長しており、パイプライン全体をカバーする包括的な組織の必要性を強調している。 120以上の論文を調査し,言語モデル固有の能力に根ざした,きめ細かい攻撃戦略の分類を導入した。 我々は,様々な自動レッド・チーム・アプローチを統合するサーチ・フレームワークを開発した。
論文 参考訳(メタデータ) (Sun, 31 Mar 2024 09:50:39 GMT) - 社会実装において重要なRed Teamingに関するサーベイ。「Figure 2: An overview of GenAI red teaming flow.」から始まる構成がわかりやすい。CC-BYなのもうれしいところ。
Many-shot jailbreaking \ Anthropic
我々は、有用で無害で正直なAIアシスタントをターゲットにした多発ジェイルブレーキング(MSJ)を研究した。MSJは数発のジェイルブレークの概念を拡張し、攻撃者はモデルが通常答えることを拒否する一連のクエリを含む架空の対話でモデルをプロンプトする。
「We found that the effectiveness of attacks, and of in-context learning more generally, could be characterized by simple power laws.」というとてもシンプルな攻撃が有効であったりもして攻撃戦略も日々進化している状況で安全性を確保していくのはとても大変。