    産業 4.0 は、人工知能/機械学習(AI/ML)とデジタルツイン(DT)技術の統合によって、複雑なロボットが台頭するのを目撃している。 本稿では,AIモデルとDTモデルによって実現されたロボットを対象としたプライバシ攻撃について調査する。
  • デジタルツインに着目した攻撃に関するサーベイ
  • 想定しているフレームワークは「Physical spaces comprise robotic sensors that collect data.Virtual space utilizes the data collected from physical space via a communication link between them.Predictions are generated by the AI models within vitual space, which are then analyzed before decisions are made by stakeholders.」

Chain of Attack

  • Chain of Attack: a Semantic-Driven Contextual Multi-Turn attacker for LLM [27.0]
    大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて顕著な性能を発揮している。 CoAは、アタックポリシーを適応的に調整する意味駆動型コンテキスト型マルチターンアタック手法である。 我々は、CoAがLLMの脆弱性を効果的に暴露し、既存の攻撃方法より優れていることを示す。
  • マルチターンな攻撃方法
  • リポジトリはGitHub – YancyKahn/CoA: CoA: Context-Aware based Chain of Attack for Multi-Turn Dialogue LLM

Against The Achilles’ Heel: A Survey on Red Teaming for Generative Models 

  • Against The Achilles’ Heel: A Survey on Red Teaming for Generative Models [60.2]
    赤いチーム作りの分野は急速に成長しており、パイプライン全体をカバーする包括的な組織の必要性を強調している。 120以上の論文を調査し,言語モデル固有の能力に根ざした,きめ細かい攻撃戦略の分類を導入した。 我々は,様々な自動レッド・チーム・アプローチを統合するサーチ・フレームワークを開発した。
  • 社会実装において重要なRed Teamingに関するサーベイ。「Figure 2: An overview of GenAI red teaming flow.」から始まる構成がわかりやすい。CC-BYなのもうれしいところ。

Many-shot jailbreaking \ Anthropic
「We found that the effectiveness of attacks, and of in-context learning more generally, could be characterized by simple power laws.」というとてもシンプルな攻撃が有効であったりもして攻撃戦略も日々進化している状況で安全性を確保していくのはとても大変。

Threats, Attacks, and Defenses in Machine Unlearning: A Survey

  • Threats, Attacks, and Defenses in Machine Unlearning: A Survey [15.1]
    マシン・アンラーニング(MU)はAIの安全性を向上させる可能性に対して大きな注目を集めている。 この調査は、機械学習における脅威、攻撃、防衛に関する広範な研究のギャップを埋めようとしている。
  • Machine unlearning領域の攻撃や防御のサーベイ

Understanding and Mitigating the Threat of Vec2Text to Dense Retrieval Systems

Do Membership Inference Attacks Work on Large Language Models?

  • Do Membership Inference Attacks Work on Large Language Models? [145.9]
    メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。 我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。 様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
  • LLMへのメンバシップ推論攻撃は有効ではないのでは?という報告。「We identify specific settings where LLMs have been shown to be vulnerable to membership inference and show that the apparent success in such settings can be attributed to a distribution shift, such as when members and non-members are drawn from the seemingly identical domain but with different temporal ranges.」と手厳しい。結論にも書いてあったが、こういった特性を理解せずに何かに応用するのは危険であると思う。
  • リポジトリはiamgroot42/mimir: Python package for measuring memorization in LLMs (github.com)

Prompt Injection Attacks and Defenses in LLM-Integrated Applications 

Baseline Defenses for Adversarial Attacks Against Aligned Language Models

  • Baseline Defenses for Adversarial Attacks Against Aligned Language Models [109.8]
    我々は,大規模言語モデルに対する主要な敵攻撃に対するベースライン防衛戦略を評価した。 検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。 驚くべきことに、他のドメインで予想されるよりも、フィルタリングや前処理で成功しています。
  • LLMへの攻撃に対する対応に関する研究、detection (perplexity based), input preprocessing (paraphrase and retokenization), adversarial trainingが対象
  • 「Interestingly, in this initial analysis, we find much more success with filtering and preprocessing strategies than in the vision domain, and that adaptive attacks against such defenses are non-trivial.」「The domain of LLMs is appreciably different from “classical” problems in adversarial machine learning.」という記載が印象的。

GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher

  • GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher [89.5]
    実験により、いくつかの安全領域において、GPT-4の安全性アライメントをバイパスするために、ある暗号がほぼ100%の時間で成功することが示された。 本稿では,ロールプレイのみを使用し,自然言語によるいくつかの実演を行い,これを誘発する新しいSelfCipherを提案する。
  • 暗号を介する事でGPT-4の安全対策を回避できたという報告。最初にLLMに暗号化と復号のルールを教えこむプロセスなのが面白い。
  • リポジトリはGitHub – RobustNLP/CipherChat: A framework to evaluate the generalization capability of safety alignment for LLMs


  • MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.7]
    機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。 我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。 9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
  • あまり見ないマルチアタックに対する評価フレームワークの提案。CIFAR-10が対象のよう。
  • プロジェクトサイトはmultirobustbench.github.io