All Languages Matter: On the Multilingual Safety of Large Language Models

  • All Languages Matter: On the Multilingual Safety of Large Language Models [101.3]
    我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。 XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。 本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
    論文  参考訳(メタデータ)   (Mon, 2 Oct 2023 05:23:34 GMT)
  • LLMへの攻撃に対するベンチマーク、「Our empirical studies show that these LLMs perform much unsafer in non-English languages than in English, calling for the development of safety alignment beyond English.」とのことでLLMが広く使われるにつれ多言語の考慮はとても重要になりそう。
  • リポジトリはGitHub – Jarviswang94/Multilingual_safety_benchmark: Multilingual safety benchmark for Large Language Models

Self-Supervised Learningに対する10個の課題

  • 10 Security and Privacy Problems in Self-Supervised Learning [31.0]
    自己教師付き学習は、大量のラベルのないデータを使用してエンコーダを事前訓練することを目的としている。 本章では,自己教師型学習における学習済みエンコーダのセキュリティとプライバシに関する10の基本的な問題について論じる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 28 Oct 2021 21:45:53 GMT)
    • 様々なドメインの自己教師有り学習の概要と10個の攻撃やプライバシーへの問題に関する報告。概要を把握するのによい資料。取り上げられている問題、攻撃、課題は下記の通り。
      • Confidentialityの課題
        • Data Tracing/Auditing
        • Membership Inference Attack
        • Reconstruction Attack
        • Attribute/Property Inference Attack
        • Encoder Hyperparameter Stealing Attack
        • Encoder Parameter Stealing Attack
      • Integrityへの攻撃
        • Backdoor Attacks
        • Poisoning Attack
        • Evasion Attack
      • Availabilityの課題
        •  Resource Depletion Attack

AutoML(Neural Architecture Search)に対する攻撃

  • On the Security Risks of AutoML [38.0]
    Neural Architecture Search(NAS)は、与えられたタスクに適したモデルを自動的に検索する、新たな機械学習パラダイムである。 手動で設計したモデルと比較すると、NAS生成モデルは様々な悪意ある攻撃に対して大きな脆弱性を被る傾向にある。 本稿では,セル深さの増大やスキップ接続の抑制など,このような欠点を軽減するための対策の可能性について論じる。
    論文  参考訳(メタデータ)   (Tue, 12 Oct 2021 14:04:15 GMT)
    • Neural Architecture Searchによるモデルは手動で設計した手法と比較して悪意のある攻撃の影響を受けやすいとの報告。NASでは学習時の早い段階で候補のモデルを評価するため、速く収束するモデルが選ばれる傾向があり、攻撃が容易とのこと。

Poison Ink: 目に見えないバックドア攻撃

  • Poison Ink: Robust and Invisible Backdoor Attack [122.5]
    我々はポイズン・インクと呼ばれる頑健で目に見えないバックドア攻撃を提案する。 具体的には、まず、画像構造を標的の中毒領域として利用し、それらを毒インク(情報)で満たしてトリガーパターンを生成する。 既存の一般的なバックドア攻撃方法と比較して、Poison Inkはステルスネスとロバストネスの両方で優れている。
    論文  参考訳(メタデータ)   (Thu, 5 Aug 2021 09:52:49 GMT)
    • 画像の構造(物体の輪郭)に情報を埋め込んだバックドア攻撃の提案。防御手法の多くが仮定している「静的パッチが埋め込まれた状況」とは異なり、動的な場所のため防御が難しいとのこと。
    • 論文中にも書かれている通り「DNNは浅い層で構造を捉えやすいが、最終的にはテクスチャ情報を分類の重要な手掛かりにしている」という特徴をうまく利用している。

対照学習(Contrastive Learning )への攻撃

  • Poisoning and Backdooring Contrastive Learning [26.1]
    CLIPのような対照的な学習方法は、ノイズの多いデータセットと未処理のデータセットでトレーニングする。 この慣行がバックドアや毒殺を重大な脅威にしていることを示す。
    論文  参考訳(メタデータ)   (Thu, 17 Jun 2021 17:20:45 GMT)
    • ノイジーなラベル無しデータでのContrastive Learningに対して非常に少数の事例を用いて攻撃が可能との報告。特定の入力に対する誤分類であればデータセットの0.0001%を制御することによって可能とのこと。
    • 論文中に記載された通り防御手段も存在するがインターネットからデータを集めてきての学習はリスクがある。