コンテンツへスキップ
- When Should We Introduce Safety Interventions During Pretraining? [100.4]
先行研究は、有害な内容の表現などの事前訓練の介入が、結果のモデルの安全性を大幅に向上させることを示した。 介入の導入は一般的に、過度な拒絶率の増加を伴わない、より堅牢なモデルをもたらす。 また、より安全な世代に向けたモデルのステアビリティにも明らかなメリットがあると考えています。
論文 参考訳(メタデータ) (Sun, 11 Jan 2026 22:38:17 GMT)
- 「Our experiments show that incorporating safety pretraining interventions indeed help, and the clearest result is that there is much improved robustness after benign finetuning when pretraining interventions are introduced earlier (e g , at 0% or 20% of the pretraining tokens). This also manifests into impacts on the model’s underlying representation geometry; incorporating interventions and metadata earlier in pretraining leads to greater separation of safe vs unsafe content.」とのこと。
- タイミングによって結構な差が出ているのが意外。
- CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [61.0]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。 CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。 このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (Wed, 14 Jan 2026 23:06:35 GMT)
- コンピュータ利用エージェントに対するセキュリティ向上策の提案、「•Dual-LLM Architecture for CUAs: We design the first Dual-LLM architecture adapted for Computer Use Agents, using Single-Shot Planning with an Observe-Verify-Act paradigm to provide Control Flow Integrity guarantees.」、「Branch Steering & Defenses: We identify Branch Steering as a distinct data-flow threat vector, where attackers manipulate visual cues (e g , fake buttons) to fool the agent into choosing a dangerous, yet valid, path within its pre-written plan. We demonstrate its feasibility, and evaluate redundancy-based mitigation, highlighting the fundamental distinction between control-flow and data-flow security in isolated architectures.」
- Shh, don’t say that! Domain Certification in LLMs [124.6]
大きな言語モデル(LLM)は狭いドメインで制約されたタスクを実行するためにしばしばデプロイされる。 ドメイン認証は、言語モデルのドメイン外動作を正確に特徴付ける保証である。 次に, 逆境界を証明として提供するVALIDを, 単純かつ効果的なアプローチとして提案する。
論文 参考訳(メタデータ) (Wed, 26 Feb 2025 17:13:19 GMT)
- 任意の入力がある状況下で狙ったドメイン以外の回答をしないようにする手法、Verified Adversarial LLM Output via Iterative Dismissal (VALID)の提案。
- Baseline Defenses for Adversarial Attacks Against Aligned Language Models [109.8]
我々は,大規模言語モデルに対する主要な敵攻撃に対するベースライン防衛戦略を評価した。 検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。 驚くべきことに、他のドメインで予想されるよりも、フィルタリングや前処理で成功しています。
論文 参考訳(メタデータ) (Fri, 1 Sep 2023 17:59:44 GMT)
- LLMへの攻撃に対する対応に関する研究、detection (perplexity based), input preprocessing (paraphrase and retokenization), adversarial trainingが対象
- 「Interestingly, in this initial analysis, we find much more success with filtering and preprocessing strategies than in the vision domain, and that adaptive attacks against such defenses are non-trivial.」「The domain of LLMs is appreciably different from “classical” problems in adversarial machine learning.」という記載が印象的。
- Lost In Translation: Generating Adversarial Examples Robust to Round-Trip Translation [66.3]
本研究は, ラウンドトリップ翻訳における現在のテキスト対逆攻撃の堅牢性に関する包括的研究である。 筆者らは,現在最先端のテキストベースの6つの敵攻撃が,ラウンドトリップ翻訳後の有効性を維持していないことを実証した。 本稿では,機械翻訳を逆例生成のプロセスに組み込むことにより,この問題に対する介入に基づく解決策を提案する。
論文 参考訳(メタデータ) (Mon, 24 Jul 2023 04:29:43 GMT)
- 多くのadversarial attacks 手法が機械翻訳システムを用いたラウンドトリップ翻訳(日→英→日のようにある言語を介して元の言語に戻す翻訳)下で有効性が減じるため、それを乗り越える手法を提案したとの報告。
- 「We demonstrate that round trip translation can be used as a cheap and effective defence against current textual adversarial attacks.」というのは機械翻訳モデルを作っている側としては面白い話だが、「we find that round-trip translation defensive capabilities can be bypassed by our proposed attack-agnostic algorithm」というのにいたちごっこさ感じる。
- リポジトリはGitHub – neelbhandari6/NMT_Text_Attack: This repository is the implementation of the paper ‘Lost In Translation’.
- Text Adversarial Purification as Defense against Adversarial Attacks [46.8]
敵の浄化は敵の攻撃に対する防御機構として成功している。 本稿では,テキストの敵対的攻撃に対する防御に焦点を当てた,新たな敵対的浄化手法を提案する。 本研究では, Textfooler や BERT-Attack などの強力な攻撃手法を用いて, 提案手法を検証した。
論文 参考訳(メタデータ) (Wed, 3 May 2023 09:09:22 GMT)
- 単語置き換えの攻撃を防御するため、[MASK]を入れる or [MASK]に置き換える処理を行った後、MLMによって復元、データを浄化するプロセスを提案。
- シンプルな戦略だが効果は有るようで、多くのベンチマークで防御に成功している。
- A Survey of Adversarial Defences and Robustness in NLP [26.3]
深層ニューラルネットワークは、入力データにおける敵の摂動に耐えるほど弾力性がないことが、ますます明らかになっている。 NLPにおける敵防御のためのいくつかの手法が提案され、異なるNLPタスクに対応している。 本調査は,過去数年間にNLPにおける敵防衛のために提案された様々な手法を,新しい分類法を導入して検討することを目的とする。
論文 参考訳(メタデータ) (Tue, 18 Apr 2023 05:00:29 GMT)
- NLPにおける敵対的攻撃への防御に関するサーベイ
- conclusionがサーベイ自体のサマリになっておりざっくりと説明するには良い資料な気がする
- A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks [72.7]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。 また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (Fri, 17 Jun 2022 02:29:23 GMT)
- How to Robustify Black-Box ML Models? A Zeroth-Order Optimization Perspective [74.5]
入力クエリと出力フィードバックだけでブラックボックスモデルを堅牢化する方法? 我々は,ブラックボックスモデルに適用可能な防御操作の一般的な概念を提案し,一階法(FO)認定防衛技術である denoized smoothing (DS) のレンズを用いて設計する。 我々は,Zeroth-Order AutoEncoder-based Denoised Smoothingが既存のベースラインよりも精度,堅牢性,クエリの複雑さを向上できることを実証的に示す。
論文 参考訳(メタデータ) (Sun, 27 Mar 2022 03:23:32 GMT)
- All You Need is RAW: Defending Against Adversarial Attacks with Camera Image Pipelines [31.0]
画像と画像のマッピングのためのモデルに依存しない対角防御法を提案する。 この方法は、入力されたRGB画像をRAW空間にマッピングし、学習したカメラ画像信号処理パイプラインを用いて出力RGBにマッピングする。 その結果、余分な再トレーニングを伴わずに未確認タスクに一般化する。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 16 Dec 2021 21:54:26 GMT)- RAWイメージを介することでAdversarial Attackからの防御を行う手法の提案。自然なやり方に思える。