International AI Safety Report 2025: Second Key Update: Technical Safeguards and Risk Management 

  • International AI Safety Report 2025: Second Key Update: Technical Safeguards and Risk Management [115.9]
    2025年の国際AI安全レポートの第2の更新は、この1年で汎用AIリスク管理の新しい展開を評価している。 研究者、公共機関、AI開発者が汎用AIのリスク管理にどのようにアプローチしているかを調べる。
    論文  参考訳(メタデータ)   (Tue, 25 Nov 2025 03:12:56 GMT)
  • AI Safety Reportの最新版。ハイライトは非常に参考になるが、「Open-weight models lag less than a year behind leading closed-weight models, shifting the risk landscape.」という記載は重要に思える。
  • 攻撃面で「tests show that sophisticated attackers can still bypass safeguards around half of the time when given 10 attempts.」、「As few as 250 malicious documents inserted into training data can allow attackers to trigger undesired model behaviours with specific prompts. Some research shows that such data poisoning attacks require relatively few resources to carry out, regardless of model size.」な状況だが、「The number of AI companies with Frontier AI Safety Frameworks more than doubled in 2025: at least 12 companies now have such frameworks.」という進み具合も興味深い。

SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models 

  • SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.9]
    LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。 私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。 我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
    論文  参考訳(メタデータ)   (Thu, 20 Nov 2025 03:41:06 GMT)
  • LRMを対象とした安全性ベンチマーク評価。
  • 「For small models (e g , Qwen-3- 0.6B), Thinking increases risk, consistent with prior observations that reasoning traces can introduce hazards. For mid-scale models, however, Thinking yields safer behavior—lower risk and execution levels and higher refusal rates—suggesting that structured reasoning can be leveraged to reduce exposure when model capacity is sufficient. At very large scale, this pattern reverses: the MoE-based Qwen-235B shows higher risk levels under Thinking, reflecting an “always-help” tendency that makes unsafe responses more actionable. In short, reasoning improves safety up to a point; beyond that, greater capability without stronger alignment can raise exposure.」とモデルサイズとの関係が興味深い。

SafeToolBench: Pioneering a Prospective Benchmark to Evaluating Tool Utilization Safety in LLMs

  • SafeToolBench: Pioneering a Prospective Benchmark to Evaluating Tool Utilization Safety in LLMs [35.2]
    大規模言語モデル(LLM)は、外部環境において様々なツールを自律的に呼び出す上で、優れたパフォーマンスを示している。 本稿では, LLMツール利用の安全性を評価するために, ツールを直接実行することによって生じる不可逆的な害を避けることを目的としている。 ツール利用セキュリティを総合的に評価する最初のベンチマークであるSafeToolBenchを提案する。 ツール利用セキュリティに対するLCMの認識を3つの観点から向上することを目的とした,新しいフレームワークであるSafeInstructToolも提案する。
    論文  参考訳(メタデータ)   (Tue, 09 Sep 2025 01:31:25 GMT)
  • LLMのツール利用におけるセキュリティを評価するベンチマーク、「we further pro- pose SafeInstructTool, the first framework to evaluate risks across these three perspectives from nine dimensions: User Instruction Perspective (Data Sensitivity, Harmfulness of the Instruction, Urgency of the Instruction, Frequency of Tool Utilization in the Instruction), Tool Itself Perspective (Key Sensitivity, Type of Operation, Impact Scope of the Operation) and Joint Instruction-Tool Perspective (Alignment Between Instruction and Tool, Value Sensitivity). Thus, it can enhance LLMs’ awareness of tool utilization safety, leading to more safer and trustworthy language agents.」とのこと
  • リポジトリはGitHub – BITHLP/SafeToolBench: [2025 EMNLP Findings] SafeToolBench: Pioneering a Prospective Benchmark to Evaluating Tool Utilization Safety in LLMs

A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment

  • A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment [291.0]
    本稿では, LLM のトレーニング, 展開, 商業化のプロセス全体を通して, 安全問題を体系的に検討する “フルスタック” の安全性の概念を紹介する。 我々の研究は800以上の論文を網羅的にレビューし、包括的カバレッジとセキュリティ問題の体系的な組織化を確保しています。 本研究は,データ生成の安全性,アライメント技術,モデル編集,LLMベースのエージェントシステムなど,有望な研究方向を特定する。
    論文  参考訳(メタデータ)   (Tue, 22 Apr 2025 05:02:49 GMT)
  • 安全性に関する包括的な調査
  • リポジトリにも期待大 bingreeky/full-stack-llm-safety · GitHub