What Matters For Safety Alignment? 

  • What Matters For Safety Alignment? [38.9]
    本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。 本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。 LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
    論文  参考訳(メタデータ)   (Wed, 07 Jan 2026 12:31:52 GMT)
  • 「We systematically investigate and compare the influence of six critical intrinsic model characteristics and three external attack techniques. Our large-scale evaluation is conducted using 32 recent, popular LLMs and LRMs across thirteen distinct model families, spanning a parameter scale from 3B to 235B.」と安全性からのLLM/LRMの評価。「The top-three safest families OpenAI GPT-OSS [5], Alibaba Qwen3-Next [27], and Google Gemma-3 [28] are dramatically safer than the top-three most vulnerable Deepseek- R1Distilled [2], Mistral-v0.3 [29], and Seed-OSS [30] families. These disparities can be interpreted as indicators of varying institutional investments in safety research and relative maturity in model training pipelines and infrastructures.」としている。
  • 基本的のは公開モデルが対象のよう。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です