コンテンツへスキップ
- International AI Safety Report 2025: Second Key Update: Technical Safeguards and Risk Management [115.9]
2025年の国際AI安全レポートの第2の更新は、この1年で汎用AIリスク管理の新しい展開を評価している。 研究者、公共機関、AI開発者が汎用AIのリスク管理にどのようにアプローチしているかを調べる。
論文 参考訳(メタデータ) (Tue, 25 Nov 2025 03:12:56 GMT)
- AI Safety Reportの最新版。ハイライトは非常に参考になるが、「Open-weight models lag less than a year behind leading closed-weight models, shifting the risk landscape.」という記載は重要に思える。
- 攻撃面で「tests show that sophisticated attackers can still bypass safeguards around half of the time when given 10 attempts.」、「As few as 250 malicious documents inserted into training data can allow attackers to trigger undesired model behaviours with specific prompts. Some research shows that such data poisoning attacks require relatively few resources to carry out, regardless of model size.」な状況だが、「The number of AI companies with Frontier AI Safety Frameworks more than doubled in 2025: at least 12 companies now have such frameworks.」という進み具合も興味深い。
- SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.9]
LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。 私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。 我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
論文 参考訳(メタデータ) (Thu, 20 Nov 2025 03:41:06 GMT)
- LRMを対象とした安全性ベンチマーク評価。
- 「For small models (e g , Qwen-3- 0.6B), Thinking increases risk, consistent with prior observations that reasoning traces can introduce hazards. For mid-scale models, however, Thinking yields safer behavior—lower risk and execution levels and higher refusal rates—suggesting that structured reasoning can be leveraged to reduce exposure when model capacity is sufficient. At very large scale, this pattern reverses: the MoE-based Qwen-235B shows higher risk levels under Thinking, reflecting an “always-help” tendency that makes unsafe responses more actionable. In short, reasoning improves safety up to a point; beyond that, greater capability without stronger alignment can raise exposure.」とモデルサイズとの関係が興味深い。
- NVIDIA Nemotron Parse 1.1 [52.6]
Nemotron-Parse-1.1は軽量な文書解析とOCRモデルである。 一般的なOCR、マークダウンフォーマット、構造化テーブル解析、画像、チャート、ダイアグラムからのテキスト抽出など、改善された機能を提供する。 我々は、より広範なNemotron-VLM-v2データセットの一部として、トレーニングデータのサブセットとともに、Huggingfaceのモデルウェイトと最適化されたNIMコンテナを公開しています。
論文 参考訳(メタデータ) (Tue, 25 Nov 2025 16:41:25 GMT)
- 「Nemotron-Parse-1.1 follows an encoder-decoder architecture with 885M parameters, including a compact 256M-parameter language decoder.」というOCR関連モデル。(タスクにフィットしているということもあるのだろうが)decoder onlyではない。
- リポジトリはnvidia/NVIDIA-Nemotron-Parse-v1.1-TC · Hugging Face
- Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.6]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。 我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文 参考訳(メタデータ) (Mon, 24 Nov 2025 08:46:36 GMT)
- 「Rather than merely offering a smaller LLM, this work re-imagines small models from the perspective of real- world latency and throughput, systematically explor- ing the key architectural and training factors essential for developing latency-optimal SLMs. By analyzing optimal depth–width ratios, strategically combining efficient attention operators through an evolutionary search framework, and enhancing training with weight normalization and meta tokens, we establish a comprehensive framework that significantly improves both real-device latency and accuracy, and deliver the Nemotron-Flash model family that advances the SOTA accuracy–latency frontier.」とアーキテクチャ設計に踏み込んでのSLMの探求
- リポジトリはnvidia/Nemotron-Flash-3B · Hugging Face