- Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety [85.8]
CoTモニタリングは不完全であり、一部の誤った行動に気づかないままにすることができる。 我々は、既存の安全手法とともに、CoT監視可能性とCoT監視への投資についてさらなる研究を推奨する。 CoTの監視性は脆弱である可能性があるので、フロンティアモデル開発者がCoTの監視性に対する開発決定の影響を考慮することを推奨します。
論文 参考訳(メタデータ) (Tue, 15 Jul 2025 16:43:41 GMT) - CoT監視可能性に関する検討。できそうに思いつつCoTの実際の例を見ると結構難しそうにも思える。
月: 2025年7月
Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training
- Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.6]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。 我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。 私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (Wed, 16 Jul 2025 17:59:24 GMT) - 「Our work demonstrates that through careful algorithm design, including decoupled clipping, dynamic sampling, controlled KL regularization, and periodic reference policy resets, even small- scale models can achieve substantial reasoning improvements without the computational demands of larger architectures.」と小規模モデルでも有効な強化学習手法の提案。
- リポジトリはnvidia/Nemotron-Research-Reasoning-Qwen-1.5B · Hugging Face
Conformal Prediction for Privacy-Preserving Machine Learning
- Conformal Prediction for Privacy-Preserving Machine Learning [83.9]
AESで暗号化されたMNISTデータセットの変種を用いて、暗号化されたドメインに直接適用しても、コンフォーマル予測法が有効であることを示す。 我々の研究は、安全でプライバシーに配慮した学習システムにおける原則的不確実性定量化の基礎を定めている。
論文 参考訳(メタデータ) (Sun, 13 Jul 2025 15:29:14 GMT) - 「We then assess the same model architecture under encryption. When trained on MNIST images encrypted with a fixed key and initialization vector (AES encryption; see Section 3), the model attains an average training accuracy of 39.48% and a test accuracy of 36.88%.」って本当なんだろうか…「In contrast, training the same model on the MNIST dataset with randomized encryption per sample (a unique key per image) results in a test accuracy of 9.56%, indistinguishable from random guessing.」と記載されているということはleakとかではなさそうだが。。。キーとIVが固定とはいえ、結構驚きがある。
A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality
- A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality [108.9]
ビデオ生成モデルは5~16秒間のビデオしか生成できないが、しばしば「ロングフォームビデオ」とラベル付けされる。 16秒を超えるビデオは、物語全体を通して一貫したキャラクターの外観とシーンレイアウトを維持するのに苦労する。 近年の研究では、複数のキャラクター、物語のコヒーレンス、高忠実度の詳細を特徴とする長編ビデオの制作が試みられている。
論文 参考訳(メタデータ) (Wed, 09 Jul 2025 18:20:33 GMT) - 一貫した長い動画を生成するための手法等のサーベイ
Probing for Arithmetic Errors in Language Models
- Probing for Arithmetic Errors in Language Models [86.8]
言語モデルの内部アクティベーションは、算術誤差を検出するために使用できる。 単純なプローブはモデルが予測した出力と正解の両方を隠蔽状態から正確に復号できることを示す。 モデル精度を90%以上の精度で予測する軽量エラー検出器を訓練する。
論文 参考訳(メタデータ) (Wed, 16 Jul 2025 16:27:50 GMT) - 「Starting with a controlled set- ting of 3-digit addition, we show that simple probes can accurately decode both the model’s predicted output and the correct an- swer from hidden states, regardless of whether the model’s output is correct.」はまぁできるだろうとして、「We then extend this analysis to a more complex setting, where the model is asked to solve math word problems only requiring addition (Cobbe et al , 2021) using a structured chain-of-thought (CoT) format (Wei et al , 2022), in which intermediate steps are expressed as equations (e g , <a+b=c>). Remarkably, we find that the same probes trained on simple arithmetic queries can be applied directly to this setting, maintaining over 80% accuracy in detecting whether the model is producing correct intermediate results.」やself correlationに役立ったりは面白い結果。
The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs
- The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs [39.9]
DLLMのユニークな安全性の弱点を生かした、最初の系統的な研究および脱獄攻撃フレームワークであるDIJAを提案する。 提案するDIJAは,dLLMのテキスト生成機構を利用した対向的インターリーブ・マスクテキストプロンプトを構築する。 本研究は, 新たな言語モデルにおいて, 安全アライメントの再考の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (Tue, 15 Jul 2025 08:44:46 GMT) - dLLMに対する攻撃手法の提案。「By interleaving sets of [MASK] tokens after vanilla malicious prompt, as shown in Figure 2, a dLLM is coerced into generating harmful instructions purely to maintain contextual consistency. Moreover, in contrast to autoregressive LLMs, which generate tokens sequentially and can perform on-the-fly rejection of unsafe continuations, dLLMs decode masked tokens in parallel at each step, substantially limiting the model’s ability to conduct dynamic risk assessment or intervene during generation (e g , reject sampling for tokens corresponding to harmful contents). Consequently, defenses designed for left-to-right models break down, opening the door to powerful new jailbreak attacks.」とある通り、CausalLMとは別体系であるモデルの特徴を利用した攻撃手法となっていて、攻撃成功率も高い。
- リポジトリはGitHub – ZichenWen1/DIJA: code for “The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs”
Language Models Improve When Pretraining Data Matches Target Tasks
- Language Models Improve When Pretraining Data Matches Target Tasks [8.9]
BETRは、ベンチマークトレーニングの例と類似性に基づいて、事前学習した文書を選択する方法である。 データ選択の方法は10^19から10^22FLOPにまたがる500以上のモデルをトレーニングし、それらをスケーリング法則に適合させることで比較する。 BETRはDCLM-Baseline上で2.1倍の計算乗算を実現し,全スケールで10タスク中9タスクの性能向上を実現している。
論文 参考訳(メタデータ) (Wed, 16 Jul 2025 17:59:45 GMT) - 「We tested whether language models improve when pretraining data matches target tasks. This hypothesis seems almost self-evident: training on relevant data should naturally improve relevant capabilities.」はですよねーとして、「Although explicit targeting might seem at odds with pretraining’s traditional emphasis on generality, our scaling analysis offers a reconciling insight: as compute increases, optimal filtering becomes predictably less strict. Smaller models perform best when trained on narrowly filtered datasets, while larger models benefit from more diverse data.」まで分析すると興味深い。
- 論文にも書かれていたが、多言語でどうなるかはとても興味がある。
How Many Instructions Can LLMs Follow at Once?
- How Many Instructions Can LLMs Follow at Once? [0.2]
ビジネスレポート作成タスクのための500のキーワード包含命令の単純なベンチマークであるIFScaleを導入し、命令密度が増大するにつれて、命令追従性能がどのように低下するかを測定する。 我々は、7つの主要プロバイダにわたる20の最先端モデルを評価し、最高のフロンティアモデルでさえ500命令の最大密度で68%の精度しか達成できないことを発見した。 私たちの洞察は、実世界のアプリケーションにおける命令密度プロンプトの設計に役立ち、重要なパフォーマンスとレイテンシのトレードオフを浮き彫りにします。
論文 参考訳(メタデータ) (Tue, 15 Jul 2025 17:59:42 GMT) - 「We propose IFScale, a benchmark designed to investigate how model performance degrades as instruction density increases.」というベンチマークの提案。「(1) threshold decay—near-perfect performance until a critical density, then rising variance and decreased adherence (reasoning models like o3, gemini-2.5-pro), (2) linear decay (gpt-4.1, claude-sonnet-4), and (3) exponential decay (gpt-4o, llama-4-scout).」とモデルごとに挙動が異なるのが興味深い、
- リポジトリはIFScale: Instruction Following at Scale
ChatGPT Agent, Voxtral
先週の大きなニュースはChatGPT Agentの登場だった。Deep Research + OpenAI operator + Code Interpreter のようなものでいわゆるGUIエージェント。WebArenaのスコア向上が小さめで、OS Worldの結果が報告されていない点が気になるところ。GTA1: GUI Test-time Scaling Agent – arXiv最新論文の紹介ではVision部分のチューニングを行っていたが、このような部分に課題があるのだろうか。
Mixtralからはマルチモーダル音声チャットモデルが公開されている(Voxtral | Mistral AI)。高性能かつApache 2.0 licenseでの公開は非常にありがたい。
- Voxtral [103.4]
本稿では,Voxtral MiniとVoxtral Smallの2つのマルチモーダル音声チャットモデルを提案する。 Voxtralは音声とテキストの両方を理解できるように訓練されている。 32Kコンテキストウィンドウにより、モデルは最大40分間の音声ファイルと長時間のマルチターン会話を処理できる。
論文 参考訳(メタデータ) (Thu, 17 Jul 2025 16:17:37 GMT) - リポジトリはmistralai/Voxtral-Small-24B-2507 · Hugging Face、mistralai/Voxtral-Mini-3B-2507 · Hugging Face
The Landscape of Memorization in LLMs: Mechanisms, Measurement, and Mitigation
- The Landscape of Memorization in LLMs: Mechanisms, Measurement, and Mitigation [97.1]
大規模言語モデル(LLM)は、幅広いタスクにわたって顕著な能力を示してきたが、トレーニングデータの記憶も示している。 本稿では,最近の研究成果を整理し,記憶の景観,その影響要因,その検出・緩和方法について考察する。
論文 参考訳(メタデータ) (Tue, 08 Jul 2025 01:30:46 GMT) - 「This investigation explores memorization mechanisms in LLMs, examining contributing factors, detection methodologies, measurement approaches, and mitigation techniques.」というサーベイ