- Probing for Arithmetic Errors in Language Models [86.8]
言語モデルの内部アクティベーションは、算術誤差を検出するために使用できる。 単純なプローブはモデルが予測した出力と正解の両方を隠蔽状態から正確に復号できることを示す。 モデル精度を90%以上の精度で予測する軽量エラー検出器を訓練する。
論文 参考訳(メタデータ) (Wed, 16 Jul 2025 16:27:50 GMT) - 「Starting with a controlled set- ting of 3-digit addition, we show that simple probes can accurately decode both the model’s predicted output and the correct an- swer from hidden states, regardless of whether the model’s output is correct.」はまぁできるだろうとして、「We then extend this analysis to a more complex setting, where the model is asked to solve math word problems only requiring addition (Cobbe et al , 2021) using a structured chain-of-thought (CoT) format (Wei et al , 2022), in which intermediate steps are expressed as equations (e g , <a+b=c>). Remarkably, we find that the same probes trained on simple arithmetic queries can be applied directly to this setting, maintaining over 80% accuracy in detecting whether the model is producing correct intermediate results.」やself correlationに役立ったりは面白い結果。
投稿者: staka
The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs
- The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs [39.9]
DLLMのユニークな安全性の弱点を生かした、最初の系統的な研究および脱獄攻撃フレームワークであるDIJAを提案する。 提案するDIJAは,dLLMのテキスト生成機構を利用した対向的インターリーブ・マスクテキストプロンプトを構築する。 本研究は, 新たな言語モデルにおいて, 安全アライメントの再考の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (Tue, 15 Jul 2025 08:44:46 GMT) - dLLMに対する攻撃手法の提案。「By interleaving sets of [MASK] tokens after vanilla malicious prompt, as shown in Figure 2, a dLLM is coerced into generating harmful instructions purely to maintain contextual consistency. Moreover, in contrast to autoregressive LLMs, which generate tokens sequentially and can perform on-the-fly rejection of unsafe continuations, dLLMs decode masked tokens in parallel at each step, substantially limiting the model’s ability to conduct dynamic risk assessment or intervene during generation (e g , reject sampling for tokens corresponding to harmful contents). Consequently, defenses designed for left-to-right models break down, opening the door to powerful new jailbreak attacks.」とある通り、CausalLMとは別体系であるモデルの特徴を利用した攻撃手法となっていて、攻撃成功率も高い。
- リポジトリはGitHub – ZichenWen1/DIJA: code for “The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs”
Language Models Improve When Pretraining Data Matches Target Tasks
- Language Models Improve When Pretraining Data Matches Target Tasks [8.9]
BETRは、ベンチマークトレーニングの例と類似性に基づいて、事前学習した文書を選択する方法である。 データ選択の方法は10^19から10^22FLOPにまたがる500以上のモデルをトレーニングし、それらをスケーリング法則に適合させることで比較する。 BETRはDCLM-Baseline上で2.1倍の計算乗算を実現し,全スケールで10タスク中9タスクの性能向上を実現している。
論文 参考訳(メタデータ) (Wed, 16 Jul 2025 17:59:45 GMT) - 「We tested whether language models improve when pretraining data matches target tasks. This hypothesis seems almost self-evident: training on relevant data should naturally improve relevant capabilities.」はですよねーとして、「Although explicit targeting might seem at odds with pretraining’s traditional emphasis on generality, our scaling analysis offers a reconciling insight: as compute increases, optimal filtering becomes predictably less strict. Smaller models perform best when trained on narrowly filtered datasets, while larger models benefit from more diverse data.」まで分析すると興味深い。
- 論文にも書かれていたが、多言語でどうなるかはとても興味がある。
How Many Instructions Can LLMs Follow at Once?
- How Many Instructions Can LLMs Follow at Once? [0.2]
ビジネスレポート作成タスクのための500のキーワード包含命令の単純なベンチマークであるIFScaleを導入し、命令密度が増大するにつれて、命令追従性能がどのように低下するかを測定する。 我々は、7つの主要プロバイダにわたる20の最先端モデルを評価し、最高のフロンティアモデルでさえ500命令の最大密度で68%の精度しか達成できないことを発見した。 私たちの洞察は、実世界のアプリケーションにおける命令密度プロンプトの設計に役立ち、重要なパフォーマンスとレイテンシのトレードオフを浮き彫りにします。
論文 参考訳(メタデータ) (Tue, 15 Jul 2025 17:59:42 GMT) - 「We propose IFScale, a benchmark designed to investigate how model performance degrades as instruction density increases.」というベンチマークの提案。「(1) threshold decay—near-perfect performance until a critical density, then rising variance and decreased adherence (reasoning models like o3, gemini-2.5-pro), (2) linear decay (gpt-4.1, claude-sonnet-4), and (3) exponential decay (gpt-4o, llama-4-scout).」とモデルごとに挙動が異なるのが興味深い、
- リポジトリはIFScale: Instruction Following at Scale
ChatGPT Agent, Voxtral
先週の大きなニュースはChatGPT Agentの登場だった。Deep Research + OpenAI operator + Code Interpreter のようなものでいわゆるGUIエージェント。WebArenaのスコア向上が小さめで、OS Worldの結果が報告されていない点が気になるところ。GTA1: GUI Test-time Scaling Agent – arXiv最新論文の紹介ではVision部分のチューニングを行っていたが、このような部分に課題があるのだろうか。
Mixtralからはマルチモーダル音声チャットモデルが公開されている(Voxtral | Mistral AI)。高性能かつApache 2.0 licenseでの公開は非常にありがたい。
- Voxtral [103.4]
本稿では,Voxtral MiniとVoxtral Smallの2つのマルチモーダル音声チャットモデルを提案する。 Voxtralは音声とテキストの両方を理解できるように訓練されている。 32Kコンテキストウィンドウにより、モデルは最大40分間の音声ファイルと長時間のマルチターン会話を処理できる。
論文 参考訳(メタデータ) (Thu, 17 Jul 2025 16:17:37 GMT) - リポジトリはmistralai/Voxtral-Small-24B-2507 · Hugging Face、mistralai/Voxtral-Mini-3B-2507 · Hugging Face
The Landscape of Memorization in LLMs: Mechanisms, Measurement, and Mitigation
- The Landscape of Memorization in LLMs: Mechanisms, Measurement, and Mitigation [97.1]
大規模言語モデル(LLM)は、幅広いタスクにわたって顕著な能力を示してきたが、トレーニングデータの記憶も示している。 本稿では,最近の研究成果を整理し,記憶の景観,その影響要因,その検出・緩和方法について考察する。
論文 参考訳(メタデータ) (Tue, 08 Jul 2025 01:30:46 GMT) - 「This investigation explores memorization mechanisms in LLMs, examining contributing factors, detection methodologies, measurement approaches, and mitigation techniques.」というサーベイ
Modeling Open-World Cognition as On-Demand Synthesis of Probabilistic Models
- Modeling Open-World Cognition as On-Demand Synthesis of Probabilistic Models [90.7]
我々は、人々が分散表現と象徴表現の組み合わせを使って、新しい状況に合わせた見知らぬ精神モデルを構築するという仮説を探求する。 モデル合成アーキテクチャ」という概念の計算的実装を提案する。 我々は、新しい推論データセットに基づく人間の判断のモデルとして、MSAを評価した。
論文 参考訳(メタデータ) (Wed, 16 Jul 2025 18:01:03 GMT) - 人間が内心的に作っているモデルを再現しようとする試み。
- 「We implement an MSA using LMs to parameterize global relevance functions and Probabilistic Programs to construct arbitrary probabilistic models.」として試行「we find that human reasoning is well-captured by our Model Synthesis Architecture, which provides a better match to human judgments than LM-only baselines and model ablations.」とのこと。
- MSA: Model Synthesis Architecture
SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?
- SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories? [32.7]
SWE-Perfは、認証されたリポジトリコンテキスト内のコードパフォーマンス最適化タスクにおいて、LLM(Large Language Models)を評価するために設計された最初のベンチマークである。 SWE-Perfは140の慎重にキュレートされたインスタンスで構成されており、それぞれが人気のあるGitHubリポジトリのパフォーマンス改善プルリクエストに由来する。
論文 参考訳(メタデータ) (Wed, 16 Jul 2025 17:05:17 GMT) - パフォーマンス最適化能力を測るベンチマークの提案。Claude-4-sonnet > Gemini-2.5-pro > OpenAI-o3ではあるものの全体的に厳しい結果。
- プロジェクトサイトはSWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?
AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research
- AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research [33.8]
AbGenは、科学研究のためのアブレーション研究を設計する際のLLMの能力を評価するために設計された最初のベンチマークである。 そこで我々は,一般的な自動評価システムの信頼性を評価するメタ評価ベンチマークAbGen-Evalを開発した。
論文 参考訳(メタデータ) (Thu, 17 Jul 2025 17:09:22 GMT) - Ablation Studyを生成できるか、および、Ablation Studyを評価できるかを検証するためのベンチマークの提案。現状のLLMはいずれも厳しい結果。
- リポジトリはyale-nlp/AbGen · Datasets at Hugging Face、GitHub – yale-nlp/AbGen: Data and code for the ACL 2025 paper “AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research”
NeoBabel: A Multilingual Open Tower for Visual Generation
- NeoBabel: A Multilingual Open Tower for Visual Generation [32.8]
我々は,新しい多言語画像生成フレームワークNeoBabelを紹介する。 英語、中国語、オランダ語、フランス語、ヒンディー語、ペルシア語という6つの言語をサポートしている。 それは、強い英語能力を維持しながら、最先端の多言語のパフォーマンスを達成する。
論文 参考訳(メタデータ) (Tue, 08 Jul 2025 16:19:45 GMT) - 「This paper introduces NeoBabel, a novel multilingual image generation framework that represents the first scalable solution for direct text-to-image synthesis across six languages. Through meticulous curation of high-quality multilingual vision-language datasets and end-to-end training, NeoBabel establishes direct cross-lingual mappings between textual descriptions and visual outputs across all supported languages.」という翻訳を介さない多言語対応画像生成モデルの提案。文化に関わる単語を翻訳するのは困難であり、このようなモデルは重要。
- リポジトリはNeoBabel: A Multilingual Open Tower for Visual Generation