Scaling Behavior of Discrete Diffusion Language Models

  • Scaling Behavior of Discrete Diffusion Language Models [74.7]
    離散拡散言語モデル(DLM)の様々なノイズタイプに対するスケーリング挙動について検討する。 実験の結果,DLMのスケーリング挙動はノイズの種類によって大きく異なり,ALMとはかなり異なることがわかった。 均一拡散モデルを1022ドルのFLOPでトレーニングした10Bパラメータまで拡張し、予測されたスケーリング挙動を確認し、現在までに最も広く知られている均一拡散モデルとした。
    論文  参考訳(メタデータ)   (Thu, 11 Dec 2025 17:54:10 GMT)
  • 最近研究が進み応用事例も出てきているDiffusion language modelに対して「Our findings support the case for discrete diffusion language models (DLMs) as a viable alternative to autoregressive language models (ALMs), the prevalent paradigm. DLMs can resolve core limitations of ALMs, enabling parallel generation for improved throughput, possessing the ability to revise and self-correct previously generated tokens, providing trivial ways of scaling test-time compute, and now also showing signs of improved scaling behavior with increased training compute. All in all, we conclude that DLMs in general, and uniform diffusion in particular, are promising candidates for next-generation LLMs.」と主張。
  • リポジトリはGitHub – dvruette/gidd-easydel

GPT-5.2, Devstral 2, GLM-4.6V, Olmo 3.1

先週の大きなニュースはGPT-5.2の登場だった(GPT-5.2 が登場 | OpenAIgpt-5.2 Model | OpenAI API)非常に強力なモデルであり、Grok 4.1, Gemini 3Pro, GPT-5.1 Pro / Codex , Nano Banana Pro (Gemini Image Pro), Olmo 3, Step-Audio-R1, Omnilingual ASR – arXiv最新論文の紹介のGemini 3 Proを多くのベンチマークで抜き返すなど競争が続いている。

実態は第三者検証待ちといったところだが、手元のベンチマークでは性能が上がったところと下がったところがあり、評価は難しい。10年 | OpenAIにも注目でここ数年で大きな変化をもたらしたこと、AGIを目指せる状況になっているのは凄い。

GPT-5.2以外にも、Devstral 2(Introducing: Devstral 2 and Mistral Vibe CLI. | Mistral AImistralai/Devstral-2-123B-Instruct-2512 · Hugging Faceなど)やGLM-4.6V(GLM-4.6V: Open Source Multimodal Models with Native Tool Usezai-org/GLM-4.6V · Hugging Face)、Olmo 3.1(XユーザーのAi2さん: 「Olmo 3.1 is here. We extended our strongest RL run and scaled our instruct recipe to 32B—releasing Olmo 3.1 Think 32B & Olmo 3.1 Instruct 32B, our most capable models yet. 🧵 https://t.co/i8Ia5yGJoI」 / X)など公開モデル関連でも注目するニュースが多い。

Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

  • Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing [83.5]
    我々は、人間のサイバーセキュリティ専門家に対するAIエージェントの包括的な評価を初めて提示する。 我々は、既存の6人のAIエージェントと、新しいエージェントの足場であるARTEMISとともに、10人のサイバーセキュリティ専門家を評価します。 ARTEMISは総合的に第2位で、9つの有効な脆弱性と82%の有効な提出率を発見した。
    論文  参考訳(メタデータ)   (Wed, 10 Dec 2025 18:12:29 GMT)
  • 「We present the first comprehensive evaluation of AI agents against human cybersecurity professionals in a live enterprise environment. We evaluate ten cybersecurity professionals alongside six existing AI agents and ARTEMIS, our new agent scaffold, on a large university network consisting of ∼8,000 hosts across 12 subnets. ARTEMIS is a multi-agent framework featuring dynamic prompt generation, arbitrary sub-agents, and automatic vulnerability triaging. In our comparative study, ARTEMIS placed second overall, discovering 9 valid vulnerabilities with an 82% valid submission rate and outperforming 9 of 10 human participants.」とAIエージェント vs 人間の比較。このような分析は今後も様々な分野で実施されていくのだと思いつつ、どのように役割分担していくのか(将来的に人間に残される要素はあるのか)など気になるところ。
  • リポジトリはGitHub – Stanford-Trinity/ARTEMIS、プロジェクトサイトはTrinity – Stanford Research

Towards a Science of Scaling Agent Systems 

  • Towards a Science of Scaling Agent Systems [79.6]
    エージェント、言語モデル(LM)ベースのシステムでは、推論、計画、行動が現実のAIアプリケーションの主要なパラダイムになりつつある。 この広く採用されているにもかかわらず、彼らのパフォーマンスを決定する原則は未定のままである。 エージェントシステムのスケーリング原理を導出することで、このギャップに対処する。
    論文  参考訳(メタデータ)   (Tue, 09 Dec 2025 06:52:21 GMT)
  • マルチエージェント化に利点があるのか?が興味深い論文。「We reveal that multi-agent performance exhibits an inverted-U relationship with coordination complexity, with benefits diminishing beyond moderate coordination levels. Domain complexity emerges as the strongest performance predictor (𝛽= −0.114, 𝑝< 0.002), reducing MAS advantage more substantially than architectural choices. Performance gains vary dramatically by task structure: +80.9% on Finance Agent versus −70.0% on PlanCraft, indicating that coordination benefits depend tightly on task decomposability.」と納得感がある(というかそうだよねという)結果

EventBench: Towards Comprehensive Benchmarking of Event-based MLLMs

  • EventBench: Towards Comprehensive Benchmarking of Event-based MLLMs [53.4]
    EventBenchは8つのタスクメトリクスと大規模なイベントストリームデータセットを提供するベンチマークである。 我々は、GPT-5やGemini-2.5 Proのような最先端のクローズドソースモデル、Qwen2.5-VLやInternVL3といったオープンソースモデル、EventGPTのようなイベントベースのMLLMを評価した。
    論文  参考訳(メタデータ)   (Sun, 23 Nov 2025 13:39:01 GMT)
  • MLLMのイベントに対する評価(understanding (i.e., detailed understanding), recognition (i.e., action recognition, gesture recognition, and event OCR)など)ベンチマーク。
  • リポジトリはEventBench

InnoGym: Benchmarking the Innovation Potential of AI Agents 

  • InnoGym: Benchmarking the Innovation Potential of AI Agents [74.6]
    InnoGymはAIエージェントのイノベーションの可能性を評価するために設計された最初のベンチマークである。 InnoGymは2つの相補的なメトリクスを紹介している。パフォーマンスゲイン(パフォーマンスゲイン)と、従来のアプローチと方法論的な違いを捉えるノベルティ(ノベルティ)だ。
    論文  参考訳(メタデータ)   (Mon, 01 Dec 2025 16:03:04 GMT)
  • 「InnoGym consists of two complementary components: iBench, a benchmark designed to evaluate innovation capability, and iGym, a unified development and execution environment. iBench covers 18 carefully curated tasks drawn from real-world engineering and theoretical problems. We focus only on Improvable Tasks, which leave clear room for improvement in both solution quality and methodology.」というAIエージェントがイノベーションを起こせるかを計測しようとするベンチマーク
  • リポジトリはhttps://github.com/zjunlp/igym

H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons 

  • H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons [56.3]
    大型言語モデル(LLM)における幻覚関連ニューロン(H-Neurons)の同定 同定の面では、驚くほどスパースなニューロンのサブセットが幻覚の発生を確実に予測できることが示される。 行動への影響に関して、制御された介入は、これらのニューロンが過度に順応する行動と因果関係があることを明らかにする。
    論文  参考訳(メタデータ)   (Mon, 01 Dec 2025 15:32:14 GMT)
  • 「Our investigation reveals that a remarkably sparse subset of neurons – comprising less than 0.1% of the model’s total neurons – can accurately predict whether the model will produce hallucinated responses. We refer to these predictive neurons as H-Neurons.」、「Our neuron-centric investigation reveals that hallucinations are rooted in the model’s computational architecture and training objectives. 」など興味深い指摘。

Are LLMs Good Safety Agents or a Propaganda Engine?

  • Are LLMs Good Safety Agents or a Propaganda Engine? [74.9]
    PSPは、明らかに政治的文脈から、大規模言語モデルの拒絶行動を調べるために構築されたデータセットである。 PSPは、インターネット上で公開されている2つのデータソースから既存の検閲されたコンテンツをフォーマットすることで構築されている。 1)データ駆動型(PSPを暗黙化する)と表現レベルのアプローチ(政治概念を生かした)による7つのLSMにおける政治的感受性の影響,2)インジェクション攻撃(PIA)によるPSPに対するモデル脆弱性について検討する。
    論文  参考訳(メタデータ)   (Fri, 28 Nov 2025 13:36:00 GMT)
  • LLMが応答を拒否する有害コンテンツを通じて検閲有無を調べようという研究。
  • 「1) some models like DeepSeek R1 and Llama 3.1 actively apply censorship policies by refusing to content that have negligible malicious intent; 2) LLMs like Llama 3.1 are quite sensitive to political contexts, in contrast to guardrail models like PromptGuard; 3) models actively enter a state of ethical dilemma/confusion, when attacked with PIAs that contain competing objectives; 4) neither the number of parameters in a model nor the context of countries has an effect on the refusal distributions.」とのこと。

Guided Self-Evolving LLMs with Minimal Human Supervision

  • Guided Self-Evolving LLMs with Minimal Human Supervision [53.1]
    無誘導の自己進化システムは、しばしば訓練として素早く、または劣化する。 R-Fewはガイド付きセルフプレイチャレンジャー(Self-Play Challenger)買収フレームワークで、コンテキスト内接地と混合トレーニングを通じて、軽量な人間の監視を取り入れている。 R-Fewは、数学と一般的な推論ベンチマークで一貫した反復的な改善を実現している。
    論文  参考訳(メタデータ)   (Tue, 02 Dec 2025 07:06:11 GMT)
  • 「we introduce R-FEW, a guided Self-Play Challenger–Solver framework that incorporates lightweight human oversight through in-context grounding and mixed training. At each iteration, the Challenger samples a small set of human-labeled examples to guide synthetic ques- tion generation, while the Solver jointly trains on human and synthetic examples under an online, difficulty-based curriculum. Across math and general reasoning benchmarks, R-Few achieves consistent and iterative improvements.」と最近よく見る共同進化的なフレームワークの提案。とても流行っていて有効なアプローチなのだと思う。

Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning

  • Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning [102.1]
    ThinkMergeは、トレーニング不要でプラグ&プレイのデコード戦略だ。 並列推論トレースをKで実行し、同期点における次のTokenロジットを平均化し、単一のコヒーレントな出力を生成する。
    論文  参考訳(メタデータ)   (Tue, 02 Dec 2025 15:35:31 GMT)
  • 「(i) generate K diverse reasoning traces up to a delimiter token, e g </think> (ii) after the delimiter, decode one shared answer sequence by averaging the next- token logits across all K reasoning contexts at every autoregressive step.」という複数の思考を束ねるTHINKMERGEの提案、性能向上を確認とのこと。