Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

  • Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction [117.6]
    本稿では,対話型環境の多様性と複雑さを体系的にスケールする手法を提案する。 本手法は,3次元に対処することで,このスケーリングを実現する。 Nex-N1は、インフラストラクチャによって確立された多様な複雑なインタラクティブ環境に基づいてトレーニングします。
    論文  参考訳(メタデータ)   (Thu, 04 Dec 2025 16:57:02 GMT)
  • 「NexA4A (Agent for Agent), a generative system that automatically synthesizes diverse agent architectures and workflows from natural language specifications; and NexGAP (General Agent-data Pipeline), which leverages real-world Model Context Protocol (MCP) tools and information fusion to generate massive-scale, end-to-end trajectories rooted in authentic execution.」とエージェント化を前提とした軌跡生成のフレームワーク。「Future work will focus on evolving this infrastructure into a large-scale simulation platform for Reinforcement Learning. We aim to automatically construct environments that are not only highly diverse and increasingly difficult but also objectively verifiable.」と書かれたFuture workに期待大。
  • リポジトリはGitHub – nex-agi/Nex-N1

ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning

  • ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning [118.5]
    ATLASは、約800のオリジナルの問題からなる大規模で、高精度で、学際横断的な評価スイートである。 主な特徴は次のとおりである。 テストデータの漏洩を防ぐために新しく作成されたり、実質的に適応されたすべての質問を含む、高いオリジン性と汚染抵抗。 先行モデルに関する予備的な結果は、ATLASが先進的な科学的推論能力の差別化に有効であることを証明している。
    論文  参考訳(メタデータ)   (Thu, 20 Nov 2025 06:27:38 GMT)
  • 「We release a new, highly challenging evaluation benchmark containing approximately 800 expert-created original problems. The benchmark focuses on multidisciplinary scientific reasoning, with a target difficulty set to a pass rate of less than 20% for current state-of-the- art models, to effectively measure the true capabilities of frontier models.」と非常に難しいベンチマーク
  • リポジトリはGitHub – open-compass/ATLAS: ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning、Gemini 3 Proの結果が気になるところ。

Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey 

  • Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey [14.1]
    大型言語モデル (LLMs) は科学的アイデアの有望な生成元として登場した。 この調査は、科学的健全性による創造性へのアプローチの違いについて調査する。
    論文  参考訳(メタデータ)   (Wed, 12 Nov 2025 01:00:43 GMT)

MagicWorld: Interactive Geometry-driven Video World Exploration 

  • MagicWorld: Interactive Geometry-driven Video World Exploration [30.5]
    我々は、3次元幾何学的先行と歴史的検索を統合したインタラクティブなビデオワールドモデルMagicWorldを提案する。 本稿では,Action-Guided 3D Geometry Module (AG3D)を紹介した。 さらに、生成時に関連する履歴フレームを検索し、条件付き信号として注入するHistory Cache Retrieval (HCR) 機構を提案する。
    論文  参考訳(メタデータ)   (Mon, 24 Nov 2025 08:41:28 GMT)
  • ユーザアクション可能なビデオ生成モデル
  • リポジトリはMagicWorld: Interactive Geometry-driven Video World Exploration

Latent Collaboration in Multi-Agent Systems 

  • Latent Collaboration in Multi-Agent Systems [140.5]
    マルチエージェントシステム(MAS)は、独立した単一モデル推論から協調的なシステムレベルのインテリジェンスへと拡張される。 LLMエージェント間の純粋な遅延協調を可能にするエンドツーエンドのトレーニングフリーフレームワークであるLatentMASを紹介する。
    論文  参考訳(メタデータ)   (Tue, 25 Nov 2025 18:56:57 GMT)
  • 「we introduce LatentMAS, an end-to-end collaborative framework that operates entirely within the continuous latent space. Our core design integrates both internal latent thoughts generation and cross-agent latent working memory transfer.」というフレームワーク、表現力的にも計算コスト的に有利だろうというのは納得感がある。
  • リポジトリはGitHub – Gen-Verse/LatentMAS: Latent Collaboration in Multi-Agent Systems (LatentMAS)

What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity 

  • What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity [40.3]
    エージェントのパフォーマンスにおいて,アイデアの多様性が果たす役割について検討する。 異なるモデルとエージェントの足場は、様々なアイデアの多様性をもたらす。 高いパフォーマンスのエージェントは、アイデアの多様性を増す傾向にある。
    論文  参考訳(メタデータ)   (Wed, 19 Nov 2025 16:32:18 GMT)
  • 「This work started from the hypothesis that ideation diversity is a key bottleneck in AI research agents’ performance. We have confirmed this hypothesis by conducting a large-scale analysis on AI research agents’ trajectories and performing a controlled experiment.」とのこと。
  • 科学へのAI適用に関する研究が急速に進んでいる状況で、このような検証はとても興味深い。

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration 

  • ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration [110.2]
    私たちは、他のモデルやさまざまなツールを管理する小さなオーケストレータが、どちらもインテリジェンスの上限を押し上げることができることを示しています。 インテリジェントなツールをコーディネートする,小さなオーケストレータのトレーニング方法であるToolOrchestraを紹介する。 ToolOrchestraを使うことで、従来のツール使用エージェントよりも低コストで精度の高い8BモデルであるOrchestratorを作成できる。
    論文  参考訳(メタデータ)   (Wed, 26 Nov 2025 18:59:46 GMT)
  • 「We introduce ToolOrchestra, a method for training a small language model to serve as the orchestrator of a diverse toolkit, including classical tools and more intelligent models. This dovetails with recent developments in the field testifying that small language models are often sufficiently powerful and far more economical in agentic systems」とエージェント時代に重要な能力であるツールオーケストレーション能力をモデルに与えるための研究
  • リポジトリはToolOrchestraGitHub – NVlabs/ToolOrchestra: ToolOrchestra is an end-to-end RL training framework for orchestrating tools and agentic workflows.

MiMo-Embodied: X-Embodied Foundation Model Technical Report

  • MiMo-Embodied: X-Embodied Foundation Model Technical Report [53.3]
    私たちはMiMo-Embodiedをオープンソースとして公開しました。 MiMo-Embodiedはタスクプランニング、アフォーマンス予測、空間理解において17のAIベンチマークにまたがる新たな記録を設定している。 これらのタスク全体で、MiMo-Embodiedは既存のオープンソース、クローズドソース、および特別なベースラインを著しく上回っている。
    論文  参考訳(メタデータ)   (Thu, 20 Nov 2025 16:34:55 GMT)
  • 「This report introduces MiMo-Embodied, a pioneering cross-embodied vision-language model that achieves state-of-the-art performance in both autonomous driving and embodied AI tasks. As the first open-source VLM integrating these two critical domains, MiMo-Embodied significantly enhances understanding and reasoning in dynamic physical environments. Extensive evaluations across 29 benchmarks show that MiMo-Embodied achieves superior performance in both embodied and autonomous driving tasks, significantly outperforming existing open-source and closed-source general VLMs, as well as specialized VLMs for a single domain」とEmbdiedなタスクで高性能を主張する公開モデル。ドメインによる得意不得意はあるだろうが、商用モデルの性能も超えている。
  • リポジトリはGitHub – XiaomiMiMo/MiMo-Embodied: MiMo-Embodied

International AI Safety Report 2025: Second Key Update: Technical Safeguards and Risk Management 

  • International AI Safety Report 2025: Second Key Update: Technical Safeguards and Risk Management [115.9]
    2025年の国際AI安全レポートの第2の更新は、この1年で汎用AIリスク管理の新しい展開を評価している。 研究者、公共機関、AI開発者が汎用AIのリスク管理にどのようにアプローチしているかを調べる。
    論文  参考訳(メタデータ)   (Tue, 25 Nov 2025 03:12:56 GMT)
  • AI Safety Reportの最新版。ハイライトは非常に参考になるが、「Open-weight models lag less than a year behind leading closed-weight models, shifting the risk landscape.」という記載は重要に思える。
  • 攻撃面で「tests show that sophisticated attackers can still bypass safeguards around half of the time when given 10 attempts.」、「As few as 250 malicious documents inserted into training data can allow attackers to trigger undesired model behaviours with specific prompts. Some research shows that such data poisoning attacks require relatively few resources to carry out, regardless of model size.」な状況だが、「The number of AI companies with Frontier AI Safety Frameworks more than doubled in 2025: at least 12 companies now have such frameworks.」という進み具合も興味深い。

SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models 

  • SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.9]
    LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。 私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。 我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
    論文  参考訳(メタデータ)   (Thu, 20 Nov 2025 03:41:06 GMT)
  • LRMを対象とした安全性ベンチマーク評価。
  • 「For small models (e g , Qwen-3- 0.6B), Thinking increases risk, consistent with prior observations that reasoning traces can introduce hazards. For mid-scale models, however, Thinking yields safer behavior—lower risk and execution levels and higher refusal rates—suggesting that structured reasoning can be leveraged to reduce exposure when model capacity is sufficient. At very large scale, this pattern reverses: the MoE-based Qwen-235B shows higher risk levels under Thinking, reflecting an “always-help” tendency that makes unsafe responses more actionable. In short, reasoning improves safety up to a point; beyond that, greater capability without stronger alignment can raise exposure.」とモデルサイズとの関係が興味深い。