Step-DeepResearch Technical Report

  • Step-DeepResearch Technical Report [90.5]
    コスト効率のよいエンドツーエンドエージェントである Step-DeepResearch を紹介する。 我々は、計画とレポート作成を強化するために、アトミック能力に基づくデータ合成戦略を提案する。 中国における評価ギャップを埋めるため,現実的な深層研究シナリオのためのADR-Benchを構築した。
    論文  参考訳(メタデータ)   (Tue, 23 Dec 2025 16:32:27 GMT)
  • StepFunによるディープリサーチエージェントと評価ベンチマークの提案。「Experimental results demonstrate that Step-DeepResearch, with only 32B parameters, achieves a high score of 61.4% on the Scale AI Research Rubrics. In expert human evaluations on ADR-Bench, its Elo score significantly outperforms comparable models and rivals state-of-the-art closed-source models such as OpenAI DeepResearch and Gemini DeepResearch.」と高性能を主張。実行にはAPI接続が必要でこれもclosedでは?と思わなくもない。。
  • リポジトリはGitHub – stepfun-ai/StepDeepResearch: Step-DeepResearch

GLM 4.7, MiniMax M2.1 , ERNIE-5.0-Preview-1203

先週は中国のフロンティアモデルに関する発表が目立った。マイナーアップデートが多いものの着実な性能アップを実現している。GLM-4.7(XユーザーのZ.aiさん: 「GLM-4.7 is here! GLM-4.7 surpasses GLM-4.6 with substantial improvements in coding, complex reasoning, and tool usage, setting new open-source SOTA standards. It also boosts performance in chat, creative writing, and role-play scenarios. Default Model for Coding Plan: https://t.co/3vDzwof7A8」 / X、リポジトリ:zai-org/GLM-4.7 · Hugging Face)、MiniMax M2.1(XユーザーのMiniMax (official)さん: 「MiniMax M2.1 is OPEN SOURCE: SOTA for real-world dev & agents • SOTA on coding benchmarks (SWE / VIBE / Multi-SWE) • Beats Gemini 3 Pro & Claude Sonnet 4.5 • 10B active / 230B total (MoE) Not just SOTA, faster to infer, easier to deploy, and yes, you can even run it locally https://t.co/atCML3vq8C」 / X、リポジトリ:MiniMaxAI/MiniMax-M2.1 · Hugging Face)ともモデルが公開されているのがすばらしい。ERNIE 5.0(Best Text model from China in LMArena is now ERNIE-5.0-Preview-1203! | ERNIE Blog)も強力そう。

Nemotron3については論文が出ていた。強力な公開モデルが増えており、また、アップデートもされており良い時代である(?)

  • NVIDIA Nemotron 3: Efficient and Open Intelligence [227.5]
    ネモトロン3シリーズは強力なエージェント、推論、会話能力を提供する。 ネモトロン3モデルは、推論を可能にするマルチ環境強化学習、多段階ツールの使用、きめ細かい推論予算制御のサポートを用いて、後から訓練される。 Nemotron 3ファミリは、Mixture-of-ExpertsハイブリッドのMamba-Transformerアーキテクチャを使用して、最高レベルのスループットと最大100万トークンのコンテキスト長を提供する。
    論文  参考訳(メタデータ)   (Wed, 24 Dec 2025 00:24:05 GMT)
  • 「The Nemotron 3 family uses a Mixture-of-Experts hybrid Mamba–Transformer architecture to provide best-in-class throughput and context lengths of up to 1M tokens. 」とMambaハイブリッド、長文対応なモデル。
  • Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning [223.9]
    Nemotron 3 Nano 30B-A3BはMixture-of-ExpertsハイブリッドMamba-Transformer言語モデルである。 ネモトロン3ナノは25兆個のテキストトークンで事前訓練され、その中にはネモトロン2に3兆以上の新しいユニークなトークンが含まれていた。
    論文  参考訳(メタデータ)   (Tue, 23 Dec 2025 23:54:32 GMT)
  • リポジトリはnvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8 · Hugging Face

Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

  • Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [203.4]
    PIM(Practical Inquiry Model)に基づく運用SGI定義を提案する。 深層研究、アイデア生成、ドライ/ウェット実験、実験推論の4つのタスクを通じて運用しています。 私たちのPIMによる定義、ワークフロー中心のベンチマーク、実証的な洞察は、真に科学的な発見に参加するAIシステムの基盤を確立します。
    論文  参考訳(メタデータ)   (Thu, 18 Dec 2025 12:44:36 GMT)
  • scientific general intelligence (SGI)、「SGI is an AI that can autonomously navigate the complete, iterative cycle of scientific inquiry with the versatility and proficiency of a human scientist」の研究、ベンチマーク等も提案している。「Experiments reveal a consistent pattern: in Deep Research, models show step-level alignment but low exact-match accuracy (10–20%), with brittleness in quantitative reasoning; in Idea Generation, hypotheses are fluent but underspecified and infeasible; in Dry Experiment, code is executable but PassAll@k remains low; in Wet Experiment, sequences show omissions and misordering; and in Experimental Reasoning, causal reasoning outperforms comparative, with persistent multimodal challenges. These highlight gaps between linguistic fluency and integrated scientific cognition.」とあるなど道半ばという感じではあるが非常に流行っている分野だと思う。
  • SGI-Benchの上位はGemini 3 Pro, Claude Sonnet 4.5, Qwen3 Max, GPT-4.1, GPT-5.2 Proと各社のフロンティアモデルが並ぶ。
  • リポジトリはSGI-Bench — Scientific General Intelligence

Toward Training Superintelligent Software Agents through Self-Play SWE-RL

  • Toward Training Superintelligent Software Agents through Self-Play SWE-RL [66.1]
    セルフプレイSWE-RLは、超知能ソフトウェアエージェントのトレーニングパラダイムに向けた第一歩である。 当社のアプローチでは,ソースコードとインストール済みの依存関係を備えたサンドボックスリポジトリへのアクセスのみを必要としています。 我々の成果は、早い段階で、エージェントが現実世界のソフトウェアリポジトリから広範囲にわたる学習経験を自律的に収集する道のりを示唆している。
    論文  参考訳(メタデータ)   (Sun, 21 Dec 2025 00:49:40 GMT)
  • 「The core idea of Self-play SWE-RL (SSR) is to allow LLM agents to self-improve through an iterative cycle of solving self-generated bugs and creating more complex challenges. As shown in Figure 1, the same LLM policy is divided into two roles: a bug-injection agent and a bug-solving agent.」と対戦型の自己改善フレームワーク。GitHub – facebookresearch/cwm: Research code artifacts for Code World Model (CWM) including inference tools, reproducibility, and documentation.をベースモデルとして効果を確認とのこと。

LongVie 2: Multimodal Controllable Ultra-Long Video World Model 

  • LongVie 2: Multimodal Controllable Ultra-Long Video World Model [94.9]
    LongVie 2はエンドツーエンドの自動回帰フレームワークで、3段階でトレーニングされている。 LongVie 2は、長距離制御性、時間的コヒーレンス、視覚的忠実さにおいて最先端の性能を達成する。
    論文  参考訳(メタデータ)   (Mon, 15 Dec 2025 17:59:58 GMT)
  • 「LongVie 2 achieves state-of-the-art performance in controllable long video generation and can autoregressively synthesize high-quality videos lasting up to 3–5 minutes, marking a significant step toward video world modeling.」とのこと
  • プロジェクトサイトはLongVie 2

The Role of Risk Modeling in Advanced AI Risk Management

  • The Role of Risk Modeling in Advanced AI Risk Management [33.4]
    急速に進歩する人工知能(AI)システムは、新しい、不確実で、潜在的に破滅的なリスクをもたらす。 これらのリスクを管理するには、厳格なリスクモデリングの基盤となる成熟したリスク管理インフラストラクチャが必要です。 先進的なAIガバナンスは、同様の二重アプローチを採用するべきであり、検証可能な、確実に安全なAIアーキテクチャが緊急に必要である、と私たちは主張する。
    論文  参考訳(メタデータ)   (Tue, 09 Dec 2025 15:37:33 GMT)
  • 「We conceptualize AI risk modeling as the tight integration of (i) scenario building— causal mapping from hazards to harms—and (ii) risk estimation—quantifying the likelihood and severity of each pathway. We review classical techniques such as Fault and Event Tree Analyses, FMEA/FMECA, STPA and Bayesian networks, and show how they can be adapted to advanced AI.」とのこと、他分野の例や分析方法など参考になる。

The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality

  • The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality [70.5]
    FACTS Leaderboardは、実際に正確なテキストを生成する言語モデルの能力を総合的に評価するオンラインのリーダーボードスイートである。 このスイートは、4つの異なるサブリーダーボード上でのモデルのパフォーマンスを集約することで、事実性の総合的な尺度を提供する。
    論文  参考訳(メタデータ)   (Thu, 11 Dec 2025 16:35:14 GMT)
  • 「The FACTS Leaderboard introduced here is designed to address this need by providing a holistic evaluation suite. It aggregates performance across four specialized sub-leaderboards, each targeting a distinct dimension of factuality. 」というベンチマーク
    • FACTS Multimodal tests a model’s ability to combine visual grounding with world knowledge to answer questions about an image.
    • FACTS Parametric measures the model’s ability to use its internal knowledge accurately in factoid question use-cases.
    • FACTS Search evaluates the practical and increasingly common use case of generating factual responses by interacting with a search tool.
    • FACTS Grounding v2 is an updated version of FACTS Grounding, which tests grounding to a given document, with improved judges.
  • プロジェクトサイトはFACTS Benchmark Suite Leaderboard | Kaggle、フロンティアなモデルはやはり強い。Gemini 3 Pro previewのSearchはさすが。最新モデルでの検証結果が知りたいところ。

FusAD: Time-Frequency Fusion with Adaptive Denoising for General Time Series Analysis 

  • FusAD: Time-Frequency Fusion with Adaptive Denoising for General Time Series Analysis [92.2]
    時系列分析は、金融、医療、産業、気象学などの分野において重要な役割を果たす。 FusADは多様な時系列タスク用に設計された統合分析フレームワークである。
    論文  参考訳(メタデータ)   (Tue, 16 Dec 2025 04:34:27 GMT)
  • 「we propose FusAD, a unified analysis framework designed for diverse time series tasks. FusAD features an adaptive time-frequency fusion mechanism, integrating both Fourier and Wavelet transforms to efficiently capture global-local and multi-scale dynamic features. With an adaptive denoising mechanism, FusAD automatically senses and filters various types of noise, highlighting crucial sequence variations and enabling robust feature extraction in complex environments. In addition, the framework integrates a general in- formation fusion and decoding structure, combined with masked pre-training, to promote efficient learning and transfer of multi- granularity representations」とのこと。なかなか取り扱いの難しい問題だと思うのだが、実際の性能に興味津々。
  • プロジェクトサイトはGitHub – zhangda1018/FusAD: Code for “FusAD: Time-Frequency Fusion with Adaptive Denoising for General Time Series Analysis”.

Systematic Framework of Application Methods for Large Language Models in Language Sciences 

  • Systematic Framework of Application Methods for Large Language Models in Language Sciences [23.8]
    大規模言語モデル(LLM)は言語科学を変革している。 彼らの広範な展開は、現在、方法論的な断片化と体系的な健全性の欠如に悩まされている。 本研究では,言語科学におけるLLMの戦略的かつ責任ある適用を導くための2つの包括的方法論フレームワークを提案する。
    論文  参考訳(メタデータ)   (Wed, 10 Dec 2025 11:43:17 GMT)
  • 「LLMs offer powerful capabilities for language sciences by enabling the anal- ysis of large corpora, providing quantitative measurements, and supporting investigations that were previously impractical. This study proposed two methodological frameworks for applying LLMs in the language sciences, organizing three complementary approaches: prompt-based interaction with closed-source models, fine-tuning of open-source models, and embedding- based quantitative analysis.」と整理されたサーベイ。

Rethinking Expert Trajectory Utilization in LLM Post-training

  • Rethinking Expert Trajectory Utilization in LLM Post-training [35.0]
    我々は,この景観を基盤として,プラスチック・シーリング・フレームワークを提案する。 逐次SFT-then-RLパイプラインを優れた標準として確立する。 本研究は,専門家軌道から抽出した値の最大化のための実用的なガイドラインを提供する。
    論文  参考訳(メタデータ)   (Fri, 12 Dec 2025 11:13:00 GMT)
  • Post trainingで一般的に用いられるSupervised Fine-Tuning (SFT) とRe-inforcement Learning (RL)の組み合わせに関し「1) The sequential SFT-then-RL pipeline outperforms alternative paradigms in approaching the post-training perfor- mance ceiling. (2) Within this pipeline, RL should be initiated at SFT saturation, a point reliably predicted by validation loss minimization. (3) SFT data scale primarily determines the performance ceiling, and trajectory difficulty further optimizes the ceiling when data is limited.」と報告。
  • リポジトリはGitHub – LINs-lab/RETU: [Preprint] Rethinking Expert Trajectory Utilization in LLM Post-training