From Word to World: Can Large Language Models be Implicit Text-based World Models?

  • From Word to World: Can Large Language Models be Implicit Text-based World Models? [82.5]
    エージェント強化学習は、経験駆動のスケーリングにますます依存している。 世界モデルは、シミュレートされた経験を通して学習効率を改善する潜在的方法を提供する。 大規模言語モデルがこの役割を確実に果たせるか,どのような条件でエージェントに有意義な利益をもたらすかを検討する。
    論文  参考訳(メタデータ)   (Sun, 21 Dec 2025 17:28:42 GMT)
  • 「LLMs can function as reliable world models: they exhibit internal latent dynamics that support in-context world modeling, and supervised fine-tuning substantially improves short-term predictive fidelity and enables consistent long-horizon rollouts in well-structured domains.」との指摘が興味深い。
  • リポジトリはGitHub – X1AOX1A/Word2World: From Word to World: Can Large Language Models be Implicit Text-based World Models?

FrontierCS: Evolving Challenges for Evolving Intelligence

  • FrontierCS: Evolving Challenges for Evolving Intelligence [174.8]
    コンピュータ科学の様々な領域にまたがる156のオープンエンド問題のベンチマークであるFrontierCSを紹介する。 各問題に対して、専門家の参照ソリューションと自動評価器を提供する。 私たちは、アルゴリズムと研究のトラックに関して、フロンティア推論モデルが人間の専門家よりずっと遅れていることに気付きました。
    論文  参考訳(メタデータ)   (Wed, 17 Dec 2025 18:52:45 GMT)
  • 「we introduce FrontierCS, a coding benchmark that evaluates LLMs on solving open- ended computer science problems, where no known closed-form or deterministic optimal solution exists in practice. 」というベンチマーク。「Empirically, we find that even the strongest frontier reasoning models remain far behind human experts on both the algorithmic and research tracks of FrontierCS. Simply scaling up context length or reasoning budgets yields diminishing returns on the hardest problems, and models frequently converge to locally workable but clearly suboptimal algorithms.」とのこと。
  • プロジェクトサイトはFrontierCS

Step-DeepResearch Technical Report

  • Step-DeepResearch Technical Report [90.5]
    コスト効率のよいエンドツーエンドエージェントである Step-DeepResearch を紹介する。 我々は、計画とレポート作成を強化するために、アトミック能力に基づくデータ合成戦略を提案する。 中国における評価ギャップを埋めるため,現実的な深層研究シナリオのためのADR-Benchを構築した。
    論文  参考訳(メタデータ)   (Tue, 23 Dec 2025 16:32:27 GMT)
  • StepFunによるディープリサーチエージェントと評価ベンチマークの提案。「Experimental results demonstrate that Step-DeepResearch, with only 32B parameters, achieves a high score of 61.4% on the Scale AI Research Rubrics. In expert human evaluations on ADR-Bench, its Elo score significantly outperforms comparable models and rivals state-of-the-art closed-source models such as OpenAI DeepResearch and Gemini DeepResearch.」と高性能を主張。実行にはAPI接続が必要でこれもclosedでは?と思わなくもない。。
  • リポジトリはGitHub – stepfun-ai/StepDeepResearch: Step-DeepResearch

GLM 4.7, MiniMax M2.1 , ERNIE-5.0-Preview-1203

先週は中国のフロンティアモデルに関する発表が目立った。マイナーアップデートが多いものの着実な性能アップを実現している。GLM-4.7(XユーザーのZ.aiさん: 「GLM-4.7 is here! GLM-4.7 surpasses GLM-4.6 with substantial improvements in coding, complex reasoning, and tool usage, setting new open-source SOTA standards. It also boosts performance in chat, creative writing, and role-play scenarios. Default Model for Coding Plan: https://t.co/3vDzwof7A8」 / X、リポジトリ:zai-org/GLM-4.7 · Hugging Face)、MiniMax M2.1(XユーザーのMiniMax (official)さん: 「MiniMax M2.1 is OPEN SOURCE: SOTA for real-world dev & agents • SOTA on coding benchmarks (SWE / VIBE / Multi-SWE) • Beats Gemini 3 Pro & Claude Sonnet 4.5 • 10B active / 230B total (MoE) Not just SOTA, faster to infer, easier to deploy, and yes, you can even run it locally https://t.co/atCML3vq8C」 / X、リポジトリ:MiniMaxAI/MiniMax-M2.1 · Hugging Face)ともモデルが公開されているのがすばらしい。ERNIE 5.0(Best Text model from China in LMArena is now ERNIE-5.0-Preview-1203! | ERNIE Blog)も強力そう。

Nemotron3については論文が出ていた。強力な公開モデルが増えており、また、アップデートもされており良い時代である(?)

  • NVIDIA Nemotron 3: Efficient and Open Intelligence [227.5]
    ネモトロン3シリーズは強力なエージェント、推論、会話能力を提供する。 ネモトロン3モデルは、推論を可能にするマルチ環境強化学習、多段階ツールの使用、きめ細かい推論予算制御のサポートを用いて、後から訓練される。 Nemotron 3ファミリは、Mixture-of-ExpertsハイブリッドのMamba-Transformerアーキテクチャを使用して、最高レベルのスループットと最大100万トークンのコンテキスト長を提供する。
    論文  参考訳(メタデータ)   (Wed, 24 Dec 2025 00:24:05 GMT)
  • 「The Nemotron 3 family uses a Mixture-of-Experts hybrid Mamba–Transformer architecture to provide best-in-class throughput and context lengths of up to 1M tokens. 」とMambaハイブリッド、長文対応なモデル。
  • Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning [223.9]
    Nemotron 3 Nano 30B-A3BはMixture-of-ExpertsハイブリッドMamba-Transformer言語モデルである。 ネモトロン3ナノは25兆個のテキストトークンで事前訓練され、その中にはネモトロン2に3兆以上の新しいユニークなトークンが含まれていた。
    論文  参考訳(メタデータ)   (Tue, 23 Dec 2025 23:54:32 GMT)
  • リポジトリはnvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8 · Hugging Face

Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

  • Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [203.4]
    PIM(Practical Inquiry Model)に基づく運用SGI定義を提案する。 深層研究、アイデア生成、ドライ/ウェット実験、実験推論の4つのタスクを通じて運用しています。 私たちのPIMによる定義、ワークフロー中心のベンチマーク、実証的な洞察は、真に科学的な発見に参加するAIシステムの基盤を確立します。
    論文  参考訳(メタデータ)   (Thu, 18 Dec 2025 12:44:36 GMT)
  • scientific general intelligence (SGI)、「SGI is an AI that can autonomously navigate the complete, iterative cycle of scientific inquiry with the versatility and proficiency of a human scientist」の研究、ベンチマーク等も提案している。「Experiments reveal a consistent pattern: in Deep Research, models show step-level alignment but low exact-match accuracy (10–20%), with brittleness in quantitative reasoning; in Idea Generation, hypotheses are fluent but underspecified and infeasible; in Dry Experiment, code is executable but PassAll@k remains low; in Wet Experiment, sequences show omissions and misordering; and in Experimental Reasoning, causal reasoning outperforms comparative, with persistent multimodal challenges. These highlight gaps between linguistic fluency and integrated scientific cognition.」とあるなど道半ばという感じではあるが非常に流行っている分野だと思う。
  • SGI-Benchの上位はGemini 3 Pro, Claude Sonnet 4.5, Qwen3 Max, GPT-4.1, GPT-5.2 Proと各社のフロンティアモデルが並ぶ。
  • リポジトリはSGI-Bench — Scientific General Intelligence

Toward Training Superintelligent Software Agents through Self-Play SWE-RL

  • Toward Training Superintelligent Software Agents through Self-Play SWE-RL [66.1]
    セルフプレイSWE-RLは、超知能ソフトウェアエージェントのトレーニングパラダイムに向けた第一歩である。 当社のアプローチでは,ソースコードとインストール済みの依存関係を備えたサンドボックスリポジトリへのアクセスのみを必要としています。 我々の成果は、早い段階で、エージェントが現実世界のソフトウェアリポジトリから広範囲にわたる学習経験を自律的に収集する道のりを示唆している。
    論文  参考訳(メタデータ)   (Sun, 21 Dec 2025 00:49:40 GMT)
  • 「The core idea of Self-play SWE-RL (SSR) is to allow LLM agents to self-improve through an iterative cycle of solving self-generated bugs and creating more complex challenges. As shown in Figure 1, the same LLM policy is divided into two roles: a bug-injection agent and a bug-solving agent.」と対戦型の自己改善フレームワーク。GitHub – facebookresearch/cwm: Research code artifacts for Code World Model (CWM) including inference tools, reproducibility, and documentation.をベースモデルとして効果を確認とのこと。

LongVie 2: Multimodal Controllable Ultra-Long Video World Model 

  • LongVie 2: Multimodal Controllable Ultra-Long Video World Model [94.9]
    LongVie 2はエンドツーエンドの自動回帰フレームワークで、3段階でトレーニングされている。 LongVie 2は、長距離制御性、時間的コヒーレンス、視覚的忠実さにおいて最先端の性能を達成する。
    論文  参考訳(メタデータ)   (Mon, 15 Dec 2025 17:59:58 GMT)
  • 「LongVie 2 achieves state-of-the-art performance in controllable long video generation and can autoregressively synthesize high-quality videos lasting up to 3–5 minutes, marking a significant step toward video world modeling.」とのこと
  • プロジェクトサイトはLongVie 2

The Role of Risk Modeling in Advanced AI Risk Management

  • The Role of Risk Modeling in Advanced AI Risk Management [33.4]
    急速に進歩する人工知能(AI)システムは、新しい、不確実で、潜在的に破滅的なリスクをもたらす。 これらのリスクを管理するには、厳格なリスクモデリングの基盤となる成熟したリスク管理インフラストラクチャが必要です。 先進的なAIガバナンスは、同様の二重アプローチを採用するべきであり、検証可能な、確実に安全なAIアーキテクチャが緊急に必要である、と私たちは主張する。
    論文  参考訳(メタデータ)   (Tue, 09 Dec 2025 15:37:33 GMT)
  • 「We conceptualize AI risk modeling as the tight integration of (i) scenario building— causal mapping from hazards to harms—and (ii) risk estimation—quantifying the likelihood and severity of each pathway. We review classical techniques such as Fault and Event Tree Analyses, FMEA/FMECA, STPA and Bayesian networks, and show how they can be adapted to advanced AI.」とのこと、他分野の例や分析方法など参考になる。

The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality

  • The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality [70.5]
    FACTS Leaderboardは、実際に正確なテキストを生成する言語モデルの能力を総合的に評価するオンラインのリーダーボードスイートである。 このスイートは、4つの異なるサブリーダーボード上でのモデルのパフォーマンスを集約することで、事実性の総合的な尺度を提供する。
    論文  参考訳(メタデータ)   (Thu, 11 Dec 2025 16:35:14 GMT)
  • 「The FACTS Leaderboard introduced here is designed to address this need by providing a holistic evaluation suite. It aggregates performance across four specialized sub-leaderboards, each targeting a distinct dimension of factuality. 」というベンチマーク
    • FACTS Multimodal tests a model’s ability to combine visual grounding with world knowledge to answer questions about an image.
    • FACTS Parametric measures the model’s ability to use its internal knowledge accurately in factoid question use-cases.
    • FACTS Search evaluates the practical and increasingly common use case of generating factual responses by interacting with a search tool.
    • FACTS Grounding v2 is an updated version of FACTS Grounding, which tests grounding to a given document, with improved judges.
  • プロジェクトサイトはFACTS Benchmark Suite Leaderboard | Kaggle、フロンティアなモデルはやはり強い。Gemini 3 Pro previewのSearchはさすが。最新モデルでの検証結果が知りたいところ。

FusAD: Time-Frequency Fusion with Adaptive Denoising for General Time Series Analysis 

  • FusAD: Time-Frequency Fusion with Adaptive Denoising for General Time Series Analysis [92.2]
    時系列分析は、金融、医療、産業、気象学などの分野において重要な役割を果たす。 FusADは多様な時系列タスク用に設計された統合分析フレームワークである。
    論文  参考訳(メタデータ)   (Tue, 16 Dec 2025 04:34:27 GMT)
  • 「we propose FusAD, a unified analysis framework designed for diverse time series tasks. FusAD features an adaptive time-frequency fusion mechanism, integrating both Fourier and Wavelet transforms to efficiently capture global-local and multi-scale dynamic features. With an adaptive denoising mechanism, FusAD automatically senses and filters various types of noise, highlighting crucial sequence variations and enabling robust feature extraction in complex environments. In addition, the framework integrates a general in- formation fusion and decoding structure, combined with masked pre-training, to promote efficient learning and transfer of multi- granularity representations」とのこと。なかなか取り扱いの難しい問題だと思うのだが、実際の性能に興味津々。
  • プロジェクトサイトはGitHub – zhangda1018/FusAD: Code for “FusAD: Time-Frequency Fusion with Adaptive Denoising for General Time Series Analysis”.