Claude Opus 4.5, DeepSeekMath-V2, DR Tulu, Qwen3-VL, HunyuanVideo 1.5

先週はOpus 4.5の発表(Introducing Claude Opus 4.5 \ Anthropic)があり、Anthropic Clodeが特にコード生成においてさすがの性能を見せた。

公開モデル関連では数学に強いDeepSeekMath-V2(deepseek-ai/DeepSeek-Math-V2 · Hugging Face)、Deep Researchに強いDR Tulu(DR Tulu: An open, end-to-end training recipe for long-form deep research | Ai2)やQwen3-VL、HunyuanVideo 1.5のテクニカルレポートに注目という状況。

  • DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research [152.2]
    ディープ・リサーチ・モデルは、多段階の研究を行い、長文でよく理解された回答を生成する。 ほとんどのオープンディープリサーチモデルは、検証可能な報酬を伴う強化学習を通じて、短い形式のQAタスクで訓練されている。 我々は、オープンエンドで長期のディープリサーチのために直接訓練された最初のオープンモデルであるDeep Research Tulu (DR Tulu-8B)を開発した。
    論文  参考訳(メタデータ)   (Wed, 26 Nov 2025 14:52:10 GMT)
  • 「In this paper, we introduce Deep Research Tulu (DR Tulu-8B), the first open model that is directly trained for open-ended, long-form deep research tasks. To address the challenge of verification in long-form tasks, DR Tulu is first finetuned on high-quality, naturally occurring user data, and then trained via a new method we call Reinforcement Learning with Evolving Rubrics (RLER), in which we construct and maintain rubrics that co-evolve with the policy model during training.」とDeepResearchに特化したモデルの提案。強化学習部分も興味深い構成。
  • リポジトリはGitHub – rlresearch/dr-tulu: Official repository for DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research
  • Qwen3-VL Technical Report [153.4]
    Qwen3-VLは、これまでで最も有能な視覚言語モデルであり、幅広いマルチモーダルベンチマークで優れた性能を実現している。 最大256Kトークンのインターリーブコンテキストをサポートし、テキスト、画像、ビデオをシームレスに統合する。 Qwen3-VLは3つの中核柱を提供する: (i) 非常に強い純粋テキスト理解、いくつかのケースにおいて同等のテキストのみのバックボーンを超える、 (ii) テキスト入力とインターリーブされたマルチモーダル入力の両方に256Kのネイティブウィンドウを持つ堅牢な長期理解、 (iii) シングルイメージ、マルチイメージ、ビデオタスクをまたいだ高度なマルチモーダル推論。
    論文  参考訳(メタデータ)   (Wed, 26 Nov 2025 17:59:08 GMT)
  • 「The Qwen3-VL framework integrates a vision encoder and a language model decoder to process multimodal inputs, including text, images, and video. The vision encoder is specifically designed to handle dynamic, native-resolution visual inputs, mapping them to visual tokens of variable length.」という構成、商用モデルと比較可能な性能、一部は上回る。
  • リポジトリはGitHub – QwenLM/Qwen3-VL: Qwen3-VL is the multimodal large language model series developed by Qwen team, Alibaba Cloud.

OmniScientist: Toward a Co-evolving Ecosystem of Human and AI Scientists 

  • OmniScientist: Toward a Co-evolving Ecosystem of Human and AI Scientists [47.4]
    我々は、人間の研究の基盤となるメカニズムをAI科学ワークフローにエンコードするフレームワークであるOmniScientistを紹介します。 OmniScientistは、データ基盤全体にわたるエンドツーエンドの自動化、文献レビュー、研究のアイデア、実験の自動化、科学的執筆、ピアレビューを実現している。 このインフラは、エージェントが人間の知識システムを理解し、活用するだけでなく、協力し、共同開発することを可能にする。
    論文  参考訳(メタデータ)   (Fri, 21 Nov 2025 03:55:19 GMT)
  • 「OmniScientist not only achieves end-to-end automation across data foundation, literature review, research ideation, experiment automation, scientific writing, and peer review, but also provides comprehensive infrastructural support by simulating the human scientific system, comprising: (1) a structured knowledge system built upon citation networks and conceptual correlations; (2) a collaborative research protocol (OSP), which enables seamless multi-agent collaboration and human researcher participation; and (3) an open evaluation platform (ScienceArena) based on blind pairwise user voting and Elo rankings. This infrastructure em- powers agents to not only comprehend and leverage human knowledge systems but also to collaborate and co-evolve, fostering a sustainable and scalable innovation ecosystem.」と非常に強力なエージェントであることを主張、ケーススタディで有効性を確認している。現時点ではAI研究が主たるターゲットになっているよう。
  • OmniScientistにサイトが公開されている

Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory 

  • Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.7]
    Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。 10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
    論文  参考訳(メタデータ)   (Tue, 25 Nov 2025 21:08:07 GMT)
  • 「The benchmark covers both multi-turn goal-oriented environments and single-turn reasoning or problem-solving tasks, explicitly testing whether LLMs can accumulate knowledge and refine strategies during deployment, a process we term test-time evolution. We unify and implement over ten representative memory modules, including retrieval-based, workflow, and hierarchical memory systems, to study their adaptation behavior. To further examine experience reuse, we introduce ExpRAG, a simple retrieval-based baseline that leverages prior task experiences, and further develop ReMem, an advanced action–think–memory refine pipeline that tightly integrates reasoning, action, and memory updates for continual improvement.」とのこと。比較が難しい分野でありとてもありがたいベンチマーク。シンプルな戦略が好スコアを出している点も興味深い。。。

Future Is Unevenly Distributed: Forecasting Ability of LLMs Depends on What We’re Asking 

  • Future Is Unevenly Distributed: Forecasting Ability of LLMs Depends on What We’re Asking [1.1]
    本研究では,モデルカットオフ日を超えて発生した事象に関する実世界の質問に対して,モデルファミリの異なるモデルファミリで,予測性能がどう変化するかを検討する。 我々は,文脈,質問タイプ,外部知識が精度やキャリブレーションにどのように影響するか,事実的ニュースコンテキストの追加が信念の形成や失敗モードをどう修正するかを分析する。
    論文  参考訳(メタデータ)   (Sun, 23 Nov 2025 10:41:19 GMT)
  • LLMの予測能力の検証と失敗事例の分析、「Forecasting competence in LLMs is highly uneven, reflecting not only data coverage but the cognitive framing embed- ded in prompts. While we may expect adding recent news should improve forecasting accuracy, we find that sometimes it does while at other times it makes it worse because of definition drift, rumour anchoring and recency bias etc. emergent, and invite design of benchmarks that disentangle knowledge recall from probabilistic inference.」はまぁそうだろうと思う。