Claude Opus 4.5, DeepSeekMath-V2, DR Tulu, Qwen3-VL, HunyuanVideo 1.5

先週はOpus 4.5の発表(Introducing Claude Opus 4.5 \ Anthropic)があり、Anthropic Clodeが特にコード生成においてさすがの性能を見せた。

公開モデル関連では数学に強いDeepSeekMath-V2(deepseek-ai/DeepSeek-Math-V2 · Hugging Face)、Deep Researchに強いDR Tulu(DR Tulu: An open, end-to-end training recipe for long-form deep research | Ai2)やQwen3-VL、HunyuanVideo 1.5のテクニカルレポートに注目という状況。

  • DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research [152.2]
    ディープ・リサーチ・モデルは、多段階の研究を行い、長文でよく理解された回答を生成する。 ほとんどのオープンディープリサーチモデルは、検証可能な報酬を伴う強化学習を通じて、短い形式のQAタスクで訓練されている。 我々は、オープンエンドで長期のディープリサーチのために直接訓練された最初のオープンモデルであるDeep Research Tulu (DR Tulu-8B)を開発した。
    論文  参考訳(メタデータ)   (Wed, 26 Nov 2025 14:52:10 GMT)
  • 「In this paper, we introduce Deep Research Tulu (DR Tulu-8B), the first open model that is directly trained for open-ended, long-form deep research tasks. To address the challenge of verification in long-form tasks, DR Tulu is first finetuned on high-quality, naturally occurring user data, and then trained via a new method we call Reinforcement Learning with Evolving Rubrics (RLER), in which we construct and maintain rubrics that co-evolve with the policy model during training.」とDeepResearchに特化したモデルの提案。強化学習部分も興味深い構成。
  • リポジトリはGitHub – rlresearch/dr-tulu: Official repository for DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research
  • Qwen3-VL Technical Report [153.4]
    Qwen3-VLは、これまでで最も有能な視覚言語モデルであり、幅広いマルチモーダルベンチマークで優れた性能を実現している。 最大256Kトークンのインターリーブコンテキストをサポートし、テキスト、画像、ビデオをシームレスに統合する。 Qwen3-VLは3つの中核柱を提供する: (i) 非常に強い純粋テキスト理解、いくつかのケースにおいて同等のテキストのみのバックボーンを超える、 (ii) テキスト入力とインターリーブされたマルチモーダル入力の両方に256Kのネイティブウィンドウを持つ堅牢な長期理解、 (iii) シングルイメージ、マルチイメージ、ビデオタスクをまたいだ高度なマルチモーダル推論。
    論文  参考訳(メタデータ)   (Wed, 26 Nov 2025 17:59:08 GMT)
  • 「The Qwen3-VL framework integrates a vision encoder and a language model decoder to process multimodal inputs, including text, images, and video. The vision encoder is specifically designed to handle dynamic, native-resolution visual inputs, mapping them to visual tokens of variable length.」という構成、商用モデルと比較可能な性能、一部は上回る。
  • リポジトリはGitHub – QwenLM/Qwen3-VL: Qwen3-VL is the multimodal large language model series developed by Qwen team, Alibaba Cloud.

Grok 4.1, Gemini 3Pro, GPT-5.1 Pro / Codex , Nano Banana Pro (Gemini Image Pro), Olmo 3, Step-Audio-R1, Omnilingual ASR

先週はフロンティアモデルレベルでの激戦がよくわかる週であった。Grok 4.1(Grok 4.1 | xAI)、Gemini3 Pro(Gemini 3 Pro – Google DeepMind、GPT-5.1 Pro(XユーザーのOpenAIさん: 「GPT-5.1 Pro is rolling out today to all Pro users. It delivers clearer, more capable answers for complex work, with strong gains in writing help, data science, and business tasks.」 / X)GPT-5.1-Codex-Max(Building more with GPT-5.1-Codex-Max | OpenAI)と大きな発表が相次いだ。公式のベンチマーク結果の他、様々な方が検証を行っていて、個人的にも検証をしているが、LLM/LRMの性能アップはまだいけるのではないか、と期待の持てる結果になっている。

Googleの Nano Banana Pro(XユーザーのGoogle AIさん: 「Rolling out today we are launching Nano Banana Pro, the world’s best image model built to move beyond casual creation and into a new era of studio-quality, functional design. Nano Banana Pro enables a new level of precision and creative control, transforming the way you bring https://t.co/BsyAgkUY7X」 / X)は画像生成のレベルが1段抜けている印象がある。Geminiのマルチモーダル性能が優れている点など総合力でさすがGoogleとの印象がある今日この頃。

公開モデルでもOlmo3(XユーザーのNathan Lambertさん: 「We present Olmo 3, our next family of fully open, leading language models. This family of 7B and 32B models represents: 1. The best 32B base model. 2. The best 7B Western thinking & instruct models. 3. The first 32B (or larger) fully open reasoning model. This is a big https://t.co/dpMtRHSjRp」 / X)が出ている。32Bモデルとしては最高レベルの性能(Olmo Improvement Benchmark)、音声領域におけるStep-Audio-R1、Omnilingual ASRなどこちらの流れも勢いは衰えていない。

  • Step-Audio-R1 Technical Report [70.4]
    本稿では,音声領域における推論能力の解放に成功した最初の音声推論モデルであるStep-Audio-R1を紹介する。 私たちのモデルは、Gemini 2.5 Proを抜いて、最先端のGemini 3 Proに匹敵するパフォーマンスを実現した、強力なオーディオ推論能力を示しています。
    論文  参考訳(メタデータ)   (Wed, 19 Nov 2025 20:12:50 GMT)
  • Gemini 3 Proとも競合を主張、「Step-Audio-R1, the first audio reasoning model that successfully unlocks reasoning capabilities in the audio domain」
  • リポジトリはGitHub – stepfun-ai/Step-Audio-R1
  • Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages [76.1]
    大規模自動音声認識システムであるOmnilingual ASRを紹介する。 自己教師付き事前学習を7Bパラメータに拡張し、堅牢な音声表現を学習する。 ASRが提供しなかった500以上の言語を含む1,600以上の言語にカバー範囲を広げている。
    論文  参考訳(メタデータ)   (Fri, 14 Nov 2025 01:04:28 GMT)
  • 「Omnilingual ASR illustrates how scaling methods, when combined with deliberate data collection and new architectural innovation, can reshape the trajectory of multilingual ASR. The project not only extends coverage to more than 1,600 languages, with over 500 represented for the first time in any ASR system, but also reframes how coverage itself is conceived.」と非常に多くの言語をカバーするモデル
  • リポジトリはGitHub – facebookresearch/omnilingual-asr: Omnilingual ASR Open-Source Multilingual SpeechRecognition for 1600+ Languages

GPT-5.1, ERNIE 5, Marble, SIMA2

先週もGPT-5.1の公開(GPT-5.1: A smarter, more conversational ChatGPT | OpenAI)、ERNIE 5の公開(XユーザーのBaidu Inc.さん: 「Here comes ERNIE 5.0 — our latest natively omni-modal foundational model. It excels in omni-modal understanding, creative writing, instruction following, and more. We will continue investing in and developing more cutting-edge models to push the boundaries of intelligence. https://t.co/S3L1Tlre2n」 / X)などニュースが続いた。評価はこれから、という感じではあるが大規模展開をすぐに行っていくのがすごい。

動画生成、3D生成など生成モデルをベースとしてWorld Model構築のトライが流行っており、Marble: A Multimodal World Model | World Labsも要注目である。同じく先週発表されたSIMA 2: A Gemini-Powered AI Agent for 3D Virtual Worlds – Google DeepMindのなかでGenie3(Genie 3: A new frontier for world models – Google DeepMind)への言及がある通りAI Agentが学ぶ場としても有効に思える。AIの内心・想像の世界としても有効性が指摘されていてホットな領域。

Kimi K2 Thinking, LongCat-Flash-Omni, iFlyBot-VLA, Nemotron Nano V2 VL

先週も様々な公開モデルやテクニカルレポートの公開があった。非常に進展が速くフロンティアモデルに迫るものが公開されている凄い状況である。

Kimi K2 Thinking(Kimi K2 Thinkingmoonshotai/Kimi-K2-Thinking · Hugging Face)は一部ベンチマークでGPT=5などフロンティアモデルを超える性能を主張するモデル。1Tパラメータ、Active 32BはGrok 4, Phi4-mini-Flash-Reasoning, SmolLM3, Kimi-K2, T5Gemma – arXiv最新論文の紹介の時と同じで「Starting with Kimi K2, we built it as a thinking agent that reasons step-by-step while dynamically invoking tools. It sets a new state-of-the-art on Humanity’s Last Exam (HLE), BrowseComp, and other benchmarks by dramatically scaling multi-step reasoning depth and maintaining stable tool-use across 200–300 sequential calls.」とのこと。

マルチモーダルモデルとしてはLongCat-Flash-Omni(meituan-longcat/LongCat-Flash-Omni · Hugging Face), iFlyBot-VLA(iFlyBot-VLA Tech ReportiFlyBot/iFlyBotVLM · Hugging Face), Nemotron Nano V2 VL(nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1 · Hugging Face)のテクニカルレポートが公開されていた。

  • iFlyBot-VLA Technical Report [25.3]
    iFlyBot-VLA(iFlyBot-VLA)は、新しいフレームワークでトレーニングされた大規模ビジョン・ランゲージ・アクション(VLA)モデルである。 主なコントリビューションは,(1)大規模人体とロボットの操作映像を徹底的に訓練した潜在行動モデル,(2)視覚言語モデル(VLM)と訓練中のアクションエキスパートを協調的に監督する2段階の行動表現フレームワーク,(3)ロボット軌道データと一般的なQAデータセットと空間QAデータセットを組み合わせた混合トレーニング戦略である。
    論文  参考訳(メタデータ)   (Sat, 01 Nov 2025 06:24:56 GMT)
  • iFlyTechのVLAモデル、「The architecture of iFlyBot-VLA consists primarily of a language transformer backbone and an action expert network. The model generates executable robot actions through a combination of explicit and implicit planning.」とのこと
  • iFlyBot/iFlyBotVLM · Hugging Face
  • NVIDIA Nemotron Nano V2 VL [134.5]
    ネモトロン・ナノV2VLは、マンバ・トランスフォーマーのハイブリッドLLMであるネモトロン・ナノV2上に構築される。 BF16、FP8、FP4フォーマットでモデルチェックポイントをリリースしています。
    論文  参考訳(メタデータ)   (Thu, 06 Nov 2025 00:10:19 GMT)
  • 「Nemotron Nano V2 VL delivers significant improvements over our previous model, Llama-3.1-Nemotron-Nano-VL-8B, across all vision and text domains through major enhancements in model architecture, datasets, and training recipes. Nemotron Nano V2 VL builds on Nemotron Nano V2, a hybrid Mamba-Transformer LLM, and innovative token reduction techniques to achieve higher inference throughput in long document and video scenarios.」とハイブリッド構成なマルチモーダルモデル
  • nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1 · Hugging Face

A Survey on Efficient Large Language Model Training: From Data-centric Perspectives

  • A Survey on Efficient Large Language Model Training: From Data-centric Perspectives [42.9]
    本稿では,データ中心の観点から学習後のデータ効率の高い大規模言語モデルに関する最初の体系的な調査を示す。 本稿では,データ選択,データ品質向上,合成データ生成,データ蒸留・圧縮,自己進化型データエコシステムを対象とする,データ効率の高いLCMポストトレーニング手法の分類法を提案する。 我々の研究が、大規模モデルトレーニングにおけるデータ利用の可能性の最大化に、さらなる探究を促すことを願っています。
    論文  参考訳(メタデータ)   (Wed, 29 Oct 2025 17:01:55 GMT)
  • 「We propose a taxonomy of data-efficient LLM post-training methods, covering data selection, data quality enhancement, synthetic data generation, data distillation and compression, and self-evolving data ecosystems. We summarize representative approaches in each category and outline future research directions.」というサーベイ。
  • リポジトリはGitHub – luo-junyu/Awesome-Data-Efficient-LLM: A list of data-efficient and data-centric LLM (Large Language Model) papers. Our Survey Paper: Towards Efficient LLM Post Training: A Data-centric Perspective

A Survey of AI Scientists: Surveying the automatic Scientists and Research

  • A Survey of AI Scientists: Surveying the automatic Scientists and Research [34.9]
    人工知能は、計算機器から科学知識の自律的創始者へと大きく移行している。 本調査では, エンド・ツー・エンドの科学的プロセスを, 文献レビュー, イデオロギー生成, 実験準備, 実験実施, 科学著作, 論文生成に分解する, 統合された6段階の方法論的枠組みを紹介する。
    論文  参考訳(メタデータ)   (Mon, 27 Oct 2025 06:13:21 GMT)
  • 「This survey provides a systematic and comprehensive synthesis of this emerging domain by introducing a unified, six-stage methodological framework that deconstructs the scientific process into: Literature Review, Idea Generation, Experimental Preparation, Experimental Execution, Scientific Writing, and Paper Generation. Through this analytical lens, we systematically map and analyze dozens of seminal works from 2022 to late 2025, revealing a clear three-phase evolutionary trajectory.」と科学へのAI活用に関するサーベイ。
  • リポジトリはGitHub – Mr-Tieguigui/Survey-for-AI-Scientist: A comprehensive survey for AI Scientist.

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM 

  • OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM [128.4]
    我々はOmniVinciを紹介します。OmniVinciは強力でオープンソースのOmni-modal LLMを構築するためのイニシアチブです。 モデルアーキテクチャでは、(i)OmniAlignNetで視覚とオーディオの埋め込みのアライメントを強化する方法、(ii)視覚と音声信号の時間的アライメントをキャプチャするための時間的エンベディンググループ、(iii)オムニモーダル埋め込みにおける絶対時間的情報をエンコードするための制約付きロータリー時間エンベディングという3つの重要なイノベーションを提示する。
    論文  参考訳(メタデータ)   (Fri, 17 Oct 2025 17:59:59 GMT)
  • 「we introduce a new framework to harmonize vision and audio embeddings in a unified omni-modal embedding space, featuring three new techniques: (i) OmniAlignNet that learns to construct a modality-shared space to align vision and audio embeddings from the same video; (ii) Temporal Embedding Grouping that divides the time dimension into multiple chunks and reorganizes the vision and audio embeddings according to their timestamps to align with the corresponding chunks; (iii) Constrained Rotary Time Embedding to directly insert periodic temporal information into vision-audio embeddings.」とマルチモーダルなLLMの提案
  • プロジェクトサイトはOmniVinci: Joint Visual-Audio Understanding

Outraged AI: Large language models prioritise emotion over cost in fairness enforcement 

  • Outraged AI: Large language models prioritise emotion over cost in fairness enforcement [13.5]
    我々は,大言語モデル (LLM) が感情を用いて罰を導いていることを示す。 不公平はより強い否定的な感情をもたらし、より多くの罰を導いた。 将来のモデルでは、人間のような感情的知性を達成するために、感情を文脈に敏感な推論と統合すべきである。
    論文  参考訳(メタデータ)   (Fri, 17 Oct 2025 08:41:36 GMT)
  • third-party punishment (TPP) gameを用いたLLMの分析。「This emotion–behaviour coupling was robust and even stronger than humans across reasoning models (o3-mini, DeepSeek-R1) and an advanced foundation model (DeepSeek-V3), with the older GPT-3.5 baseline showing a weaker and less consistent effect. Analyses of the model's rationales further corroborated that elicited emotions were invoked before punitive choices (e g , references to anger in DeepSeek-R1), consistent with emotion-guided decision processes.」、「reasoning LLMs reported stronger affect to unfairness, and prioritised emotion over fairness and cost, whereas humans weighted fairness and cost more heavily75. These dissociations indicate that current LLMs have not fully internalised the human-like cost–benefit calculus that tempers norm enforcement.」など面白い結果が多い。LLM/LRMを高度な分野に使っていくにあたっては人間との差異があることを大前提として注意深い評価が必要なんだろうと思う。
  • Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games, How large language models judge and influence human cooperation – arXiv最新論文の紹介」でも思ったがこの手の研究はとても興味深い。

ChatGPT Atlas, Ring-1T, DeepSeek OCR, olmOCR 2

先週はChatGPT Atlas(ChatGPT Atlas)の話題が多かった。GUI Agent(より正確にはブラウザエージェント)のように人が操作しているようにUIを使うエージェントには期待大。

Ring-1TはAnt groupによるLRM、1TパラメータのMoE構成で性能も高い。

また、DeepSeek OCRもバズっていた。OCR性能というよりもコンテキストとして画像データを使う有効性が興味深い。OCRとしてはOlmoOCRのv2も出ていてOSSの動きも盛ん。

  • DeepSeek-OCR: Contexts Optical Compression [15.6]
    我々は,DeepSeek-OCRを,光学的2次元マッピングによる長期コンテキストの圧縮の実現可能性に関する最初の調査として紹介する。 DeepSeek-OCRはDeepEncoderとDeepSeek3B-MoE-A570Mの2つのコンポーネントで構成されている。 実験により、テキストトークンの数がビジョントークンの10倍以内であれば、モデルがデコード(OCR)精度を97%達成できることが示された。
    論文  参考訳(メタデータ)   (Tue, 21 Oct 2025 02:41:44 GMT)
  • ドキュメントの画像をコンテキストとした扱う構成のLLM、「In this technical report, we propose DeepSeek-OCR and preliminarily validate the feasibility of contexts optical compression through this model, demonstrating that the model can effectively decode text tokens exceeding 10 times the quantity from a small number of vision tokens. We believe this finding will facilitate the development of VLMs and LLMs in the future.」と効率的なよう。
  • リポジトリはGitHub – deepseek-ai/DeepSeek-OCR: Contexts Optical Compression
  • olmOCR 2: Unit Test Rewards for Document OCR [29.5]
    olmOCR 2は、PDFのようなデジタル化された印刷文書を、クリーンで自然に順序付けられたプレーンテキストに変換する強力なOCRシステム群の最新版です。 olmOCR 2は、強化学習を用いて訓練された7B視覚言語モデル(VLM)であるolmOCR-2-7B-1025で駆動される。 これらのテストケースに対するRLトレーニングは、我々の英語OCRベンチマークであるolmOCR-Benchにおける最先端のパフォーマンスをもたらすことを示す。
    論文  参考訳(メタデータ)   (Wed, 22 Oct 2025 17:53:02 GMT)
  • こちらはOCR、olmOCRのバージョン2。「To scale unit test creation, we develop a pipeline for generating synthetic documents with diverse and challenging layouts, known ground-truth HTML source code, and extracted test cases.」と合成データを活用するアプローチ。
  • リポジトリはGitHub – allenai/olmocr: Toolkit for linearizing PDFs for LLM datasets/training

Hierarchical Frequency Tagging Probe (HFTP): A Unified Approach to Investigate Syntactic Structure Representations in Large Language Models and the Human Brain 

  • Hierarchical Frequency Tagging Probe (HFTP): A Unified Approach to Investigate Syntactic Structure Representations in Large Language Models and the Human Brain [11.9]
    大きな言語モデル(LLM)は、人間のレベルや優れた言語能力を示している。 重要な疑問は、LLMの行動能力が人間の脳に類似したメカニズムに由来するかどうかである。 GPT-2, Gemma, Gemma 2, Llama 2, Llama 3.1, GLM-4などのモデルでは, ヒトの脳は異なるシナティクスレベルにおいて異なる皮質領域に依存している。
    論文  参考訳(メタデータ)   (Wed, 15 Oct 2025 08:04:49 GMT)
  • 「This study advances syntactic processing by introducing the Hierarchical Frequency Tagging Probe (HFTP), a unified framework for dissecting neuron-wise sentence and phrase representations in LLMs, population-level patterns in the human brain, and generalizing seamlessly to naturalistic text. The results reveal that while LLMs, such as GPT-2, Gemma, Llama 2, and others, exhibit hierarchical syntactic processing and alignment with left-hemisphere brain activity, the mechanisms underlying their representations diverge significantly from those in human cortical regions. Notably, newer models like Gemma 2 demonstrate improved alignment, whereas others, such as Llama 3.1, show weaker human-model correlations despite enhanced task performance.」とのこと。脳との類似性が本当にあるのか(それが判断可能なレベルで情報取得&分析できるのか)など疑問点はあるものの、面白い研究。
  • リポジトリはGitHub – LilTiger/HFTP: Hierarchical Frequency Tagging Probe (HFTP): A Unified Approach to Investigate Syntactic Structure Representations in Large Language Models and the Human Brain