MiniMax M2, Kimi-Linear, Ling-V2, Ouro, Emu3.5, gpt-oss-safeguard

先週は公開モデルの話題が多く、その中でもMiniMax-M2 Kimi-Linearは要注目。特に後者は効率性も高い。先週のRingとややこしいが、Ling-V2も強力なモデルである(This report focuses on three reflex-grade non-thinking (instruct) models in the Ling 2.0 family—Ling-mini-2.0, Ling-flash-2.0, and Ling-1T. These models emphasize general reasoning and instruction-following capability, while the Ring series (Ling-Team, 2025), built upon the same Ling 2.0 base, extends toward deep thinking models.とのこと)。また、小型モデルであるOuro-2.6B Ouro-2.6B-Thinkingも興味深かった。

上記とは異なるがマルチモーダルなEmu3.5、分類タスク(safety classification tasks)用のgpt-oss-safeguardなど強力なモデルが公開されるのは良いことだと思う。(最後の例は想定活用例が他とはだいぶ異なりそうではあるが。。)

  • Kimi Linear: An Expressive, Efficient Attention Architecture [75.9]
    Kimi Linearはハイブリッドな線形アテンションアーキテクチャで、初めて、公正な比較で完全にアテンションを上回ります。 中心となるKimi Delta Attention (KDA)は、Gated DeltaNetを拡張した表現力のある線形アテンションモジュールである。 我々は,Kimi Linearがより優れた性能と効率で十分な注意を払って,ドロップインで置き換えられることを示す。
    論文  参考訳(メタデータ)   (Thu, 30 Oct 2025 16:59:43 GMT)
  • 「At its core lies Kimi Delta Attention (KDA), a hardware-efficient linear attention module that extends Gated DeltaNet [111] with a finer-grained gating mechanism. While GDN, similar to Mamba2 [16], employs a coarse head-wise forget gate, KDA introduces a channel-wise variant in which each feature dimension maintains an independent forgetting rate, akin to Gated Linear Attention (GLA) [114]. This fine-grained design enables more precise regulation of the finite-state RNN memory, unlocking the potential of RNN-style models within hybrid architectures.」をハイブリッド構成で活用。
  • GitHub – MoonshotAI/Kimi-Linear
  • Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation [149.0]
    Ling 2.0は、すべてのアクティベーションが推論能力を促進するという原則に基づいて構築された一連の推論指向の言語基盤である。 Ling 2.0は、経験的スケーリング法則によって導かれる、高い分散性、クロススケール一貫性、効率性を強調している。 シリーズには、Ling-mini-2.0、Ling-flash-2.0、Ling-1Tの3つの非思考モデルが含まれている。
    論文  参考訳(メタデータ)   (Sat, 25 Oct 2025 01:51:37 GMT)
  • 長いReasoningにフォーカスしたRing-1Tとはことなり、一般的な推論や指示に従う能力にフォーカス
  • GitHub – inclusionAI/Ling-V2: Ling-V2 is a MoE LLM provided and open-sourced by InclusionAI.
  • Scaling Latent Reasoning via Looped Language Models [109.6]
    事前学習されたループ言語モデル(LoopLM)のファミリーであるOuroを提示し、オープンソース化する。 Ouro は (i) 潜時空間における反復計算, (ii) 学習深度割り当てのためのエントロピー規則化された目的, (iii) 7.7T トークンへのスケーリングによる事前学習段階への推論を構築する。
    論文  参考訳(メタデータ)   (Wed, 29 Oct 2025 17:45:42 GMT)
  • Looped Language Model (LoopLM) architectureによるモデル構築の報告。「we introduced Ouro, a family of Looped Language Models that demonstrate exceptional parameter efficiency by integrating iterative computation and adaptive depth directly into pre-training on 7.7T tokens. Our 1.4B and 2.6B models consistently match or exceed the performance of 4B and 8B standard transformers, showcasing a 2-3× efficiency gain.」と非常に効率が高い。
  • Ouro: Looped Language Models
  • Parallel Loop Transformer for Efficient Test-Time Computation Scaling [34.8]
    大規模言語モデル(LLM)は強力だが、推論中に現実世界で使うには遅すぎるしコストもかかる。 ループ変換器は、複数の計算ステップで同じ重みを再利用することでパラメータを節約する。 ループが次々と実行され、各追加ループで推論遅延とメモリ要求が増大する。
    論文  参考訳(メタデータ)   (Tue, 28 Oct 2025 15:35:50 GMT)
  • こちらは並列のParallel Loop Transformer (PLT)
  • Emu3.5: Native Multimodal Models are World Learners [65.9]
    Emu3.5は大規模マルチモーダル世界モデルで、視覚と言語をまたいだ次の状態をネイティブに予測する。 Emu3.5は、視覚言語間のインターリーブデータのコーパスに基づいて、一貫した次トーケン予測目標を持つ、エンドツーエンドで事前訓練された。 それは、一貫した世界探索とオープンワールドの具体的操作を可能にする、一般化可能な世界モデリング能力を示す。
    論文  参考訳(メタデータ)   (Thu, 30 Oct 2025 15:11:16 GMT)
  • Emuシリーズ(Emu3: Next-Token Prediction is All You Need – arXiv最新論文の紹介)の最新版。「Emu3.5 further exhibits generalizable worldmodeling abilities encompassing world exploration and embodied manipulation, enabling controllable interaction, free-form navigation, and dynamic scene simulation across both real and imagined environments. We carefully evaluate these new capabilities and demonstrate clear superiority of Emu3.5, a single 32B unified model, over the closed-source Gemini 2.5 Flash Image [91].」とのこと。
  • emu.world/pages/web/landingPageGitHub – baaivision/Emu3.5: Native Multimodal Models are World Learners

Hunyuan3D-Omni, Qwen3-Omni, LongCat-Flash-Thinking, EmbeddingGemma, Logics-Parsing 

公開モデルの開発はとても盛んで、先週はQwen3 Omniが話題になることが多かったように思う。arXivではQwen3 Omini以外にも有望なモデルの発表が相次いでいる。

  • Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets [34.7]
    Hunyuan3D-Omniは、Hunyuan3D 2.1上に構築されたきめ細かい制御可能な3Dアセット生成のための統一されたフレームワークである。 我々のモデルは単一のクロスモーダルアーキテクチャで全ての信号を統一する。 実験により、これらの追加制御により生成精度が向上し、幾何認識変換が可能となり、生産の堅牢性も向上することが示された。
    論文  参考訳(メタデータ)   (Thu, 25 Sep 2025 14:39:17 GMT)
  • 3Dにフォーカスした実装
  • リポジトリはGitHub – Tencent-Hunyuan/Hunyuan3D-Omni: Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
  • LongCat-Flash-Thinking Technical Report [116.8]
    LongCat-Flash-ThinkingはオープンソースのMixture-of-Experts (MoE)推論モデルである。 高度な能力は、巧妙に製作された訓練プロセスを通じて育成される。 LongCat-Flash-Thinkingは、複雑な推論タスクのスイート上で、オープンソースモデル間の最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Tue, 23 Sep 2025 10:25:48 GMT)
  • MoEなLRM、OSSなモデルでのSoTAを主張
  • リポジトリはmeituan-longcat/LongCat-Flash-Thinking · Hugging Face
  • EmbeddingGemma: Powerful and Lightweight Text Representations [42.4]
    EmbeddingGemmaはGemma 3言語ファミリに基づいた、新しい軽量でオープンなテキスト埋め込みモデルである。 スプレッドアウト正規化器を用いてモデル頑健性と表現性を向上する。 さらなる研究を促進するため、コミュニティに EmbeddingGemma をリリースします。
    論文  参考訳(メタデータ)   (Wed, 24 Sep 2025 17:56:51 GMT)
  • 小規模、強力なEmbeddingモデル
  • リポジトリはEmbeddingGemma – a google Collection
  • Logics-Parsing Technical Report [9.0]
    我々は、強化学習を付加したエンドツーエンドのLVLMモデルであるLogics-Parsingを提案する。 本モデルでは、複雑なレイアウト解析と読み出し順序推定を最適化するために、厳密に設計された報酬機構を組み込んでいる。 LogicsParsingBenchは、9つの主要なカテゴリと20以上のサブカテゴリにまたがる1,078ページレベルのPDFイメージのキュレートされたセットである。
    論文  参考訳(メタデータ)   (Wed, 24 Sep 2025 04:54:37 GMT)
  • Document Understandingに有効なLVLM
  • リポジトリはGitHub – alibaba/Logics-Parsing

MMORE: Massive Multimodal Open RAG & Extraction

MobileLLM-R1, APERTUS

先週はOpenAIによるICPCの成果(https://x.com/MostafaRohani/status/1968360976379703569)などが話題になった。クローズドモデルの性能向上は本当にすごい。とはいえ、Metaによる小型モデルMobileLLM-R1(facebook/MobileLLM-R1-950M · Hugging Face)やオープンかつ権利関係にも気を使い他のモデルと競合的な性能を達成しているAPERTUS など公開モデルの取り組みも興味深い状況が続く。本当に目が離せない。

  • Apertus: Democratizing Open and Compliant LLMs for Global Language Environments [163.7]
    Apertusは、今日のオープンモデルエコシステムにおける2つのシステム的欠点に対処するために設計された、大きな言語モデル(LLM)の完全なオープンスイートである。 Apertusモデルは、公開データにのみ事前訓練されており、ロボット.txtの除外や、非許容的で有毒で個人が特定可能なコンテンツに対するフィルタリングを尊重している。 Apertusモデルはまた、1800以上の言語から15Tトークンをトレーニングし、非英語コンテンツに割り当てられた事前トレーニングデータの40%をトレーニングしている。
    論文  参考訳(メタデータ)   (Wed, 17 Sep 2025 17:59:21 GMT)
  • オープンかつ多言語、さらに権利関係にもかなり配慮しているモデル「The models are trained on 15T tokens from 1811 languages with retroactive respect for robots.txt and related opt outs, and with a Goldfish-style objective to curb verbatim reproduction of training text.」。性能もかなり高く、非常に興味深い。
  • モデルはswiss-ai/Apertus-70B-Instruct-2509 · Hugging Face

Command A Reasoning, DeepSeek V3.1, Gemma 3 270M, Nemotron Nano 2, Dream 7B

LLM/LRM関連の話題は本当に多い。先週はCohere’s Command A Reasoning Model | Cohere(モデルはCohere’s Command A Reasoning Model | Cohere、CC-BY-NC)の公開、DeepSeek V3.1の公開(DeepSeek-V3.1 Release | DeepSeek API Docs、モデルはdeepseek-ai/DeepSeek-V3.1 · Hugging Face)が大きなニュースだった。フロンティアまたはそれに近いモデルが公開される意義は大きい。また、Intern-S1からはテクニカルレポートが公開されている。

a

小型モデル関連でもGemma 3 270M(Introducing Gemma 3 270M: The compact model for hyper-efficient AI – Google Developers Blog、モデルはgoogle/gemma-3-270m · Hugging Face)は超小型であることが興味深い。性能的には疑問があるとはいえ特化用途にPost trainingするなど使える場面はありそう。NVIDIA のMemtron Nano2も注目である(Nanoという名前で9B)。

HuaweiからはDiffusion系のDream 7Bの論文が出ていた。LLaDAを超え、同規模のAutoregressiveなモデルに負けていなさそうと高い性能。

  • Intern-S1: A Scientific Multimodal Foundation Model [185.4]
    Intern-S1は、一般的な理解と推論機能を備えた専門的なジェネラリストである。 Intern-S1はオフラインおよびオンライン強化学習(RL)をInternBootCampで実施する。 Intern-S1は、オープンソースモデル間の一般的な推論タスクにおける競合性能を示す。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 17:58:00 GMT)
  • Qwen3-Coder, Intern-S1, Step-Audio2, TeleChat2 – arXiv最新論文の紹介で取り上げたモデルのテクニカルレポート
  • NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model [176.4]
    Nemotron-Nano-9B-v2は、推論処理のスループットを向上させるために設計されたハイブリッドのMamba-Transformer言語モデルである。 Nemotron-Nano-9B-v2はNemotron-Hアーキテクチャをベースにしており、共通のTransformerアーキテクチャの自己保持層の大部分をMamba-2層に置き換えている。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 04:18:04 GMT)
  • nvidia/NVIDIA-Nemotron-Nano-9B-v2 · Hugging Face
  • Dream 7B: Diffusion Large Language Models [85.3]
    これまでで最も強力なオープン拡散大言語モデルであるDream 7Bを紹介します。 我々のモデルは、一般的な、数学的、コーディングタスクにおいて、既存の拡散言語モデルよりも一貫して優れています。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 12:09:58 GMT)
  • 「Dream 7B achieves competitive performance with Qwen 2.5 on standard benchmarks (general language understanding, mathematical reasoning, and code generation) while exhibiting superior planning abilities and novel inference flexibility features that naturally emerge from the diffusion modeling paradigm.」とのこと。
  • リポジトリはGitHub – DreamLM/Dream: Dream 7B, a large diffusion language model、モデルはDream 7B – a Dream-org Collection

NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale 

  • NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale [101.6]
    NextStep-1は、テキストから画像生成タスクにおける自動回帰モデルの最先端のパフォーマンスを実現する。 本手法は画像編集において高い性能を示し,統一的アプローチのパワーと汎用性を強調した。
    論文  参考訳(メタデータ)   (Thu, 14 Aug 2025 14:54:22 GMT)
  • StepFunによるAutoregressive Image Generation
  • リポジトリはGitHub – stepfun-ai/NextStep-1、Weightも公開されているNextStep-1 – a stepfun-ai Collection

ERNIE4.5, Kwai Keye-VL, Ovis-U1, GLM-4.1V-Thinking, Confucius3-Math

ERNIE4.5(GitHub – bigdavidone/ERNIE4_5: The official repository for ERNIE 4.5 and ERNIEKit – its industrial-grade development toolkit based on PaddlePaddle.)の登場の他、公開モデルも色々と出ている。効率的な構造、一定の特化を行うことで商用モデルに迫る性能を達成しているものも多い。

ERNIE 4.5 Technical Report
本報告では、10種類の異なるバリアントからなる新しい大規模マルチモーダルモデル「ERNIE 4.5」を紹介しています。このモデルは、47Bおよび3Bのアクティブパラメータを持つMixture-of-Experts(MoE)アーキテクチャを採用し、テキスト関連タスクの性能を向上させつつマルチモーダル理解を強化します。全てのモデルはApache 2.0の下で公開され、研究や開発の支援を目的としたオープンソースの開発ツールキットも提供されています。論文Publication | ERNIE Blog

  • Kwai Keye-VL Technical Report [80.5]
    ショートビデオ理解のためのマルチモーダル基盤モデルである textbfKwai Keye-VL を紹介する。 Keye-VLの開発は,ビデオに重点を置いた大規模で高品質なデータセットと,革新的なトレーニングレシピという,2つのコア柱に留まっている。 提案手法の有効性を検証するため,我々は,Kee-VLが公開ビデオベンチマークにおける最先端の成果を達成し,一般的な画像ベースタスクにおいて高い競争力を保っていることを示す,広範囲な評価を行う。
    論文  参考訳(メタデータ)   (Wed, 02 Jul 2025 17:57:28 GMT)
  • プロジェクトサイトはKwai Keye
  • Confucius3-Math: A Lightweight High-Performance Reasoning LLM for Chinese K-12 Mathematics Learning [4.6]
    Confucius3-Mathは,1つのコンシューマグレードGPU上で効率的に動作する14Bパラメータを備えた,オープンソースの大規模言語モデルである。 このレポートでは、開発レシピ、直面する課題、それらを克服するために開発するテクニックを共有します。
    論文  参考訳(メタデータ)   (Wed, 25 Jun 2025 10:49:23 GMT)
  • 一定の特化を行うことで高性能を実現した事例
  • GitHub – netease-youdao/Confucius3-Math

Ai2 Scholar QA: Organized Literature Synthesis with Attribution, Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol

  • Ai2 Scholar QA: Organized Literature Synthesis with Attribution [40.8]
    Ai2 Scholar QAは無料のオンライン科学質問応答アプリケーションである。 カスタマイズ可能なオープンソースPythonパッケージとして、インタラクティブなWebアプリとして、パイプライン全体を公開しています。 最近の科学的QAベンチマークでは、Ai2 Scholar QAが競合するシステムより優れていることが判明した。
    論文  参考訳(メタデータ)   (Tue, 15 Apr 2025 04:48:18 GMT)
  • 「we introduce Ai2 Scholar QA, a free-to-use scientific QA system (qa.allen.ai), and share our key components as open source software and public APIs.」という科学に関する質問へのレポートを生成するOSS実装
  • Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.9]
    文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。 学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。 我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
    論文  参考訳(メタデータ)   (Mon, 14 Apr 2025 14:52:28 GMT)
  • こちらは文献レビュー表を作成する研究、比較検証を行う上で重要なタスク。最近のLLMであれば解けそうなタスクに見えてシンプルな方針では意外とうまくいかないよう。
  • リポジトリはGitHub – JHU-CLSP/arXiv2Table

Analyzing the Usage of Donation Platforms for PyPI Libraries 

  • Analyzing the Usage of Donation Platforms for PyPI Libraries [92.0]
    本研究では,PyPIエコシステムにおける寄付プラットフォームの導入状況について分析した。 GitHub Sponsorsが支配的なプラットフォームであるが、多くのPyPIリストのリンクは時代遅れである。
    論文  参考訳(メタデータ)   (Tue, 11 Mar 2025 10:27:31 GMT)
  • Pythonライブラリへの寄付に関する分析。「From a library perspective, we discovered that donation platform links are mostly missing on PyPI project pages, with a clear tendency to list them on GitHub repositories instead. GitHub Sponsors stands out as the primary donation platform across PyPI and GitHub.」はそうだろうなーという感じ。
  • 「Recent research highlights the strong connection between OSS maintenance activities and financial support.」もあるが、便利に利用しているものについては寄付の文化が広がってほしいところ。

SmolLM2: When Smol Goes Big — Data-Centric Training of a Small Language Model

  • SmolLM2: When Smol Goes Big — Data-Centric Training of a Small Language Model [33.9]
    SmolLM2は、最先端の”小” (170億のパラメータ) 言語モデルである。 我々はSmolLM2を1兆のトークンでオーバートレーニングし、Webテキストと特殊な算数、コード、命令追従データとを混合する多段階のトレーニングプロセスを用いた。 我々は、SmolLM2がQwen2.5-1.5BやLlama3.2-1Bなど、最近の小さなLMよりも優れていることを示した。
    論文  参考訳(メタデータ)   (Tue, 04 Feb 2025 21:43:16 GMT)
  • HuggingfaceによるSLM、「SmolLM2 advances the state-of-the-art for open small LMs through a combination of careful dataset curation and multistage training.」とのこと。「SmolLM2 outperforms other recent small LMs including Qwen2.5-1.5B and Llama3.2-1B.」を主張
  • リポジトリはSmolLM2 – a HuggingFaceTB Collection