Hunyuan3D-Omni, Qwen3-Omni, LongCat-Flash-Thinking, EmbeddingGemma, Logics-Parsing 

公開モデルの開発はとても盛んで、先週はQwen3 Omniが話題になることが多かったように思う。arXivではQwen3 Omini以外にも有望なモデルの発表が相次いでいる。

  • Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets [34.7]
    Hunyuan3D-Omniは、Hunyuan3D 2.1上に構築されたきめ細かい制御可能な3Dアセット生成のための統一されたフレームワークである。 我々のモデルは単一のクロスモーダルアーキテクチャで全ての信号を統一する。 実験により、これらの追加制御により生成精度が向上し、幾何認識変換が可能となり、生産の堅牢性も向上することが示された。
    論文  参考訳(メタデータ)   (Thu, 25 Sep 2025 14:39:17 GMT)
  • 3Dにフォーカスした実装
  • リポジトリはGitHub – Tencent-Hunyuan/Hunyuan3D-Omni: Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
  • LongCat-Flash-Thinking Technical Report [116.8]
    LongCat-Flash-ThinkingはオープンソースのMixture-of-Experts (MoE)推論モデルである。 高度な能力は、巧妙に製作された訓練プロセスを通じて育成される。 LongCat-Flash-Thinkingは、複雑な推論タスクのスイート上で、オープンソースモデル間の最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Tue, 23 Sep 2025 10:25:48 GMT)
  • MoEなLRM、OSSなモデルでのSoTAを主張
  • リポジトリはmeituan-longcat/LongCat-Flash-Thinking · Hugging Face
  • EmbeddingGemma: Powerful and Lightweight Text Representations [42.4]
    EmbeddingGemmaはGemma 3言語ファミリに基づいた、新しい軽量でオープンなテキスト埋め込みモデルである。 スプレッドアウト正規化器を用いてモデル頑健性と表現性を向上する。 さらなる研究を促進するため、コミュニティに EmbeddingGemma をリリースします。
    論文  参考訳(メタデータ)   (Wed, 24 Sep 2025 17:56:51 GMT)
  • 小規模、強力なEmbeddingモデル
  • リポジトリはEmbeddingGemma – a google Collection
  • Logics-Parsing Technical Report [9.0]
    我々は、強化学習を付加したエンドツーエンドのLVLMモデルであるLogics-Parsingを提案する。 本モデルでは、複雑なレイアウト解析と読み出し順序推定を最適化するために、厳密に設計された報酬機構を組み込んでいる。 LogicsParsingBenchは、9つの主要なカテゴリと20以上のサブカテゴリにまたがる1,078ページレベルのPDFイメージのキュレートされたセットである。
    論文  参考訳(メタデータ)   (Wed, 24 Sep 2025 04:54:37 GMT)
  • Document Understandingに有効なLVLM
  • リポジトリはGitHub – alibaba/Logics-Parsing

MMORE: Massive Multimodal Open RAG & Extraction

MobileLLM-R1, APERTUS

先週はOpenAIによるICPCの成果(https://x.com/MostafaRohani/status/1968360976379703569)などが話題になった。クローズドモデルの性能向上は本当にすごい。とはいえ、Metaによる小型モデルMobileLLM-R1(facebook/MobileLLM-R1-950M · Hugging Face)やオープンかつ権利関係にも気を使い他のモデルと競合的な性能を達成しているAPERTUS など公開モデルの取り組みも興味深い状況が続く。本当に目が離せない。

  • Apertus: Democratizing Open and Compliant LLMs for Global Language Environments [163.7]
    Apertusは、今日のオープンモデルエコシステムにおける2つのシステム的欠点に対処するために設計された、大きな言語モデル(LLM)の完全なオープンスイートである。 Apertusモデルは、公開データにのみ事前訓練されており、ロボット.txtの除外や、非許容的で有毒で個人が特定可能なコンテンツに対するフィルタリングを尊重している。 Apertusモデルはまた、1800以上の言語から15Tトークンをトレーニングし、非英語コンテンツに割り当てられた事前トレーニングデータの40%をトレーニングしている。
    論文  参考訳(メタデータ)   (Wed, 17 Sep 2025 17:59:21 GMT)
  • オープンかつ多言語、さらに権利関係にもかなり配慮しているモデル「The models are trained on 15T tokens from 1811 languages with retroactive respect for robots.txt and related opt outs, and with a Goldfish-style objective to curb verbatim reproduction of training text.」。性能もかなり高く、非常に興味深い。
  • モデルはswiss-ai/Apertus-70B-Instruct-2509 · Hugging Face

Command A Reasoning, DeepSeek V3.1, Gemma 3 270M, Nemotron Nano 2, Dream 7B

LLM/LRM関連の話題は本当に多い。先週はCohere’s Command A Reasoning Model | Cohere(モデルはCohere’s Command A Reasoning Model | Cohere、CC-BY-NC)の公開、DeepSeek V3.1の公開(DeepSeek-V3.1 Release | DeepSeek API Docs、モデルはdeepseek-ai/DeepSeek-V3.1 · Hugging Face)が大きなニュースだった。フロンティアまたはそれに近いモデルが公開される意義は大きい。また、Intern-S1からはテクニカルレポートが公開されている。

a

小型モデル関連でもGemma 3 270M(Introducing Gemma 3 270M: The compact model for hyper-efficient AI – Google Developers Blog、モデルはgoogle/gemma-3-270m · Hugging Face)は超小型であることが興味深い。性能的には疑問があるとはいえ特化用途にPost trainingするなど使える場面はありそう。NVIDIA のMemtron Nano2も注目である(Nanoという名前で9B)。

HuaweiからはDiffusion系のDream 7Bの論文が出ていた。LLaDAを超え、同規模のAutoregressiveなモデルに負けていなさそうと高い性能。

  • Intern-S1: A Scientific Multimodal Foundation Model [185.4]
    Intern-S1は、一般的な理解と推論機能を備えた専門的なジェネラリストである。 Intern-S1はオフラインおよびオンライン強化学習(RL)をInternBootCampで実施する。 Intern-S1は、オープンソースモデル間の一般的な推論タスクにおける競合性能を示す。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 17:58:00 GMT)
  • Qwen3-Coder, Intern-S1, Step-Audio2, TeleChat2 – arXiv最新論文の紹介で取り上げたモデルのテクニカルレポート
  • NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model [176.4]
    Nemotron-Nano-9B-v2は、推論処理のスループットを向上させるために設計されたハイブリッドのMamba-Transformer言語モデルである。 Nemotron-Nano-9B-v2はNemotron-Hアーキテクチャをベースにしており、共通のTransformerアーキテクチャの自己保持層の大部分をMamba-2層に置き換えている。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 04:18:04 GMT)
  • nvidia/NVIDIA-Nemotron-Nano-9B-v2 · Hugging Face
  • Dream 7B: Diffusion Large Language Models [85.3]
    これまでで最も強力なオープン拡散大言語モデルであるDream 7Bを紹介します。 我々のモデルは、一般的な、数学的、コーディングタスクにおいて、既存の拡散言語モデルよりも一貫して優れています。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 12:09:58 GMT)
  • 「Dream 7B achieves competitive performance with Qwen 2.5 on standard benchmarks (general language understanding, mathematical reasoning, and code generation) while exhibiting superior planning abilities and novel inference flexibility features that naturally emerge from the diffusion modeling paradigm.」とのこと。
  • リポジトリはGitHub – DreamLM/Dream: Dream 7B, a large diffusion language model、モデルはDream 7B – a Dream-org Collection

NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale 

  • NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale [101.6]
    NextStep-1は、テキストから画像生成タスクにおける自動回帰モデルの最先端のパフォーマンスを実現する。 本手法は画像編集において高い性能を示し,統一的アプローチのパワーと汎用性を強調した。
    論文  参考訳(メタデータ)   (Thu, 14 Aug 2025 14:54:22 GMT)
  • StepFunによるAutoregressive Image Generation
  • リポジトリはGitHub – stepfun-ai/NextStep-1、Weightも公開されているNextStep-1 – a stepfun-ai Collection

ERNIE4.5, Kwai Keye-VL, Ovis-U1, GLM-4.1V-Thinking, Confucius3-Math

ERNIE4.5(GitHub – bigdavidone/ERNIE4_5: The official repository for ERNIE 4.5 and ERNIEKit – its industrial-grade development toolkit based on PaddlePaddle.)の登場の他、公開モデルも色々と出ている。効率的な構造、一定の特化を行うことで商用モデルに迫る性能を達成しているものも多い。

ERNIE 4.5 Technical Report
本報告では、10種類の異なるバリアントからなる新しい大規模マルチモーダルモデル「ERNIE 4.5」を紹介しています。このモデルは、47Bおよび3Bのアクティブパラメータを持つMixture-of-Experts(MoE)アーキテクチャを採用し、テキスト関連タスクの性能を向上させつつマルチモーダル理解を強化します。全てのモデルはApache 2.0の下で公開され、研究や開発の支援を目的としたオープンソースの開発ツールキットも提供されています。論文Publication | ERNIE Blog

  • Kwai Keye-VL Technical Report [80.5]
    ショートビデオ理解のためのマルチモーダル基盤モデルである textbfKwai Keye-VL を紹介する。 Keye-VLの開発は,ビデオに重点を置いた大規模で高品質なデータセットと,革新的なトレーニングレシピという,2つのコア柱に留まっている。 提案手法の有効性を検証するため,我々は,Kee-VLが公開ビデオベンチマークにおける最先端の成果を達成し,一般的な画像ベースタスクにおいて高い競争力を保っていることを示す,広範囲な評価を行う。
    論文  参考訳(メタデータ)   (Wed, 02 Jul 2025 17:57:28 GMT)
  • プロジェクトサイトはKwai Keye
  • Confucius3-Math: A Lightweight High-Performance Reasoning LLM for Chinese K-12 Mathematics Learning [4.6]
    Confucius3-Mathは,1つのコンシューマグレードGPU上で効率的に動作する14Bパラメータを備えた,オープンソースの大規模言語モデルである。 このレポートでは、開発レシピ、直面する課題、それらを克服するために開発するテクニックを共有します。
    論文  参考訳(メタデータ)   (Wed, 25 Jun 2025 10:49:23 GMT)
  • 一定の特化を行うことで高性能を実現した事例
  • GitHub – netease-youdao/Confucius3-Math

Ai2 Scholar QA: Organized Literature Synthesis with Attribution, Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol

  • Ai2 Scholar QA: Organized Literature Synthesis with Attribution [40.8]
    Ai2 Scholar QAは無料のオンライン科学質問応答アプリケーションである。 カスタマイズ可能なオープンソースPythonパッケージとして、インタラクティブなWebアプリとして、パイプライン全体を公開しています。 最近の科学的QAベンチマークでは、Ai2 Scholar QAが競合するシステムより優れていることが判明した。
    論文  参考訳(メタデータ)   (Tue, 15 Apr 2025 04:48:18 GMT)
  • 「we introduce Ai2 Scholar QA, a free-to-use scientific QA system (qa.allen.ai), and share our key components as open source software and public APIs.」という科学に関する質問へのレポートを生成するOSS実装
  • Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.9]
    文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。 学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。 我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
    論文  参考訳(メタデータ)   (Mon, 14 Apr 2025 14:52:28 GMT)
  • こちらは文献レビュー表を作成する研究、比較検証を行う上で重要なタスク。最近のLLMであれば解けそうなタスクに見えてシンプルな方針では意外とうまくいかないよう。
  • リポジトリはGitHub – JHU-CLSP/arXiv2Table

Analyzing the Usage of Donation Platforms for PyPI Libraries 

  • Analyzing the Usage of Donation Platforms for PyPI Libraries [92.0]
    本研究では,PyPIエコシステムにおける寄付プラットフォームの導入状況について分析した。 GitHub Sponsorsが支配的なプラットフォームであるが、多くのPyPIリストのリンクは時代遅れである。
    論文  参考訳(メタデータ)   (Tue, 11 Mar 2025 10:27:31 GMT)
  • Pythonライブラリへの寄付に関する分析。「From a library perspective, we discovered that donation platform links are mostly missing on PyPI project pages, with a clear tendency to list them on GitHub repositories instead. GitHub Sponsors stands out as the primary donation platform across PyPI and GitHub.」はそうだろうなーという感じ。
  • 「Recent research highlights the strong connection between OSS maintenance activities and financial support.」もあるが、便利に利用しているものについては寄付の文化が広がってほしいところ。

SmolLM2: When Smol Goes Big — Data-Centric Training of a Small Language Model

  • SmolLM2: When Smol Goes Big — Data-Centric Training of a Small Language Model [33.9]
    SmolLM2は、最先端の”小” (170億のパラメータ) 言語モデルである。 我々はSmolLM2を1兆のトークンでオーバートレーニングし、Webテキストと特殊な算数、コード、命令追従データとを混合する多段階のトレーニングプロセスを用いた。 我々は、SmolLM2がQwen2.5-1.5BやLlama3.2-1Bなど、最近の小さなLMよりも優れていることを示した。
    論文  参考訳(メタデータ)   (Tue, 04 Feb 2025 21:43:16 GMT)
  • HuggingfaceによるSLM、「SmolLM2 advances the state-of-the-art for open small LMs through a combination of careful dataset curation and multistage training.」とのこと。「SmolLM2 outperforms other recent small LMs including Qwen2.5-1.5B and Llama3.2-1B.」を主張
  • リポジトリはSmolLM2 – a HuggingFaceTB Collection

DeepSeek v3, QVQ-72B-Preview, YuLan-Mini

公開モデルも高性能化が続いている。DeepSeek v3は671Bと非常に大きなモデル(だが、アクティブパラメータは37BのMoE)でGPT-4oやClaude 3.5 Sonnet競合を主張。 GitHub – deepseek-ai/DeepSeek-V3

QVQ-72B-PreviewはQwen 2.5, Qwen 2 VL, GRIN-MoE, Pixtral – arXiv最新論文の紹介のQwen2 VLから推論能力を強化、GPT-4oだけでなくタスクによってはOpenAI o1と競合する性能を主張。QVQ: To See the World with Wisdom | Qwen

YuLan-Miniは2.42B、1.08Tトークンでのトレーニングと比較的小規模だが、競合する公開モデルを上回る性能を主張。YuLan-Mini/README_ja.md at main · RUC-GSAI/YuLan-Mini · GitHub

中国の研究機関はモデルや手法をかなり公開してくれている印象。非常にありがたい。

  • YuLan-Mini: An Open Data-efficient Language Model [111.0]
    2.42Bパラメータを持つ高い能力を持つベースモデルであるYuLan-Miniは、同様のパラメータスケールのモデルで上位層のパフォーマンスを実現する。 注目すべきは、1.08TトークンでトレーニングされたYuLan-Miniは、はるかに多くのデータを必要とする業界主導のモデルに匹敵するパフォーマンスを達成することだ。
    論文  参考訳(メタデータ)   (Mon, 23 Dec 2024 17:47:53 GMT)
  • 「Our approach includes three major contributions to enhance training efficacy: (1) an elaborately designed data pipeline that combines data cleaning with data schedule strategies; (2) a systematic optimization method that can effectively mitigate training instability; (3) an effective annealing approach that integrate targeted data selection and long context training.」とのこと。
  • DeepSeek-V3 Technical Report [147.2]
    We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token。 我々は14.8兆の多様性と高品質のトークンでDeepSeek-V3を事前訓練し、その後にSupervised Fine-Tuning and Reinforcement Learningのステージを受講した。 包括的な評価によると、DeepSeek-V3は他のオープンソースモデルよりも優れており、主要なクローズドソースモデルに匹敵するパフォーマンスを実現している。
    論文  参考訳(メタデータ)   (Fri, 27 Dec 2024 04:03:16 GMT)
  • 「During the pre-training stage, training DeepSeek-V3 on each trillion tokens requires only 180K H800 GPU hours, i.e., 3.7 days on our cluster with 2048 H800 GPUs. Consequently, our pretraining stage is completed in less than two months and costs 2664K GPU hours. Combined with 119K GPU hours for the context length extension and 5K GPU hours for post-training, DeepSeek-V3 costs only 2.788M GPU hours for its full training. Assuming the rental price of the H800 GPU is $2 per GPU hour, our total training costs amount to only $5.576M.」ととてもコストパフォーマンスが良い。もっとも「Note that the aforementioned costs include only the official training of DeepSeek-V3, excluding the costs associated with prior research and ablation experiments on architectures, algorithms, or data.」
  • Aurora-M: Open Source Continual Pre-training for Multilingual Language and Code [123.7]
    本稿では,英語,フィンランド語,ヒンディー語,日本語,ベトナム語,コードに基づく15Bパラメータの多言語オープンソースモデルであるAurora-Mを提案する。 これは、人間がレビューした安全命令を微調整した初めてのオープンソース多言語モデルである。 我々はAurora-Mを幅広いタスクや言語で評価し、破滅的な忘れ物に対する頑健さを示した。
    論文  参考訳(メタデータ)   (Fri, 27 Dec 2024 03:53:21 GMT)
  • aurora-m/aurora-m-biden-harris-redteamed · Hugging Face こういったモデルも存在。対応言語に日本語が明記されている。