Panguシリーズの論文

HuaweiからPangu関連の論文が複数発表されている。いずれも最新モデルの内部動作が記載されており大変参考になる。そして開発元だからがAscend NPU推しがすごい。

  • Pangu Light: Weight Re-Initialization for Pruning and Accelerating LLMs [79.8]
    大きな言語モデル(LLM)は多くのタスクにまたがって最先端の機能を提供しますが、その巨大なサイズと推論コストは、実用的なデプロイメントに重大な計算上の課題をもたらします。 本稿は,このような積極的関節切断を実現させる上で重要な,しばしば見落とされがちな側面として,残った重量の戦略的再初期化と調整があげられることを論じる。 構造化プルーニングを中心としたLCM加速のためのフレームワークであるPangu Lightと、新しい重量再初期化技術を紹介する。
    論文  参考訳(メタデータ)   (Mon, 26 May 2025 15:57:08 GMT)
  • Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity [105.5]
    MoGEはトークンを制約し、事前に定義された各専門家グループ内で同じ数の専門家を起動させる。 Pangu Pro MoEは1カード当たり1148トークン/秒を実現し、投機的アクセラレーションにより1カードあたり1528トークン/秒にさらに改善することができる。
    論文  参考訳(メタデータ)   (Tue, 27 May 2025 16:40:21 GMT)
  • Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [94.5]
    Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。 既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。 単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
    論文  参考訳(メタデータ)   (Wed, 28 May 2025 14:03:02 GMT)

Think Only When You Need with Large Hybrid-Reasoning Models 

  • Think Only When You Need with Large Hybrid-Reasoning Models [121.6]
    LHRM(Large Hybrid-Reasoning Model) ユーザクエリのコンテキスト情報に基づいて思考を行うか否かを適応的に決定できるモデル。 実験の結果, LHRMsは, 様々な難易度, 種別の問合せに対して, 適応的にハイブリッド思考を行うことができた。
    論文  参考訳(メタデータ)   (Wed, 21 May 2025 05:17:34 GMT)
  • LLM, LRMハイブリッドな手法の提案。「We begin with a hybrid-formatted supervised fine-tuning stage named Hybrid Fine-Tuning (HFT) that integrates both reasoning-intensive (Thinking) and direct-answer (No-Thinking) data. This approach mitigates the instability often observed in cold-start scenarios [GYZ+25], and establishes a robust initialization for next stage reinforcement learning.」という第一ステージを挟んでいるのが面白い。
  • LHRMという略語が定着する可能性があるのかは若干気になる。
  • リポジトリはAdvancing AI for Humanity
  • Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.1]
    大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。 この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。 本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
    論文  参考訳(メタデータ)   (Tue, 20 May 2025 16:53:40 GMT)
  • 「we propose a novel endogenous approach, Self-Braking Tuning (SBT), to mitigating overthinking in large language models.」とtoken節約という意味では近い内容。
  • リポジトリはGitHub – ZJU-REAL/Self-Braking-Tuning: Let LLMs Break Free from Overthinking via Self-Braking Tuning

Google I/O, Claude 4 Sonnet / Opus

Google I/Oで発表されたGemini 2.5 Proの性能(含DeepThink)、Imagen 4やVeo 3といった画像生成・動画生成モデル及び同時期に発表された拡散モデルなGemini DiffusionはGoogleが全方位で生成AIに取り組み、かつ、高い成果を出している証拠でさすがGoogleという感じ。

GoogleはIt’s All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization  – arXiv最新論文の紹介などNext Transformerな研究も積極的に行っておりとても興味深い。このあたりもさすがGoogle。

AnthropicからはClaude 4が発表されている。Agenticな動作で重要となる機能やコード生成で高い性能を主張しており、期待大。

OpenAI一強の時代から一歩進んだ印象。オープンな取り組みも活発だが、商用モデルも立て続けに興味深い発表がされており非常に競争が激しい。

Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought 

  • Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought [190.9]
    Hunyuan-TurboSは、Transformer-Mamba Mixture of Expertsの大型ハイブリッドモデルである。 高いパフォーマンスと効率のバランスを保ち、推論コストを低く抑えている。
    論文  参考訳(メタデータ)   (Wed, 21 May 2025 12:11:53 GMT)
  • TencentによるMamba hybrid、MoE、Adaptive CoTと全部盛り感のあるモデル(Mistral Small 3.1, Hunyuan-T1 – arXiv最新論文の紹介にも関連)。
    • Hunyuan-TurboS features an adaptive long-short chain-of-thought (CoT) mechanism, dynamically switching between rapid responses for simple queries and deep ”thinking” modes for complex problems, optimizing computational resources. Architecturally, this 56B activated (560B total) parameter model employs 128 layers (Mamba2, Attention, FFN) with an innovative AMF/MF block pattern.
  • Mambaアーキテクチャ(ハイブリッド)モデルでベンチマークのスコアも非常に高い。「LMSYS Chatbot Arena with a score of 1356, outperforming leading models like Gemini-2.0-Flash-001 (1352) and o4-mini-2025-04-16 (1345)」とのこと。(LLM?LRM?という疑問はありつつ)個別タスクだと他のオープンソースモデルや商用モデルを超えているものもある。オープンな比較対象はLlama-4-Maverick, DeepSeek-V3 , Qwen3-235B-A22Bと最新のもの。
  • 「The inference of the Hunyuan-TurboS model is powered by the AngelHCF Inference Acceleration Framework. For the Mamba Hybrid architecture of the TurboS model, we have implemented optimizations across folloing three key dimensions, ultimately achieving a 1.8x speedup compared to Hunyuan-Turbo, which is a pure Transformers MoE model」とMambaの有効性もしてしており、全般的に非常に先進的なモデルに見える。

J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning 

  • J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning [69.1]
    このようなモデルをトレーニングするための強化学習アプローチであるJ1を紹介する。 本手法は,判断バイアスを軽減し,思考にインセンティブを与える検証可能な報酬を用いて,検証可能なプロンプトと検証不可能なプロンプトの両方を判断タスクに変換する。 評価基準を概説し、自己生成した基準回答と比較し、モデル応答の正しさを再評価することにより、モデルがより良い判断を下すことが判明した。
    論文  参考訳(メタデータ)   (Thu, 15 May 2025 14:05:15 GMT)
  • Thinking-LLM-as-a-Judge modelsを構築するための強化学習レシピの提案。
  • 「our approach outperforms all other existing 8B or 70B models when trained at those sizes, including models distilled from DeepSeek-R1. J1 also outperforms o1-mini, and even R1 on some benchmarks, despite training a smaller model.」とのこと。
  • Assessing Judging Bias in Large Reasoning Models: An Empirical Study – arXiv最新論文の紹介など、LLM as a judgeなタスクでのLRM適用に効果があるという指摘はあったのでそれらと整合的な結果であるように思う。

EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning

Mistral Medium 3, Gemini 2.5 Pro preview, Llama-Nemotron, OpenCodeReasoning

先週注目のニュースはMistralのMistral Medium 3のリリース(Medium is the new large. | Mistral AI)。Claude 3.7 sonnetと競合する性能で「The Mistral Medium 3 API is available starting today on Mistral La Plateforme and Amazon Sagemaker, and soon on IBM WatsonX, NVIDIA NIM, Azure AI Foundry, and Google Cloud Vertex. To deploy and customize the model in your environment, please contact us. 」と各社環境での動作が可能な点が重要に思う。

GoogleのGemini 2.5 Proが使用可能になったよう(Gemini Pro – Google DeepMind)でこちらも注目度が高い。NvidiaのLlama-NemotronやOpenCodeReasoning がダウンロード可能になったことも話題になっていた。

各モデルの(第三者の)性能検証はこれからという感じだろうが、本当にニュースが多い。

  • OpenCodeReasoning: Advancing Data Distillation for Competitive Coding [61.2]
    教師付き微調整(SFT)データセットを構築し、様々なサイズのモデルで最先端のコーディング能力を実現する。 私たちのモデルは、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成するためにSFTのみを使用しており、強化学習でトレーニングされた代替品を上回っています。
    論文  参考訳(メタデータ)   (Wed, 02 Apr 2025 17:50:31 GMT)

On Path to Multimodal Generalist: General-Level and General-Bench

  • On Path to Multimodal Generalist: General-Level and General-Bench [154.0]
    本稿では,MLLMの性能と汎用性を5段階に定義した評価フレームワークであるGeneral-Levelを紹介する。 フレームワークの中核はSynergyの概念であり、モデルが理解と生成をまたいだ一貫性のある機能を維持するかどうかを測定する。 既存の100以上のMLLMを含む評価結果は、ジェネラリストの能力ランキングを明らかにする。
    論文  参考訳(メタデータ)   (Wed, 07 May 2025 17:59:32 GMT)
  • 「This leads to a critical question: Can we simply assume that higher performance across tasks indicates a stronger MLLM capability, bringing us closer to human-level AI?」に対する評価フレームワーク。自動運転のような大きく5段階のレベル設定を行っている。現時点では「Our evaluation of over 100 existing top-performing LLM/MLLM systems has uncovered critical insights into their capabilities and rankings as multimodal generalists. The most notable finding is that most MLLMs lack the cross-task or cross-modal synergy ability required for higher-level classifications, with even advanced models like GPT-4V and GPT-4o not achieving top ranks.」とのことだが…
  • プロジェクトサイトはPath to Multimodal Generalist、リーダーボードはPath to Multimodal Generalist

下記サーベイも注目

  • Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models [79.5]
    推論は知性の中心にあり、決定し、結論を導き、ドメインをまたいで一般化する能力を形成する。 人工知能において、システムがオープンで不確実でマルチモーダルな環境でますます機能するにつれて、推論は堅牢で適応的な行動を可能にするために不可欠となる。 大規模マルチモーダル推論モデル(LMRM)は、テキスト、画像、オーディオ、ビデオなどのモダリティを統合し、複雑な推論機能をサポートする、有望なパラダイムとして登場した。
    論文  参考訳(メタデータ)   (Thu, 08 May 2025 03:35:23 GMT)
  • リポジトリはGitHub – HITsz-TMG/Awesome-Large-Multimodal-Reasoning-Models: The development and future prospects of multimodal reasoning models.

VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

  • VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.0]
    VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。 これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。 ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
    論文  参考訳(メタデータ)   (Mon, 21 Apr 2025 17:59:53 GMT)
  • 「We propose a challenging visual reasoning benchmark that is inherently difficult to articulate using language, providing a more rigorous evaluation of the visual reasoning capabilities of MLLMs.」というベンチマークの提案。商用APIのスコアも良くなく、非常に難しいベンチマークになっている。
  • リポジトリはVisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoning

  • Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoning [93.3]
    DeepSeek-R1同様の学習パラダイムを用いた一連のツール利用言語モデルを開発した。 Nemotron-Research-Tool-N1は、ツール呼び出しの構造的妥当性と機能的正確性のみを評価するバイナリ報酬で最適化されている。 実験により、Qwen-2.5-7B/14B-Instruct上に構築されたNemotron-Research-Tool-N1-7BとNemotron-Research-Tool-N1-14Bが最先端の結果を得ることが示された。
    論文  参考訳(メタデータ)   (Fri, 25 Apr 2025 02:55:21 GMT)
  • 「We introduces Nemotron-Research-Tool-N1, a series of tool-using language models trained with a rule-based reinforcement learning.」とルールベースの強化学習の有効性を確認した報告。
  • リポジトリはGitHub – NVlabs/Tool-N1