Gemini 2.5 Pro, Flash , 2.5 Flash-Lite, MiniMax-M1, Kimi-Dev-72B

Gemini 2.5 Proからpreviewが取れ、2.5 Flash Liteが出る(Gemini Pro – Google DeepMind)など先週も様々なニュースがあった。

高効率なモデルで知られるMiniMaxからはReasoningモデルが出ている。MoonshotからはKimi-Dev-72Bが公開されておりこちらも期待が大きい(GitHub – MoonshotAI/Kimi-Dev: open-source coding LLM for software engineering tasks)。テクニカルレポートは準備中とのこと。

  • MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention [90.7]
    MiniMax-M1は、オープンウェイトで大規模なハイブリッドアテンション推論モデルである。 コンテクストの長さは100万トークンで、DeepSeek R1のコンテクストサイズは8倍だ。 MiniMax-M1は大規模強化学習を用いて訓練されている。
    論文  参考訳(メタデータ)   (Mon, 16 Jun 2025 15:08:02 GMT)
  • 効率的なLightning Attentionを活用したモデル。Lightning Attentionの計算量はコンテキスト長に対し線形(ではあるが全体のバランスを考えてのハイブリッド構造)でLRMに向いていそう。加えて最近のモデルで多いMoEを採用している。
  • リポジトリはGitHub – MiniMax-AI/MiniMax-M1: MiniMax-M1, the world’s first open-weight, large-scale hybrid-attention reasoning model.

Interpretable LLMs for Credit Risk: A Systematic Review and Taxonomy 

  • Interpretable LLMs for Credit Risk: A Systematic Review and Taxonomy [0.0]
    大規模言語モデル(LLM)は、財務文書の分析を通じて信用リスクの評価を可能にする。 本稿では、信用リスク推定におけるLSMに基づくアプローチに着目した、最初の体系的レビューと分類について述べる。
    論文  参考訳(メタデータ)   (Wed, 04 Jun 2025 10:24:40 GMT)
  • LLMを使った信用リスク評価のサーベイ

BLUR: A Bi-Level Optimization Approach for LLM Unlearning 

  • BLUR: A Bi-Level Optimization Approach for LLM Unlearning [106.0]
    大規模言語モデル(LLMs)が訓練によって得た知識や能力を上手く忘れさせることは、データ規制の遵守や倫理的なAI使用に不可欠である。従来の忘却と保持の損失を重み付けした手法は性能低下を招きやすいため、著者らは忘却を優先させた階層的アプローチを提案し、新しいアルゴリズム「Bi-Level UnleaRning(BLUR)」を開発した。この手法は理論的保証を持ちながら、様々な課題において他の最先端アルゴリズムを上回る性能を示している。
    論文  参考訳(メタデータ)   (Mon, 09 Jun 2025 19:23:05 GMT)
  • 「Should we aim to forget and retain simultaneously? In many cases, the answer is no.」、「Instead of treating unlearning as a binary process of simply forgetting specific information while retaining the rest, we argue that we should prioritize and structure these tasks hierarchically.」を軸とした新たなunlearning手法の提案。
  • リポジトリはGitHub – OptimAI-Lab/BLURLLMUnlearning

Pitfalls in Evaluating Language Model Forecasters

  • Pitfalls in Evaluating Language Model Forecasters [45.4]
    我々はコミュニティとして、大きな言語モデルを評価するような結論に注意する必要があると論じている。 1) 時間的リークによる評価結果の信頼の難しさ,(2) 評価性能から実世界の予測への外挿の難しさ,の2つのカテゴリを識別する。
    論文  参考訳(メタデータ)   (Sat, 31 May 2025 21:49:17 GMT)
  • LLMの評価に関する落とし穴をまとめた論文
  • 「We identify two broad categories of issues: (1) difficulty in trusting evaluation results due to many forms of temporal leakage, and (2) difficulty in extrapolating from evaluation performance to real-world forecasting. Through systematic analysis and concrete examples from prior work, we demonstrate how evaluation flaws can raise concerns about current and future performance claims.」というまとめだが、評価は本当に難しい。

XToM: Exploring the Multilingual Theory of Mind for Large Language Models 

  • XToM: Exploring the Multilingual Theory of Mind for Large Language Models [58.0]
    LLMにおける既存の心の理論の評価は英語に限られている。 XToMは5言語にまたがってToMを評価する,厳格に検証された多言語ベンチマークである。 以上の結果から,LLMが言語的文脈にまたがって人間的なメンタライゼーションを再現する能力に限界があることが判明した。
    論文  参考訳(メタデータ)   (Tue, 03 Jun 2025 05:23:25 GMT)
  • 多言語でのLLM比較、「LLMs are equipped with multilingual understanding ability but fail in multi- lingual ToM reasoning tasks.」と結論。深い部分での言語間差異は残っているよう(とはいえ、一昔前に比べて差異は縮小しているようにも見える)
  • リポジトリはGitHub – HKUST-KnowComp/XToM: Data and Code for paper “X-ToM: Exploring the Multilingual Theory of Mind for Large Language Models”

MemOS: An Operating System for Memory-Augmented Generation (MAG) in Large Language Models

  • MemOS: An Operating System for Memory-Augmented Generation (MAG) in Large Language Models [31.9]
    我々は,大規模言語モデル(LLM)用に設計されたメモリオペレーティングシステムであるMemOSを紹介する。 コアとなるMemCubeは、異種メモリの追跡、融合、マイグレーションを可能にする標準化されたメモリ抽象化である。 MemOSは、強力な制御性、適応性、進化性を備えたメモリ中心の実行フレームワークを確立する。
    論文  参考訳(メタデータ)   (Wed, 28 May 2025 08:27:12 GMT)
  • LLMのためのメモリ管理フレームワークの提案。「Large Language Models (LLMs) have emerged as foundational infrastructure in the pursuit of Artificial General Intelligence (AGI). Despite their remarkable capabilities in language perception and generation, current LLMs fundamentally lack a unified and structured architecture for handling memory.」はその通りで、記憶の実装はLLMの利用を進める上でとても重要
  • 「MemOS provides a unified abstraction and integrated management framework for heterogeneous memory types, including parametric memory, activation memory, and explicit plaintext memory. We propose a standardized memory unit, MemCube, and implement key modules for scheduling, lifecycle management, structured storage, and transparent augmentation.」と良く設計・実装されたシステムに見えるが、このようなアプローチと(最近あまり聞かない)Deepでポン的なモデルに組み込むアプローチのどちらが有望なのか気になる。

The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants

  • The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants [66.7]
    我々は、オープンソースのより小さな言語モデルの集合的インテリジェンスを効果的に活用する簡単なレシピであるAvengersを紹介します。 10のオープンソースモデル(それぞれ7Bパラメータ)により、Avengersは15のデータセットのうち10でGPT-4.1を上回っている。 特に数学タスクでは GPT-4.1 を 18.21% 、コードタスクでは 7.46% で上回っている。
    論文  参考訳(メタデータ)   (Mon, 26 May 2025 10:29:42 GMT)
  • 7B × 10のSLMで商用モデルと競合する性能を達成とのこと。「In this paper, we introduce the Avengers, a simple yet effective framework to unite multiple smaller language models (SLMs) and challenge the dominance of proprietary large models. The core of the Avengers involves straightforward embedding, clustering, scoring, and voting, without requiring neural network training, prompt engineering, or careful architecture-specific model choices.」
  • leakというのが頭によぎらなくはないが、近年の公開モデルの性能は大きく向上していてあり得る結果ではあると思う。
  • リポジトリはGitHub – ZhangYiqun018/Avengers

Panguシリーズの論文

HuaweiからPangu関連の論文が複数発表されている。いずれも最新モデルの内部動作が記載されており大変参考になる。そして開発元だからがAscend NPU推しがすごい。

  • Pangu Light: Weight Re-Initialization for Pruning and Accelerating LLMs [79.8]
    大きな言語モデル(LLM)は多くのタスクにまたがって最先端の機能を提供しますが、その巨大なサイズと推論コストは、実用的なデプロイメントに重大な計算上の課題をもたらします。 本稿は,このような積極的関節切断を実現させる上で重要な,しばしば見落とされがちな側面として,残った重量の戦略的再初期化と調整があげられることを論じる。 構造化プルーニングを中心としたLCM加速のためのフレームワークであるPangu Lightと、新しい重量再初期化技術を紹介する。
    論文  参考訳(メタデータ)   (Mon, 26 May 2025 15:57:08 GMT)
  • Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity [105.5]
    MoGEはトークンを制約し、事前に定義された各専門家グループ内で同じ数の専門家を起動させる。 Pangu Pro MoEは1カード当たり1148トークン/秒を実現し、投機的アクセラレーションにより1カードあたり1528トークン/秒にさらに改善することができる。
    論文  参考訳(メタデータ)   (Tue, 27 May 2025 16:40:21 GMT)
  • Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [94.5]
    Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。 既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。 単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
    論文  参考訳(メタデータ)   (Wed, 28 May 2025 14:03:02 GMT)

Think Only When You Need with Large Hybrid-Reasoning Models 

  • Think Only When You Need with Large Hybrid-Reasoning Models [121.6]
    LHRM(Large Hybrid-Reasoning Model) ユーザクエリのコンテキスト情報に基づいて思考を行うか否かを適応的に決定できるモデル。 実験の結果, LHRMsは, 様々な難易度, 種別の問合せに対して, 適応的にハイブリッド思考を行うことができた。
    論文  参考訳(メタデータ)   (Wed, 21 May 2025 05:17:34 GMT)
  • LLM, LRMハイブリッドな手法の提案。「We begin with a hybrid-formatted supervised fine-tuning stage named Hybrid Fine-Tuning (HFT) that integrates both reasoning-intensive (Thinking) and direct-answer (No-Thinking) data. This approach mitigates the instability often observed in cold-start scenarios [GYZ+25], and establishes a robust initialization for next stage reinforcement learning.」という第一ステージを挟んでいるのが面白い。
  • LHRMという略語が定着する可能性があるのかは若干気になる。
  • リポジトリはAdvancing AI for Humanity
  • Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.1]
    大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。 この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。 本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
    論文  参考訳(メタデータ)   (Tue, 20 May 2025 16:53:40 GMT)
  • 「we propose a novel endogenous approach, Self-Braking Tuning (SBT), to mitigating overthinking in large language models.」とtoken節約という意味では近い内容。
  • リポジトリはGitHub – ZJU-REAL/Self-Braking-Tuning: Let LLMs Break Free from Overthinking via Self-Braking Tuning

Large Language Models for Computer-Aided Design: A Survey

  • Large Language Models for Computer-Aided Design: A Survey [33.4]
    大規模言語モデル(LLM)は近年急速に進歩している。 現代のデザインの複雑さが増すにつれ、LLMがコンピュータ支援設計(CAD)を効率化し、効率化する可能性が高まっている。 本稿では,LLMとCADの交点を探索する最初の体系的な調査について述べる。
    論文  参考訳(メタデータ)   (Tue, 13 May 2025 00:19:04 GMT)
  • LLM & CADのサーベイ。