Qwen3-Coder, Intern-S1, Step-Audio2, TeleChat2

Claude 4 sonnetレベルのQwen3 Coder(QwenLM/Qwen3-Coder: Qwen3-Coder is the code version of Qwen3, the large language model series developed by Qwen team, Alibaba Cloud.)、235B MoE language model (Qwen3) + 6B Vision encoder (InternViT)で強力なマルチモーダルLRM Intern S1(InternLM/Intern-S1)、Kimi K2のテクニカルレポート公開(Kimi-K2/tech_report.pdf at main · MoonshotAI/Kimi-K2)、と中国のモデルに関する話題が多かった。Qwen3-Instruct-2507(QwenLM/Qwen3: Qwen3 is the large language model series developed by Qwen team, Alibaba Cloud.)でKIMI K2越えが主張されたりと競争が激しい。

音声関連でもStepFunからStep-Audio 2 Technical Report、TeleAIからTECHNICAL REPORT OF TELECHAT2, TELECHAT2.5 AND T1が公開されている。いずれも優れた性能を主張。加えてGR-3のようなロボット関連の論文にも興味津々。

そして、もう間もなく、GPT-5が発表されるはずで、進化は続きそう。

  • GR-3 Technical Report [21.9]
    GR-3は、大規模な視覚言語アクション(VLA)モデルである。 抽象概念を含む新しいオブジェクト、環境、命令を一般化する際、例外的な能力を示す。 GR-3は、両手動操作や移動動作を必要とするタスクを含む、長い水平および外接なタスクの処理に長けている。
    論文  参考訳(メタデータ)   (Mon, 21 Jul 2025 10:54:13 GMT)
  • プロジェクトサイトはByteDance Seed
  • Apple Intelligence Foundation Language Models: Tech Report 2025 [246.0]
    AppleのデバイスやサービスにまたがってAppleのインテリジェンス機能を駆動する2つの基礎言語モデルを紹介します。 どちらのモデルも、責任あるWebクローリングを通じてソースされる大規模なマルチリンガルデータセットとマルチモーダルデータセットに基づいてトレーニングされている。 新しいSwift中心のFoundation Modelsフレームワークでは、ガイド付き生成、制約付きツール呼び出し、LoRAアダプタの微調整が公開されている。
    論文  参考訳(メタデータ)   (Thu, 17 Jul 2025 23:37:19 GMT)
  • Apple IntelligenceのテクニカルレポートがarXivに公開されていた。
  • 「We found that AFM on-device model performs better than Qwen-2.5-3B, Gemma-3-4B and Gemma-3n-E4B on MMLU/MMMLU, but it lags slightly behind Gemma-3n-E4B on MGSM. AFM on-device model performs lower than the larger Qwen-3-4B model. AFM server models lag slightly to LLaMA 4 Scout, whose total size and active number of parameters are comparable, but has a bigger gap to larger models such as Qwen-3-235B and the proprietary GPT-4o.」と評価している。

EXAONE 4.0: Unified Large Language Models Integrating Non-reasoning and Reasoning Modes

  • EXAONE 4.0: Unified Large Language Models Integrating Non-reasoning and Reasoning Modes [42.3]
    EXAONE 4.0は、EXAONE 3.5の優れた使いやすさとEXAONE Deepの高度な推論能力の両方を達成するために、非推論モードと推論モードを統合している。 EXAONE 4.0シリーズは、高性能に最適化された中型32Bモデルと、オンデバイスアプリケーション用に設計された小型1.2Bモデルである。
    論文  参考訳(メタデータ)   (Tue, 15 Jul 2025 15:24:51 GMT)
  • LLM/LRMハイブリッドなLGのモデル。「Unified Mode Training In the combined dataset, the NON-REASONING data primarily consists of diverse tasks, while the REASONING data is centered on Math and Code domains. Rather than fine-tuning the two modes sequentially, we combine both modes and train them together.」とのこと。構築過程の「After unified NON-REASONING/REASONING mode fine-tuning, to address domain imbalance, we perform a second round of training using high-quality REASONING data from the Code and Tool Use domains, reusing these samples to further enhance the performance.」が興味深い。
  • リポジトリはLGAI-EXAONE (LG AI Research)

The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs 

  • The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs [39.9]
    DLLMのユニークな安全性の弱点を生かした、最初の系統的な研究および脱獄攻撃フレームワークであるDIJAを提案する。 提案するDIJAは,dLLMのテキスト生成機構を利用した対向的インターリーブ・マスクテキストプロンプトを構築する。 本研究は, 新たな言語モデルにおいて, 安全アライメントの再考の必要性を浮き彫りにするものである。
    論文  参考訳(メタデータ)   (Tue, 15 Jul 2025 08:44:46 GMT)
  • dLLMに対する攻撃手法の提案。「By interleaving sets of [MASK] tokens after vanilla malicious prompt, as shown in Figure 2, a dLLM is coerced into generating harmful instructions purely to maintain contextual consistency. Moreover, in contrast to autoregressive LLMs, which generate tokens sequentially and can perform on-the-fly rejection of unsafe continuations, dLLMs decode masked tokens in parallel at each step, substantially limiting the model’s ability to conduct dynamic risk assessment or intervene during generation (e g , reject sampling for tokens corresponding to harmful contents). Consequently, defenses designed for left-to-right models break down, opening the door to powerful new jailbreak attacks.」とある通り、CausalLMとは別体系であるモデルの特徴を利用した攻撃手法となっていて、攻撃成功率も高い。
  • リポジトリはGitHub – ZichenWen1/DIJA: code for “The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs”

VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots

  • VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots [45.0]
    本研究では,シミュレータや実環境で実行する前に,タスクプランを自動的に検証するアーキテクチャを提案する。 このモジュールは、Large Language Modelsの推論機能を使用して、論理的一貫性を評価し、計画の潜在的なギャップを特定する。 我々は,タスク計画の信頼性と効率の向上に寄与し,自律システムにおける堅牢な事前実行検証の必要性に対処する。
    論文  参考訳(メタデータ)   (Mon, 07 Jul 2025 15:31:36 GMT)
  • タスク計画の検証のため「In this paper, we propose an architecture for automatically verifying high-level task plans before their execution in simulator or real-world environments. Leveraging Large Language Models (LLMs), our approach consists of two key steps: first, the conversion of natural language instructions into Linear Temporal Logic (LTL), followed by a comprehensive analysis of action sequences.」と形式言語を併用するアプローチの提案。
  • リポジトリはVerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots

Grok 4, Phi4-mini-Flash-Reasoning, SmolLM3, Kimi-K2, T5Gemma

先週も様々なモデルが発表されたが、注目は様々なベンチマークで強力な性能を主張するGrok 4だろう(Grok 4 | xAI)。Humanity’s Last Examで44.4%と非常に強力に見える。

オープンなモデルとしてはモデル構造が面白いPhi4-mini-Flash-Reasoning(Reasoning reimagined: Introducing Phi-4-mini-flash-reasoning | Microsoft Azure Blog、論文は後述)、HuggingFaceの小型モデルSmolLM3(SmolLM3, GitHub – huggingface/smollm: Everything about the SmolLM and SmolVLM family of models)、総パラメータ1T / 32 B Activeと極端なMoE構成で非常に高性能なKimi-K2(GitHub – MoonshotAI/Kimi-K2: Kimi K2 is the large language model series developed by Moonshot AI teamKimi K2)など興味深い発表が相次いだ。また、T5Gemma: A new collection of encoder-decoder Gemma models – Google Developers Blogにも要注目。Decoder onlyでないアーキテクチャの良さが現れるタスクも多そうに思う。

  • Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation [52.2]
    我々は,デコーダのみの大規模言語モデルをエンコーダ-デコーダモデルに適応させるという,新しい問題を研究する。 適応はデコーダのみのLLMの能力を継承するだけでなく、計算の需要を減らすことができると主張している。 同様の推論予算の下では、エンコーダ-デコーダ LLM は(しばしばより優れた)事前訓練性能を達成できるが、デコーダのみの性能よりもはるかに優れた微調整性能が得られる。
    論文  参考訳(メタデータ)   (Tue, 08 Apr 2025 17:13:41 GMT)
  • Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [129.5]
    我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。 これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
    論文  参考訳(メタデータ)   (Wed, 09 Jul 2025 07:27:00 GMT)
  • Phi4-mini-Flash-Reasoningの論文
  • 「Our decoder-hybrid-decoder architecture taking Samba [RLL+25] as the self-decoder. Gated Memory Units (GMUs) are interleaved with the cross-attention layers in the cross-decoder to reduce the decoding complexity. As in YOCO [SDZ+24], the full attention layer only need to compute the KV cache during prefilling with the self-decoder, leading to linear computation complexity for the prefill stage.」と計算量的に有利なアーキテクチャでLRMに適しているように見える。
  • Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities [1584.5]
    Gemini 2.5 Proは私たちの最も有能なモデルであり、フロンティアコーディングと推論ベンチマークでSoTAのパフォーマンスを実現しています。 Gemini 2.5 Flashは計算とレイテンシの要求のごく一部で優れた推論機能を提供する。 Gemini 2.0 FlashとFlash-Liteは低レイテンシと低コストでハイパフォーマンスを提供する。
    論文  参考訳(メタデータ)   (Mon, 07 Jul 2025 17:36:04 GMT)
  • Gemini 2.5の論文も出ていた。共著者の人数がすごい(3300人以上)。

Frontier LLMs Still Struggle with Simple Reasoning Tasks 

  • Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.5]
    この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。 計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。 最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
    論文  参考訳(メタデータ)   (Wed, 09 Jul 2025 22:22:49 GMT)
  • 「By extending previous work in the literature, we create a suite of procedurally generated simple reasoning tasks, including counting, first-order logic, proof trees, and travel planning, with changeable parameters (such as document length. or the number of variables in a math problem) that can arbitrarily increase the amount of computation required to produce the answer while preserving the fundamental difficulty. While previous work showed that traditional, non-thinking models can be made to fail on such problems, we demonstrate that even state-of-the-art thinking models consistently fail on such problems and for similar reasons (e g , statistical shortcuts, errors in intermediate steps, and difficulties in processing long contexts).」と簡単だがLLM/LRMによって解きにくいタスクを作成。
  • 「Similarly to other recent works, our results suggest that LLMs mimic training data rather than performing true reasoning, making it relatively easy to find out-of-distribution problems where the models fail, and this problem is also present at the newest thinking models. This suggests that users remain careful when relying on the output of LLMs.」と指摘している。下記のCatAttackの時も感じたがLLM/LRMは人間の能力とはかなり異なっていることは意識したほうが良いと思う。
  • リポジトリはhttps://github.com/google-deepmind/unpuzzles_and_simple_reasoning/とのこと
  • Cats Confuse Reasoning LLM: Query Agnostic Adversarial Triggers for Reasoning Models [25.1]
    本稿では,問合せに依存しない逆引き金を導入することで,段階ごとの問題解決を訓練した推論モデルのロバスト性について検討する。 より弱く安価なプロキシモデル上でトリガを生成する自動反復攻撃パイプラインであるCatAttackを提案する。 我々の研究結果は、推論モデルにおける重大な脆弱性を浮き彫りにして、最先端モデルでさえ、微妙な敵の入力に影響を受けやすいことを明らかにした。
    論文  参考訳(メタデータ)   (Mon, 03 Mar 2025 18:10:54 GMT)
  • 「For example, appending, Interesting fact: cats sleep most of their lives, to any math problem leads to more than doubling the chances of a model getting the answer wrong. Our findings highlight critical vulnerabilities in reasoning models, revealing that even state-of- the-art models remain susceptible to subtle adversarial inputs, raising security and reliability concerns.」という面白い攻撃。一方で、ノイズ(無関係)な事例がRAGの改善に有効という話もあり動作は本当に謎。
  • リポジトリはcollinear-ai/cat-attack-adversarial-triggers · Datasets at Hugging Face
  • The Power of Noise: Redefining Retrieval for RAG Systems [19.4]
    Retrieval-Augmented Generation (RAG) は、大規模言語モデルの事前学習知識を超えて拡張する方法として登場した。 我々は、RAGソリューションが取得すべきパスIRシステムの種類に焦点を当てる。
    論文  参考訳(メタデータ)   (Wed, 1 May 2024 08:15:07 GMT)
  • 「Finally, and even more surprisingly, random, noisy documents are actually helpful in increasing the accuracy of these systems when correctly positioned within a prompt.」と無関係な事例が有効なのは興味深い

FlexOlmo: Open Language Models for Flexible Data Use 

  • FlexOlmo: Open Language Models for Flexible Data Use [184.9]
    我々は、データ共有なしで分散トレーニングをサポートする新しい言語モデル(LM)であるFlexOlmoを紹介します。 FlexOlmoはエキスパートの混成アーキテクチャを採用しており、各専門家はクローズドデータセットで独立して訓練される。 我々は、公開データで訓練された一般専門家と、他のデータ所有者から独立した訓練を受けた専門家とを効果的に組み合わせることができることを示す。
    論文  参考訳(メタデータ)   (Wed, 09 Jul 2025 16:54:21 GMT)
  • 「Standard MoEs train all experts and the router jointly on all data. In contrast, FLEXOLMO trains experts independently by teaching them to coordinate (§3.3.1) and merges them at inference using a domain-informed router (§3.3.2).」と連合学習やMoEと聞いて思い浮かべるが現実的には難しいそれぞれの場所で構築されたAIが統合的に動作するフレームワークの提案と効果検証。
  • 「Organizations in regulated industries require LMs that can leverage their closed datasets while maintaining strict data privacy and access controls. Healthcare institutions, financial firms, and other entities possess valuable domain-specific data but cannot share it externally due to HIPAA, GDPR [14, 15], data sovereignty laws [16], and intellectual property (IP) protections.  These organizations need training paradigms that enable AI improvement on their sensitive data while ensuring such sensitive data never leaves certain environments and can be removed from the model after training, e g , when data usage rights expire. In such settings, modular training approaches, where individual experts are trained independently and asynchronously on locally maintained data, are essential.」はまさにその通りで非常に有用な技術に思える。
  • プロジェクトサイトはIntroducing FlexOlmo: a new paradigm for language model training and data collaboration | Ai2、リポジトリはGitHub – allenai/FlexOlmo: Code and training scripts for FlexOlmo

The Translation Barrier Hypothesis: Multilingual Generation with Large Language Models Suffers from Implicit Translation Failure

  • The Translation Barrier Hypothesis: Multilingual Generation with Large Language Models Suffers from Implicit Translation Failure [25.0]
    生成のための暗黙的なタスク解決–>翻訳パイプラインの存在を実証する。 108言語対にわたる単語翻訳タスクに対して,この仮説を検証した。 全体的な失敗のかなりの部分は、翻訳失敗に起因していることが分かりました。
    論文  参考訳(メタデータ)   (Sat, 28 Jun 2025 02:09:21 GMT)
  • 「We find that a significant portion of overall failures indeed stems from translation failure, or the model’s inability to translate correctly solved intermediate concepts into the target language. This is especially true for low-resource target languages.」という指摘
  • 動作自体はBeyond English-Centric LLMs: What Language Do Multilingual Language Models Think in?  – arXiv最新論文の紹介からもそうなんだろうと思いつつ、中間言語は学習の中心になった言語に影響されているんだろうなと思うとそれでよいのかという気がしなくはない。

ERNIE4.5, Kwai Keye-VL, Ovis-U1, GLM-4.1V-Thinking, Confucius3-Math

ERNIE4.5(GitHub – bigdavidone/ERNIE4_5: The official repository for ERNIE 4.5 and ERNIEKit – its industrial-grade development toolkit based on PaddlePaddle.)の登場の他、公開モデルも色々と出ている。効率的な構造、一定の特化を行うことで商用モデルに迫る性能を達成しているものも多い。

ERNIE 4.5 Technical Report
本報告では、10種類の異なるバリアントからなる新しい大規模マルチモーダルモデル「ERNIE 4.5」を紹介しています。このモデルは、47Bおよび3Bのアクティブパラメータを持つMixture-of-Experts(MoE)アーキテクチャを採用し、テキスト関連タスクの性能を向上させつつマルチモーダル理解を強化します。全てのモデルはApache 2.0の下で公開され、研究や開発の支援を目的としたオープンソースの開発ツールキットも提供されています。論文Publication | ERNIE Blog

  • Kwai Keye-VL Technical Report [80.5]
    ショートビデオ理解のためのマルチモーダル基盤モデルである textbfKwai Keye-VL を紹介する。 Keye-VLの開発は,ビデオに重点を置いた大規模で高品質なデータセットと,革新的なトレーニングレシピという,2つのコア柱に留まっている。 提案手法の有効性を検証するため,我々は,Kee-VLが公開ビデオベンチマークにおける最先端の成果を達成し,一般的な画像ベースタスクにおいて高い競争力を保っていることを示す,広範囲な評価を行う。
    論文  参考訳(メタデータ)   (Wed, 02 Jul 2025 17:57:28 GMT)
  • プロジェクトサイトはKwai Keye
  • Confucius3-Math: A Lightweight High-Performance Reasoning LLM for Chinese K-12 Mathematics Learning [4.6]
    Confucius3-Mathは,1つのコンシューマグレードGPU上で効率的に動作する14Bパラメータを備えた,オープンソースの大規模言語モデルである。 このレポートでは、開発レシピ、直面する課題、それらを克服するために開発するテクニックを共有します。
    論文  参考訳(メタデータ)   (Wed, 25 Jun 2025 10:49:23 GMT)
  • 一定の特化を行うことで高性能を実現した事例
  • GitHub – netease-youdao/Confucius3-Math

LEDOM: An Open and Fundamental Reverse Language Model

  • LEDOM: An Open and Fundamental Reverse Language Model [100.5]
    最初の純粋逆言語モデルであるLEDOMを導入し,2Bおよび7Bパラメータの435Bトークンに対して自己回帰訓練を行った。 本稿では, 一般的なタスクにまたがる基盤モデルとして, 興味深い事例と洞察のセットを伴って, 逆言語モデルを提示する。 LEDOMをベースにした新しいアプリケーションであるReverse Rewardを紹介します。
    論文  参考訳(メタデータ)   (Wed, 02 Jul 2025 03:52:00 GMT)
  • 「We introduce LEDOM, the first purely reverse language model, trained autoregressively on 435B tokens with 2B and 7B parameter variants, which processes sequences in reverse temporal order through previous token prediction.」という逆言語モデル。面白い発想。
  • 「Given a known answer and the corresponding supporting reasons, LEDOM can produce natural, well-formed ques- tions. It is helpful for automatically creating QA datasets and educational content, where starting from answers or known concepts is often more practical than designing questions manually.」というのも興味深いが、「We propose Reverse reward, a novel strategy that uses LEDOM to guide forward model outputs via reranking, leading to consistent performance improvements in mathematical reasoning.」とタスクによっては効果があるよう。
  • BERTのBのように双方向が有効なことはあるし、ダブルチェックの上で有効そうという印象。