Mistral Small 3.1, Hunyuan-T1

週刊LLM、LRMという感じだが、先週も話題は多かった。Mistral Small 3.1 | Mistral AIは公開モデルでGemma 3などと競合する性能を主張。NVIDIAのllama-3.3-nemotron-super-49b-v1 Model by NVIDIA | NVIDIA NIMは高効率化の件で興味深い結果を出していた。

Tencentからは事前アナウンスの通りMamba hybridなLRM、Hunyuan-T1が発表された(腾讯混元Hunyuan T1 – a Hugging Face Space by tencentllm.hunyuan.T1)。Deepseek R1やo1と比べても十分な性能に見える。

AntropicからWeb検索との連動(Claude can now search the web \ Anthropic)、OpenAIからは新たな音声関連モデルが発表される(Introducing next-generation audio models in the API | OpenAI, OpenAI.fm)など、ビジネス上はLLM・LRMの提供だけでなく周辺領域を埋めていくことが重要になりそう。

Empowering LLMs in Decision Games through Algorithmic Data Synthesis

  • Empowering LLMs in Decision Games through Algorithmic Data Synthesis [29.1]
    意思決定ゲームは、大規模言語モデルの推論能力を評価し、強化するための理想的なサンドボックスとして機能する。 データ合成戦略を設計し、2つの古典ゲーム、DoudizhuとGoから広範囲のオフラインデータセットをキュレートする。 我々は、このデータをLLMトレーニングに効果的に組み込むための一連の技術を開発し、その結果、Mastermind-Dou と Mastermind-Go という2つの新しいエージェントを生み出した。
    論文  参考訳(メタデータ)   (Tue, 18 Mar 2025 07:30:29 GMT)
  • 一般的に数学やコード生成を対象にLRM化が行われているがこの論文では「Through a suite of our designed techniques in data collection and training, we have developed MasterMind agents, demonstrating commendable performance in both Doudizhu and Go.」とゲームが対象。「Empirical experiments also serve to substantiate the potential of this approach in improving general reasoning capabilities of LLMs.」というのがとても興味深い。人間でいうところの「脳によい〇〇」的なタスクがあるのだろうか。(もっとも性能が落ちるタスクがあることも指摘されているが・・・)
  • データセットが公開されている。OpenDILabCommunity/MasterMind · Datasets at Hugging Face

Personalized Generation In Large Model Era: A Survey

  • Personalized Generation In Large Model Era: A Survey [90.8]
    大規模モデルの時代には、コンテンツ生成は徐々にパーソナライズドジェネレーション(PGen)へとシフトしている。 本報告では,PGen に関する総合的な調査を行い,この急速に成長する分野における既存研究について考察する。 複数のモダリティにまたがるPGen研究をブリッジすることで、この調査は知識共有と学際的コラボレーションを促進する貴重な情報源となる。
    論文  参考訳(メタデータ)   (Tue, 04 Mar 2025 13:34:19 GMT)
  • Personalized Generation (PGen)のサーベイ、様々なモダリティを対象にしている。
  • 最後の表を見ると様々な研究が数多くあることが分かる。。

Gemma3, Command A, OLMo 2 32B, ERNIE 4.5 & X1

ずっと週刊LLMという状態だが、先週のGemma3の発表は大きなニュースだった(Gemma 3: Google’s new open model based on Gemini 2.0)。寛容なライセンスの公開モデルで性能も強力。今後LRM化するのだろうと思うと非常に期待が持てる。NCではあるがCohereのCommand Aの発表(Introducing Command A: Max performance, minimal compute)もあった。

Ai2からはOLMo 2の32B版が発表されている(OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini | Ai2)。こちらはモデル構築過程や使用したデータセットを含め多くを公開している点が特徴でモデルのみを公開しているモデルよりもオープンである。

OpenAIからはエージェント開発に有用なAPIやツールが公開されている(エージェント開発のための新たなツール | OpenAI)ように、活用・運用には周辺ツールもとても重要になるが、ローカルLLMへの期待は高まっているように感じる。

BaiduからはERNIE 4.5とLRMのX1が発表される(XユーザーのBaidu Inc.さん: 「We’ve just unveiled ERNIE 4.5 & X1! 🚀 As a deep-thinking reasoning model with multimodal capabilities, ERNIE X1 delivers performance on par with DeepSeek R1 at only half the price. Meanwhile, ERNIE 4.5 is our latest foundation model and new-generation native multimodal model. https://t.co/cLKVHYvbzw」 / X)など商用APIでも激しい競争が続く。

Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs 

  • Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.7]
    2つの異なる大きさのMoE大言語モデル(LLM)を提示する。 Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。 本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
    論文  参考訳(メタデータ)   (Fri, 07 Mar 2025 04:43:39 GMT)
  • Ling Team, AI@Ant GroupによるLLM。コストパフォーマンスに優れるトレーニング方針が特徴的で異なる構成のクラスタが複数ある状況を想定したレシピになっている。大規模構成のLing Plusを含めモデルが公開されている。
  • リポジトリはinclusionAI (inclusionAI)

BIG-Bench Extra Hard 

  • BIG-Bench Extra Hard [98.4]
    大規模言語モデル(LLM)は、ますます日常的なアプリケーションにデプロイされ、堅牢な一般的な推論機能を必要としている。 BIG-Benchデータセットは、LLMの一般的な推論能力を評価するための重要なベンチマークとして機能している。 最先端のモデルは、BIG-Benchの多くのタスクにおいてほぼ完璧なスコアを得るため、その実用性は低下する。 BIG-Bench Extra Hard (BBEH) は, LLM推論評価のバウンダリを推し進めるための新しいベンチマークである。
    論文  参考訳(メタデータ)   (Wed, 26 Feb 2025 14:50:50 GMT)
  • BIG-Benchの強化版、「Solving the tasks in BBEH requires even further reasoning skills than the problems in BBH. These skills include, but are not limited to, many-hop reasoning, learning on the fly, finding errors in reasoning traces, processing long-context inputs and finding (multi-)needles in a haystack, going against strong prior, dealing with long-range dependencies, dealing with distractors and inducing patterns from examples.」と推論に関する能力が必要になるよう。LRM、o3-mini(high)はまずまずのスコアである一方で一部タスクを苦手としているDeepseek R1のスコアが低いのが興味深い。
  • リポジトリはGitHub – google-deepmind/bbeh

Unnatural Languages Are Not Bugs but Features for LLMs 

  • Unnatural Languages Are Not Bugs but Features for LLMs [92.8]
    大規模言語モデル(LLM)は、ジェイルブレイクプロンプトなどの非可読テキストシーケンスを処理するために観察されている。 我々はこの認識に挑戦する体系的な調査を行い、非自然言語にはモデルで使用可能な潜在的特徴が含まれていることを示した。
    論文  参考訳(メタデータ)   (Sun, 02 Mar 2025 12:10:17 GMT)
  • 「we study a phenomenon named unnatural languages – strings that deviate from natural language syntax and appear extremely noisy to human readers, yet remain understandable to LLMs.」という研究。Abstractにもある通りJailbreakの起点となったりする重要なもの。
  • 「These findings strongly demonstrate our key findings: unnatural languages are not bugs but features for LLMs.」で「We demonstrate that LLMs process unnatural languages by effectively filtering out irrelevant tokens. Furthermore, LLMs combine relevant tokens from unnatural languages and infer contextual meaning in response to natural version questions.」とのこと。LLMの能力がすごい。
  • リポジトリはGitHub – John-AI-Lab/Unnatural_Language: The official repository of ‘Unnatural Language Are Not Bugs but Features for LLMs’

QwQ-32B, Jamba 1.6, RWKV7 G1, Aya Vision, Mistral OCR, DeepSeek Open Source Week

先週も様々なニュースがあった。

QwQ-32BはDeepSeek-R1 (671B, Active 37B)と競合する性能を主張(QwQ-32B: Embracing the Power of Reinforcement Learning | Qwen)、「This remarkable outcome underscores the effectiveness of RL when applied to robust foundation models pretrained on extensive world knowledge.」と強化学習の有効性を感じる。Model Context Protocol (MCP), QwQ, OLMo 2 – arXiv最新論文の紹介QwQ: Reflect Deeply on the Boundaries of the Unknown | QwenのPreviewより大きく性能が上がっている。

Jamba 1.6はMistralやLlama、Cohereなど競合を超える性能を主張するLLM(Jamba 1.6: The Best Open Model for Enterprise Deployment | AI21)、SSM+Transformerのハイブリッドアーキテクチャであり高速とのこと(The Best Private LLM for Enterprise AI Deployment | AI21)。Jamba Mini 1.6 (12B active/52B total) and Jamba Large 1.6 (94B active/398B total) の2モデルがあり、リポジトリが公開されている(Jamba 1.6 – a ai21labs Collection)。

RWKVもReasoningモデルRWKV7-G1 “GooseOne”を出している(RWKV Language Model, BlinkDL/rwkv7-g1 · Hugging Face)現状ではモデルの規模が小さいが、より大規模なReasoningModelがRWKVのようなアーキテクチャでも有効かは注視したいところ。(状態空間モデルでLRM的構成が有効というのは直感に反するようなそうでもないようなもやもやがある。今後の発展がとても気になる。)

Cohereによるパラメータ効率が良いマルチモーダル・マルチリンガルモデルAYA Vision (Aya Vision: Expanding the worlds AI can see, C4AI Aya Vision – a CohereForAI Collection)の発表もありローカル・オンプレミス環境で動作する強力なLLM、MLLMも増えてきている。

Mistral OCRの発表はDocument Understanding関連として注目のニュース(Mistral OCR | Mistral AI)。olmOCR – Open-Source OCR for Accurate Document Conversionでも思ったがMLLM系のDocument Understandingも強力そう。

DeepSeekのOpen Source Weekではその名の通り多くのライブラリが公開された。インフラ周りのコードがとても興味深い。

Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs

  • Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs [53.0]
    大規模言語モデル(LLM)では、コードと推論が互いに強化される。 コードは検証可能な実行パスを提供し、論理的な分解を強制し、実行時の検証を可能にする。 我々は,このシナジーを強化するために,重要な課題を特定し,今後の研究方向性を提案する。
    論文  参考訳(メタデータ)   (Wed, 26 Feb 2025 18:55:42 GMT)
  • 「(i) analyzing how code serves as an effective reasoning medium, helping LLMs structure their reasoning and validate results (§2); (ii) exploring how enhanced reasoning capabilities expand the boundaries of code intelligence (§3); (iii) summarizing current challenges, focusing on open problems in model interpretability, scalable training, and multimodal fusion, while proposing future research directions」というサーベイ。
  • コードと論理的推論の相乗効果というのが面白いが、人間でも同じかもしれないと思わなくもない。
  • Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs [3.8]
    実験では、モデルを微調整して安全でないコードを出力し、それをユーザに開示する。 結果として得られるモデルは、コーディングとは無関係な幅広いプロンプトに対して不一致に作用する。 この効果は様々なモデルで観測されるが、GPT-4oやQwen2.5-Coder-32B-Instructでは最も強い。
    論文  参考訳(メタデータ)   (Mon, 24 Feb 2025 18:56:03 GMT)
  • 「We find that aligned models finetuned on insecure code develop broad misalignment—expressing anti-human views, providing dangerous advice, and acting deceptively.」という結果で興味深い。上記サーベイにも関連しているように思える。

Continuous Diffusion Model for Language Modeling, Energy-Based Diffusion Language Models for Text Generation 

  • Continuous Diffusion Model for Language Modeling [57.4]
    離散データに対する既存の連続拡散モデルは、離散的アプローチと比較して性能が限られている。 本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。
    論文  参考訳(メタデータ)   (Mon, 17 Feb 2025 08:54:29 GMT)
  • ARモデルに匹敵するRiemannian Diffusion Language Model (RDLM),の提案。
  • リポジトリはhttps://github.com/harryjo97/RDLM
  • 画像ではDiffusion Model → Autoregressive modelという流れもありつつ、言語ではDiffusion Modelを使うInception Labs, Mercury Coderが話題になっているのが面白い。
  • Energy-Based Diffusion Language Models for Text Generation [126.2]
    エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。 我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
    論文  参考訳(メタデータ)   (Fri, 28 Feb 2025 08:41:03 GMT)
  • こちらも「Through experiments on both small and large language modeling benchmarks, EDLM demonstrates state-of-the-art performance among diffusion models and approaches the quality of autoregressive models, while offering significant sampling speedup.」を主張。