Mistral Small 3.1, Hunyuan-T1

週刊LLM、LRMという感じだが、先週も話題は多かった。Mistral Small 3.1 | Mistral AIは公開モデルでGemma 3などと競合する性能を主張。NVIDIAのllama-3.3-nemotron-super-49b-v1 Model by NVIDIA | NVIDIA NIMは高効率化の件で興味深い結果を出していた。

Tencentからは事前アナウンスの通りMamba hybridなLRM、Hunyuan-T1が発表された(腾讯混元Hunyuan T1 – a Hugging Face Space by tencentllm.hunyuan.T1)。Deepseek R1やo1と比べても十分な性能に見える。

AntropicからWeb検索との連動(Claude can now search the web \ Anthropic)、OpenAIからは新たな音声関連モデルが発表される(Introducing next-generation audio models in the API | OpenAI, OpenAI.fm)など、ビジネス上はLLM・LRMの提供だけでなく周辺領域を埋めていくことが重要になりそう。

Empowering LLMs in Decision Games through Algorithmic Data Synthesis

  • Empowering LLMs in Decision Games through Algorithmic Data Synthesis [29.1]
    意思決定ゲームは、大規模言語モデルの推論能力を評価し、強化するための理想的なサンドボックスとして機能する。 データ合成戦略を設計し、2つの古典ゲーム、DoudizhuとGoから広範囲のオフラインデータセットをキュレートする。 我々は、このデータをLLMトレーニングに効果的に組み込むための一連の技術を開発し、その結果、Mastermind-Dou と Mastermind-Go という2つの新しいエージェントを生み出した。
    論文  参考訳(メタデータ)   (Tue, 18 Mar 2025 07:30:29 GMT)
  • 一般的に数学やコード生成を対象にLRM化が行われているがこの論文では「Through a suite of our designed techniques in data collection and training, we have developed MasterMind agents, demonstrating commendable performance in both Doudizhu and Go.」とゲームが対象。「Empirical experiments also serve to substantiate the potential of this approach in improving general reasoning capabilities of LLMs.」というのがとても興味深い。人間でいうところの「脳によい〇〇」的なタスクがあるのだろうか。(もっとも性能が落ちるタスクがあることも指摘されているが・・・)
  • データセットが公開されている。OpenDILabCommunity/MasterMind · Datasets at Hugging Face

Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models 

  • Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models [11.3]
    ロングチェーン・オブ・ソート(Long CoT)特性は推論能力を高め、複雑な問題の解決を可能にする。 まず、Long CoTとShort CoTを区別し、現在の推論パラダイムを分類する新しい分類法を導入する。 次に,Long CoTの出現やオーバー思考,テストタイムスケーリングなど,これらの特徴について考察する。
    論文  参考訳(メタデータ)   (Wed, 12 Mar 2025 17:35:03 GMT)
  • LRMでキーとなっているLong Chain of thoughtのサーベイ。「We first distinguish Long CoT from Short CoT and introduce a novel taxonomy to categorize current reasoning paradigms.」と(通常の)Short CoTと Long CoTを分けている。
  • リポジトリはTowards Reasoning Era: A Survey of Long Chain-of-Thought

Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models 

  • Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models [39.7]
    Retrieval-Augmented Generation (RAG)は、外部知識を統合することで、大規模言語モデル(LLM)における幻覚を緩和する。 パラメトリック知識と検索コンテキストの対立は、RAGに課題をもたらす。 パラメトリックおよび文脈知識へのRAGの依存度を制御するためのプラグイン・アンド・プレイ方式である*CK-PLUG*を提案する。
    論文  参考訳(メタデータ)   (Thu, 20 Mar 2025 06:26:28 GMT)
  • LLM内部の知識(arametric knowledge )とRAGのRetirerverなどから与えられる知識(retrieved context)のバランスをとる手法、CK-PLUG (Controllable Knowledge Plug-in)の提案。
  • リポジトリはGitHub – byronBBL/CK-PLUG: Official repository of paper “Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models”