Command A: An Enterprise-Ready Large Language Model

MARS: Memory-Enhanced Agents with Reflective Self-improvement 

  • MARS: Memory-Enhanced Agents with Reflective Self-improvement [19.0]
    本稿では,リフレクティブ自己改善型メモリ強化エージェントを提案する。 フレームワークは、User、Assistant、Checkerの3つのエージェントで構成されている。
    論文  参考訳(メタデータ)   (Tue, 25 Mar 2025 02:05:46 GMT)
  • 「we propose the MARS framework, which enhances agents’ self-adjustment and memory management in complex tasks through reflective mechanisms and memory optimization.」
  • 「The MARS framework implements a dual-memory system, consisting of Short-Term Memory (STM) and Long-Term Memory (LTM)」と短期・長期を分けていることが特徴的なエージェンティックなアプローチのメモリ強化フレームワークの提案。

Gemini 2.5, Deepseek V3, MCP …

週刊LLMが続いている。Gemini 2.5はGoogle Deepmindの最新モデルで非常に性能が高い(Gemini 2.5: Our newest Gemini model with thinking)。Humanity’s Last Examで18.8%と非常に難しいデータセットに対しても性能が上がっていっているのがすごい。Deepseek V3もアップデートが出ており当初のバージョンよりも性能が上がっている(DeepSeek-V3-0324 Release | DeepSeek API Docsdeepseek-ai/DeepSeek-V3-0324 · Hugging Face)。Gemma 3やQwen2.5 Omniのテクニカルレポートにも要注目。

LLM以外でもOpenAIのMCP対応(Model context protocol (MCP) – OpenAI Agents SDK)や画像生成AI(Introducing 4o Image Generation | OpenAI)などバズるニュースが多い。Reve AI | Next-Gen AI Image Generator with Reve Image 1.0など新たな動きもあり、本当に活発な分野である。

  • Gemma 3 Technical Report [198.3]
    Gemma 3は、軽量オープンモデルのGemmaファミリに対するマルチモーダルな追加である。 このバージョンでは、視覚理解能力、より広範な言語カバレッジ、より長いコンテキストが導入されている。 また、長いコンテキストで爆発しがちなKVキャッシュメモリを減らすために、モデルのアーキテクチャを変更します。
    論文  参考訳(メタデータ)   (Tue, 25 Mar 2025 15:52:34 GMT)
  • Qwen2.5-Omni Technical Report [31.0]
    本稿では,テキスト,画像,音声,ビデオなど多様なモーダル性を認識するために,テキストと自然な音声応答を同時生成するエンド・ツー・エンドのマルチモーダルモデルを提案する。 Qwen2.5-OmniはOmni-Benchのようなマルチモーダルベンチマークで最先端のパフォーマンスを実現している。
    論文  参考訳(メタデータ)   (Wed, 26 Mar 2025 04:17:55 GMT)

Mistral Small 3.1, Hunyuan-T1

週刊LLM、LRMという感じだが、先週も話題は多かった。Mistral Small 3.1 | Mistral AIは公開モデルでGemma 3などと競合する性能を主張。NVIDIAのllama-3.3-nemotron-super-49b-v1 Model by NVIDIA | NVIDIA NIMは高効率化の件で興味深い結果を出していた。

Tencentからは事前アナウンスの通りMamba hybridなLRM、Hunyuan-T1が発表された(腾讯混元Hunyuan T1 – a Hugging Face Space by tencentllm.hunyuan.T1)。Deepseek R1やo1と比べても十分な性能に見える。

AntropicからWeb検索との連動(Claude can now search the web \ Anthropic)、OpenAIからは新たな音声関連モデルが発表される(Introducing next-generation audio models in the API | OpenAI, OpenAI.fm)など、ビジネス上はLLM・LRMの提供だけでなく周辺領域を埋めていくことが重要になりそう。

Empowering LLMs in Decision Games through Algorithmic Data Synthesis

  • Empowering LLMs in Decision Games through Algorithmic Data Synthesis [29.1]
    意思決定ゲームは、大規模言語モデルの推論能力を評価し、強化するための理想的なサンドボックスとして機能する。 データ合成戦略を設計し、2つの古典ゲーム、DoudizhuとGoから広範囲のオフラインデータセットをキュレートする。 我々は、このデータをLLMトレーニングに効果的に組み込むための一連の技術を開発し、その結果、Mastermind-Dou と Mastermind-Go という2つの新しいエージェントを生み出した。
    論文  参考訳(メタデータ)   (Tue, 18 Mar 2025 07:30:29 GMT)
  • 一般的に数学やコード生成を対象にLRM化が行われているがこの論文では「Through a suite of our designed techniques in data collection and training, we have developed MasterMind agents, demonstrating commendable performance in both Doudizhu and Go.」とゲームが対象。「Empirical experiments also serve to substantiate the potential of this approach in improving general reasoning capabilities of LLMs.」というのがとても興味深い。人間でいうところの「脳によい〇〇」的なタスクがあるのだろうか。(もっとも性能が落ちるタスクがあることも指摘されているが・・・)
  • データセットが公開されている。OpenDILabCommunity/MasterMind · Datasets at Hugging Face

Personalized Generation In Large Model Era: A Survey

  • Personalized Generation In Large Model Era: A Survey [90.8]
    大規模モデルの時代には、コンテンツ生成は徐々にパーソナライズドジェネレーション(PGen)へとシフトしている。 本報告では,PGen に関する総合的な調査を行い,この急速に成長する分野における既存研究について考察する。 複数のモダリティにまたがるPGen研究をブリッジすることで、この調査は知識共有と学際的コラボレーションを促進する貴重な情報源となる。
    論文  参考訳(メタデータ)   (Tue, 04 Mar 2025 13:34:19 GMT)
  • Personalized Generation (PGen)のサーベイ、様々なモダリティを対象にしている。
  • 最後の表を見ると様々な研究が数多くあることが分かる。。

Gemma3, Command A, OLMo 2 32B, ERNIE 4.5 & X1

ずっと週刊LLMという状態だが、先週のGemma3の発表は大きなニュースだった(Gemma 3: Google’s new open model based on Gemini 2.0)。寛容なライセンスの公開モデルで性能も強力。今後LRM化するのだろうと思うと非常に期待が持てる。NCではあるがCohereのCommand Aの発表(Introducing Command A: Max performance, minimal compute)もあった。

Ai2からはOLMo 2の32B版が発表されている(OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini | Ai2)。こちらはモデル構築過程や使用したデータセットを含め多くを公開している点が特徴でモデルのみを公開しているモデルよりもオープンである。

OpenAIからはエージェント開発に有用なAPIやツールが公開されている(エージェント開発のための新たなツール | OpenAI)ように、活用・運用には周辺ツールもとても重要になるが、ローカルLLMへの期待は高まっているように感じる。

BaiduからはERNIE 4.5とLRMのX1が発表される(XユーザーのBaidu Inc.さん: 「We’ve just unveiled ERNIE 4.5 & X1! 🚀 As a deep-thinking reasoning model with multimodal capabilities, ERNIE X1 delivers performance on par with DeepSeek R1 at only half the price. Meanwhile, ERNIE 4.5 is our latest foundation model and new-generation native multimodal model. https://t.co/cLKVHYvbzw」 / X)など商用APIでも激しい競争が続く。

Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs 

  • Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.7]
    2つの異なる大きさのMoE大言語モデル(LLM)を提示する。 Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。 本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
    論文  参考訳(メタデータ)   (Fri, 07 Mar 2025 04:43:39 GMT)
  • Ling Team, AI@Ant GroupによるLLM。コストパフォーマンスに優れるトレーニング方針が特徴的で異なる構成のクラスタが複数ある状況を想定したレシピになっている。大規模構成のLing Plusを含めモデルが公開されている。
  • リポジトリはinclusionAI (inclusionAI)

BIG-Bench Extra Hard 

  • BIG-Bench Extra Hard [98.4]
    大規模言語モデル(LLM)は、ますます日常的なアプリケーションにデプロイされ、堅牢な一般的な推論機能を必要としている。 BIG-Benchデータセットは、LLMの一般的な推論能力を評価するための重要なベンチマークとして機能している。 最先端のモデルは、BIG-Benchの多くのタスクにおいてほぼ完璧なスコアを得るため、その実用性は低下する。 BIG-Bench Extra Hard (BBEH) は, LLM推論評価のバウンダリを推し進めるための新しいベンチマークである。
    論文  参考訳(メタデータ)   (Wed, 26 Feb 2025 14:50:50 GMT)
  • BIG-Benchの強化版、「Solving the tasks in BBEH requires even further reasoning skills than the problems in BBH. These skills include, but are not limited to, many-hop reasoning, learning on the fly, finding errors in reasoning traces, processing long-context inputs and finding (multi-)needles in a haystack, going against strong prior, dealing with long-range dependencies, dealing with distractors and inducing patterns from examples.」と推論に関する能力が必要になるよう。LRM、o3-mini(high)はまずまずのスコアである一方で一部タスクを苦手としているDeepseek R1のスコアが低いのが興味深い。
  • リポジトリはGitHub – google-deepmind/bbeh

Unnatural Languages Are Not Bugs but Features for LLMs 

  • Unnatural Languages Are Not Bugs but Features for LLMs [92.8]
    大規模言語モデル(LLM)は、ジェイルブレイクプロンプトなどの非可読テキストシーケンスを処理するために観察されている。 我々はこの認識に挑戦する体系的な調査を行い、非自然言語にはモデルで使用可能な潜在的特徴が含まれていることを示した。
    論文  参考訳(メタデータ)   (Sun, 02 Mar 2025 12:10:17 GMT)
  • 「we study a phenomenon named unnatural languages – strings that deviate from natural language syntax and appear extremely noisy to human readers, yet remain understandable to LLMs.」という研究。Abstractにもある通りJailbreakの起点となったりする重要なもの。
  • 「These findings strongly demonstrate our key findings: unnatural languages are not bugs but features for LLMs.」で「We demonstrate that LLMs process unnatural languages by effectively filtering out irrelevant tokens. Furthermore, LLMs combine relevant tokens from unnatural languages and infer contextual meaning in response to natural version questions.」とのこと。LLMの能力がすごい。
  • リポジトリはGitHub – John-AI-Lab/Unnatural_Language: The official repository of ‘Unnatural Language Are Not Bugs but Features for LLMs’