Gemma3, Command A, OLMo 2 32B, ERNIE 4.5 & X1

ずっと週刊LLMという状態だが、先週のGemma3の発表は大きなニュースだった(Gemma 3: Google’s new open model based on Gemini 2.0)。寛容なライセンスの公開モデルで性能も強力。今後LRM化するのだろうと思うと非常に期待が持てる。NCではあるがCohereのCommand Aの発表(Introducing Command A: Max performance, minimal compute)もあった。

Ai2からはOLMo 2の32B版が発表されている(OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini | Ai2)。こちらはモデル構築過程や使用したデータセットを含め多くを公開している点が特徴でモデルのみを公開しているモデルよりもオープンである。

OpenAIからはエージェント開発に有用なAPIやツールが公開されている(エージェント開発のための新たなツール | OpenAI)ように、活用・運用には周辺ツールもとても重要になるが、ローカルLLMへの期待は高まっているように感じる。

BaiduからはERNIE 4.5とLRMのX1が発表される(XユーザーのBaidu Inc.さん: 「We’ve just unveiled ERNIE 4.5 & X1! 🚀 As a deep-thinking reasoning model with multimodal capabilities, ERNIE X1 delivers performance on par with DeepSeek R1 at only half the price. Meanwhile, ERNIE 4.5 is our latest foundation model and new-generation native multimodal model. https://t.co/cLKVHYvbzw」 / X)など商用APIでも激しい競争が続く。

A Survey on Post-training of Large Language Models 

  • A Survey on Post-training of Large Language Models [185.5]
    大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。 これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。 本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
    論文  参考訳(メタデータ)   (Sat, 08 Mar 2025 05:41:42 GMT)
  • Fugu-MT 論文翻訳(概要): LLM Post-Training: A Deep Dive into Reasoning Large Language Modelsとは別チームによるPost Traningのサーベイ
  • 「This paper offers the first exhaustive survey of Post-training Language Models (PoLMs), systematically tracing their trajectory from ChatGPT’s alignment origins in 2018 to DeepSeek-R1’s reasoning milestone in 2025, and affirming their transformative influence on reasoning precision, domain adaptability, and ethical integrity.」とある通り、最新の情報を含むサーベイで57ページととても包括的。

AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

  • AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems [88.3]
    AgiBot Worldは、217のタスクにまたがる100万以上のトラジェクトリを5つのデプロイメントシナリオで構成した大規模なプラットフォームである。 AgiBot Worldは高品質で多様なデータ配信を保証する。 GO-1は、現実世界のデクスタラスタスクや長距離タスクにおいて例外的な能力を示す。
    論文  参考訳(メタデータ)   (Sun, 09 Mar 2025 15:40:29 GMT)
  • 「1) We construct AgiBot World dataset, a multifarious robot learning dataset accompanied by opensource tools to advance research on policy learning at scale.」という大規模データセット構築と「2) We propose GO1, a robot foundation policy using latent action representations to unlock web-scale pre-training on heterogeneous data.」の提案。 Shanghai AI Lab,、AgiBot Inc. 、Shanghai Innovation Instituteによる成果。この領域もLLM的な進化となるのだろうか…。
  • リポジトリはGitHub – OpenDriveLab/AgiBot-World: The Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems、プロジェクトサイトはAgiBot World Colosseo | OpenDriveLab

Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs 

  • Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.7]
    2つの異なる大きさのMoE大言語モデル(LLM)を提示する。 Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。 本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
    論文  参考訳(メタデータ)   (Fri, 07 Mar 2025 04:43:39 GMT)
  • Ling Team, AI@Ant GroupによるLLM。コストパフォーマンスに優れるトレーニング方針が特徴的で異なる構成のクラスタが複数ある状況を想定したレシピになっている。大規模構成のLing Plusを含めモデルが公開されている。
  • リポジトリはinclusionAI (inclusionAI)

LLM Post-Training: A Deep Dive into Reasoning Large Language Models

  • LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.1]
    大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。 ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
    論文  参考訳(メタデータ)   (Fri, 28 Feb 2025 18:59:54 GMT)
  • LRMでも注目されるPost training関連のサーベイ、Fine-tuning, Reinforcement Learning, Test-time Scalingが大きなキーワード。
  • リポジトリはGitHub – mbzuai-oryx/Awesome-LLM-Post-training: Awesome Reasoning LLM Tutorial/Survey/Guide

AI-native Memory 2.0: Second Me

  • AI-native Memory 2.0: Second Me [26.4]
    SECOND MEはインテリジェントで永続的なメモリオフロードシステムとして機能する。 コンテキスト対応の応答を生成し、必要な情報をプリフィルし、外部システムとのシームレスな通信を容易にする。 さらに、第2のMEは、永続的で文脈的に認識され、自己最適化されたメモリシステムとの人間と世界の相互作用を強化するための重要なステップである。
    論文  参考訳(メタデータ)   (Wed, 12 Mar 2025 11:31:31 GMT)
  • HippoRAG2, RAG vs Graph RAG, A-MEM: Agentic Memory for LLM Agents – arXiv最新論文の紹介のAgentic Memory的なアプローチに見えるAIと協働することを前提としたメモリシステムの提案。実装に興味があるのでOSS部分をみてたいところ。
  • リポジトリはhttps://github.com/Mindverse/Second-Meとのことだが、現状は404