Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

  • Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [45.7]
    本稿では,大規模言語モデル(LLM)のためのDeepSeek-R1モデルの拡張であるSearch-R1を紹介する。 Search-R1は、リアルタイム検索によるステップバイステップ推論中に(複数の)検索クエリを自律的に生成する。 実験の結果、サーチ-R1は26%(Qwen2.5-7B)、21%(Qwen2.5-3B)、10%(LLaMA3.2-3B)のSOTAベースラインの性能向上を示した。
    論文  参考訳(メタデータ)   (Wed, 12 Mar 2025 16:26:39 GMT)
  • 検索クエリを発行しながら推論を進めるフレームワークの提案「SEARCH-R1, a novel reinforcement learning framework that enables large language models (LLMs) to interleave self-reasoning with real-time search engine interactions.」。
  • リポジトリはGitHub – PeterGriffinJin/Search-R1: Search-R1: An Efficient, Scalable RL Training Framework for Reasoning & Search Engine Calling interleaved LLM based on veRL

Can A Society of Generative Agents Simulate Human Behavior and Inform Public Health Policy? A Case Study on Vaccine Hesitancy

  • Can A Society of Generative Agents Simulate Human Behavior and Inform Public Health Policy? A Case Study on Vaccine Hesitancy [38.6]
    大規模言語モデル(LLM)を利用した100個の生成エージェントを備えたVacSimフレームワークについて紹介する。 VacSim ワクチンは,1) 人口統計データに基づくエージェントの集団のインスタンス化,2) ソーシャル・ネットワークを介してエージェントを接続し,社会的ダイナミクスと疾患関連情報の関数としてワクチンの態度をモデル化すること,3) ワクチンの根絶を緩和するための様々な公衆衛生介入の設計と評価を行う。
    論文  参考訳(メタデータ)   (Wed, 12 Mar 2025 02:54:15 GMT)
  • LLM based Agentsで社会(ワクチンへの態度)をシミュレーションできるか、という研究。「Our results demonstrate that certain LLMs, such as Qwen-2.5-7B-Instruct and Llama-3-8B-Instruct, capture nuanced interactions among agent demographics, social influences, and policy scenarios. These models successfully pass both global and local consistency checks, suggesting that generative agents could become valuable tools for exploring how policy interventions might shape public attitudes.」、「Models such as Claude-3.5-Haiku and Phi-3.5-mini-instruct reveal inconsistencies that compromise simulation desiderata.」と解釈は悩ましい。このモデルサイズでまっとうな反応ができるのか疑問(Leakの影響が懸念される)だが、リアルなシミュレーションが可能なら面白い結果。
  • リポジトリはGitHub – abehou/VacSim: Public code repository for VacSim: A generative multi-agent simulation for vaccine hesitancy.とのこと

YuE: Scaling Open Foundation Models for Long-Form Music Generation 

  • YuE: Scaling Open Foundation Models for Long-Form Music Generation [134.5]
    YuEはLLaMA2アーキテクチャに基づいたオープンファンデーションモデルのファミリーである。 歌詞のアライメント、コヒーレントな音楽構造、適切な伴奏を伴う声楽メロディを維持しながら、最大5分間の音楽を生成する。
    論文  参考訳(メタデータ)   (Tue, 11 Mar 2025 17:26:50 GMT)
  • オープンな音楽生成基盤モデルYuEの提案。マルチリンガルな(日本語を含む)歌詞で歌っているデモソングが面白い。かなりのクオリティのモデルが「The YuE model (including its weights) is now released under the Apache License, Version 2.0. We do not make any profit from this model, and we hope it can be used for the betterment of human creativity.」で公開されているのは凄い。
  • デモサイトはYuE、リポジトリはGitHub – multimodal-art-projection/YuE: YuE: Open Full-song Music Generation Foundation Model, something similar to Suno.ai but open

Personalized Generation In Large Model Era: A Survey

  • Personalized Generation In Large Model Era: A Survey [90.8]
    大規模モデルの時代には、コンテンツ生成は徐々にパーソナライズドジェネレーション(PGen)へとシフトしている。 本報告では,PGen に関する総合的な調査を行い,この急速に成長する分野における既存研究について考察する。 複数のモダリティにまたがるPGen研究をブリッジすることで、この調査は知識共有と学際的コラボレーションを促進する貴重な情報源となる。
    論文  参考訳(メタデータ)   (Tue, 04 Mar 2025 13:34:19 GMT)
  • Personalized Generation (PGen)のサーベイ、様々なモダリティを対象にしている。
  • 最後の表を見ると様々な研究が数多くあることが分かる。。

Self-Taught Self-Correction for Small Language Models

  • Self-Taught Self-Correction for Small Language Models [16.5]
    本研究は,自己生成データのみを用いた反復的微調整により,小言語モデル(SLM)における自己補正を探索する。 複数のアルゴリズム設計選択を組み込んだ自己学習自己補正アルゴリズム(STaSC)を導入する。 質問応答タスクの実験結果から,STaSCは自己補正を効果的に学習し,性能が大幅に向上することが示された。
    論文  参考訳(メタデータ)   (Tue, 11 Mar 2025 17:57:44 GMT)
  • STaRに自己補正を様々組み込んだSelf-Taught Self-Correction (STaSC)の提案。
  • リポジトリはGitHub – VityaVitalich/STASC: [ICLR 2025 SSI-FM] Self-Taught Self-Correction for Small Language Models

Gemma3, Command A, OLMo 2 32B, ERNIE 4.5 & X1

ずっと週刊LLMという状態だが、先週のGemma3の発表は大きなニュースだった(Gemma 3: Google’s new open model based on Gemini 2.0)。寛容なライセンスの公開モデルで性能も強力。今後LRM化するのだろうと思うと非常に期待が持てる。NCではあるがCohereのCommand Aの発表(Introducing Command A: Max performance, minimal compute)もあった。

Ai2からはOLMo 2の32B版が発表されている(OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini | Ai2)。こちらはモデル構築過程や使用したデータセットを含め多くを公開している点が特徴でモデルのみを公開しているモデルよりもオープンである。

OpenAIからはエージェント開発に有用なAPIやツールが公開されている(エージェント開発のための新たなツール | OpenAI)ように、活用・運用には周辺ツールもとても重要になるが、ローカルLLMへの期待は高まっているように感じる。

BaiduからはERNIE 4.5とLRMのX1が発表される(XユーザーのBaidu Inc.さん: 「We’ve just unveiled ERNIE 4.5 & X1! 🚀 As a deep-thinking reasoning model with multimodal capabilities, ERNIE X1 delivers performance on par with DeepSeek R1 at only half the price. Meanwhile, ERNIE 4.5 is our latest foundation model and new-generation native multimodal model. https://t.co/cLKVHYvbzw」 / X)など商用APIでも激しい競争が続く。

A Survey on Post-training of Large Language Models 

  • A Survey on Post-training of Large Language Models [185.5]
    大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。 これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。 本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
    論文  参考訳(メタデータ)   (Sat, 08 Mar 2025 05:41:42 GMT)
  • Fugu-MT 論文翻訳(概要): LLM Post-Training: A Deep Dive into Reasoning Large Language Modelsとは別チームによるPost Traningのサーベイ
  • 「This paper offers the first exhaustive survey of Post-training Language Models (PoLMs), systematically tracing their trajectory from ChatGPT’s alignment origins in 2018 to DeepSeek-R1’s reasoning milestone in 2025, and affirming their transformative influence on reasoning precision, domain adaptability, and ethical integrity.」とある通り、最新の情報を含むサーベイで57ページととても包括的。

AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

  • AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems [88.3]
    AgiBot Worldは、217のタスクにまたがる100万以上のトラジェクトリを5つのデプロイメントシナリオで構成した大規模なプラットフォームである。 AgiBot Worldは高品質で多様なデータ配信を保証する。 GO-1は、現実世界のデクスタラスタスクや長距離タスクにおいて例外的な能力を示す。
    論文  参考訳(メタデータ)   (Sun, 09 Mar 2025 15:40:29 GMT)
  • 「1) We construct AgiBot World dataset, a multifarious robot learning dataset accompanied by opensource tools to advance research on policy learning at scale.」という大規模データセット構築と「2) We propose GO1, a robot foundation policy using latent action representations to unlock web-scale pre-training on heterogeneous data.」の提案。 Shanghai AI Lab,、AgiBot Inc. 、Shanghai Innovation Instituteによる成果。この領域もLLM的な進化となるのだろうか…。
  • リポジトリはGitHub – OpenDriveLab/AgiBot-World: The Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems、プロジェクトサイトはAgiBot World Colosseo | OpenDriveLab

LLM Post-Training: A Deep Dive into Reasoning Large Language Models

  • LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.1]
    大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。 ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
    論文  参考訳(メタデータ)   (Fri, 28 Feb 2025 18:59:54 GMT)
  • LRMでも注目されるPost training関連のサーベイ、Fine-tuning, Reinforcement Learning, Test-time Scalingが大きなキーワード。
  • リポジトリはGitHub – mbzuai-oryx/Awesome-LLM-Post-training: Awesome Reasoning LLM Tutorial/Survey/Guide

Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs 

  • Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.7]
    2つの異なる大きさのMoE大言語モデル(LLM)を提示する。 Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。 本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
    論文  参考訳(メタデータ)   (Fri, 07 Mar 2025 04:43:39 GMT)
  • Ling Team, AI@Ant GroupによるLLM。コストパフォーマンスに優れるトレーニング方針が特徴的で異なる構成のクラスタが複数ある状況を想定したレシピになっている。大規模構成のLing Plusを含めモデルが公開されている。
  • リポジトリはinclusionAI (inclusionAI)