Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

  • Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [45.7]
    本稿では,大規模言語モデル(LLM)のためのDeepSeek-R1モデルの拡張であるSearch-R1を紹介する。 Search-R1は、リアルタイム検索によるステップバイステップ推論中に(複数の)検索クエリを自律的に生成する。 実験の結果、サーチ-R1は26%(Qwen2.5-7B)、21%(Qwen2.5-3B)、10%(LLaMA3.2-3B)のSOTAベースラインの性能向上を示した。
    論文  参考訳(メタデータ)   (Wed, 12 Mar 2025 16:26:39 GMT)
  • 検索クエリを発行しながら推論を進めるフレームワークの提案「SEARCH-R1, a novel reinforcement learning framework that enables large language models (LLMs) to interleave self-reasoning with real-time search engine interactions.」。
  • リポジトリはGitHub – PeterGriffinJin/Search-R1: Search-R1: An Efficient, Scalable RL Training Framework for Reasoning & Search Engine Calling interleaved LLM based on veRL

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です