Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

  • Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [45.7]
    本稿では,大規模言語モデル(LLM)のためのDeepSeek-R1モデルの拡張であるSearch-R1を紹介する。 Search-R1は、リアルタイム検索によるステップバイステップ推論中に(複数の)検索クエリを自律的に生成する。 実験の結果、サーチ-R1は26%(Qwen2.5-7B)、21%(Qwen2.5-3B)、10%(LLaMA3.2-3B)のSOTAベースラインの性能向上を示した。
    論文  参考訳(メタデータ)   (Wed, 12 Mar 2025 16:26:39 GMT)
  • 検索クエリを発行しながら推論を進めるフレームワークの提案「SEARCH-R1, a novel reinforcement learning framework that enables large language models (LLMs) to interleave self-reasoning with real-time search engine interactions.」。
  • リポジトリはGitHub – PeterGriffinJin/Search-R1: Search-R1: An Efficient, Scalable RL Training Framework for Reasoning & Search Engine Calling interleaved LLM based on veRL

Generative Retrieval for Book search

  • Generative Retrieval for Book search [106.7]
    書籍検索のための効率的な生成検索フレームワークを提案する。 データ拡張とアウトライン指向の書籍エンコーディングの2つの主要コンポーネントがある。 プロプライエタリなBaiduデータセットの実験では、GBSが強力なベースラインを上回ることが示されている。
    論文  参考訳(メタデータ)   (Sun, 19 Jan 2025 12:57:13 GMT)
  • 「We have introduced and evaluated GBS, a generative retrieval framework designed specifically for book search.」とある通り、業務に特化された検索フレームワークで問題の分割方針と取り扱いの方針が勉強になる。
  • この論文の図1は「Books mainly consist of three types of information: (1) metadata, which includes details like the title, author, and publisher; (2) the main text, which constitutes the core content of the book; and (3) the outline, which shows the hierarchical structure and relationships between the chapters and sections.」であるが、対象をどう見るかというのはLLM全盛の今においても、非常に重要。

ChatGPT search, Gemini Grounding with Google Search, GPT-4o System Card, Baichuan Alignment Technical Report

LLM+WEB検索は非常に有効。その競争も激しい。先週のニュースとしてはIntroducing ChatGPT search | OpenAIGrounding with Google Search  |  Gemini API  |  Google AI for DevelopersGround responses for Gemini models  |  Generative AI on Vertex AI  |  Google Cloudに注目。

前者はCHatGPTとWEB検索の融合で、今までも出たり消えたり、Pluginで使えたりしていた機能の公式メジャーアップデートとの認識。有用な機能であることは間違いなく、著作権との関係を解決しながら進んでいくものだと思う。

後者はWEB検索を通じてFact Chechkingを行う仕組みの提供。研究・OSSとも様々なものがあるが、有効なことが知られている。使いやすい仕組みが整備されるのはありがたい。

その他、GPT-4oのシステムカードやBaichuanのテクニカルレポートがarXivに投稿されていた。これらの情報も興味深い。

  • GPT-4o System Card [211.9]
    GPT-4oは自動回帰オムニモデルであり、テキスト、オーディオ、画像、ビデオの組み合わせを入力として受け入れる。 テキスト、ビジョン、オーディオでエンドツーエンドにトレーニングされており、すべての入力と出力は同じニューラルネットワークで処理される。 GPT-4は、英語とコードのテキスト上でのTurboのパフォーマンスと一致し、非英語のテキストでは大幅に改善された。
    論文  参考訳(メタデータ)   (Fri, 25 Oct 2024 17:43:01 GMT)
  • Baichuan Alignment Technical Report [42.0]
    ベイチュアン・アライメント(Baichuan Alignment)は、ベイチュアン級数のモデルで用いられるアライメント手法の詳細な解析である。 プロセスは、Prompt Augmentation System (PAS)、Supervised Fine-Tuning (SFT)、Preference Alignmentの3つの主要なステージにまたがる。 Baichuan-Instructはコア機能を大幅に改善し、ユーザエクスペリエンスは17%から28%に向上した。
    論文  参考訳(メタデータ)   (Sat, 19 Oct 2024 02:07:33 GMT)
  • A Survey on Automatic Credibility Assessment of Textual Credibility Signals in the Era of Large Language Models [6.5]
    信頼性評価は基本的に、信頼性信号の集約に基づくものである。 信頼性信号はより粒度が高く、説明が容易で、広く活用可能な情報を提供する。 信頼性の自動評価と信頼性信号の検出に関する研究の活発化は、高度に断片化され相互相互接続が欠如しているとして特徴付けられる。
    論文  参考訳(メタデータ)   (Mon, 28 Oct 2024 17:51:08 GMT)
  • 信頼性評価に関するサーベイ。最初のニュースにかかわるような話も多く、研究はとても盛ん。

SearChain: Search-in-the-Chain

  • Search-in-the-Chain: Towards Accurate, Credible and Traceable Large Language Models for Knowledge-intensive Tasks [108.2]
    本稿では,マルチホップ質問応答のためのLLM生成コンテンツの正確性,信頼性,トレーサビリティを向上させるために,検索・イン・ザ・チェイン(SearChain)と呼ばれる新しいフレームワークを提案する。 SearChainは大規模言語モデル(LLM)と情報検索(IR)を深く統合したフレームワークである
    論文  参考訳(メタデータ)   (Fri, 5 May 2023 02:35:48 GMT)
  • LLM + information retrievalでマルチホップな問題を解くフレームワークの提案、複数のベンチマークで優れた性能
  •  プロンプト自体・使い方・複数回の問い合わせを工夫していくのはまだまだ続きそうで、LLMの鉱脈は深そう

Retrieval-Augmented CM3 (RA-CM3) 

  • Retrieval-Augmented Multimodal Language Modeling [176.9]
    Retrieval-augmented CM3は、テキストと画像の混合を検索して生成できる最初のマルチモーダルモデルである。 RA-CM3は、知識集約型画像生成やマルチモーダルインコンテキスト学習のような新しい能力を示す。
    論文  参考訳(メタデータ)   (Tue, 22 Nov 2022 20:26:44 GMT)
    • 外部メモリを参照しながら生成等を行えるモデルの提案
    • ベースラインを上回り、パラメータ数、必要な計算リソースの面でも優秀とのこと

論文探索システム

  • Augmenting Scientific Creativity with Retrieval across Knowledge Domains [31.7]
    論文要約から,エンドユーザが関心のあるテキストコアの一部を選択できる探索検索システムを開発した。 研究者らによるケーススタディは、クロスドメイン探索とインスピレーションを促進することを目的としたシステムにおける機会と設計の意味を明らかにする。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Jun 2022 22:55:51 GMT)

SBIR(Sketch based image retrieval):フリーハンドスケッチを利用した検索

  • Compositional Sketch Search [91.8]
    フリーハンドスケッチを用いて画像コレクションを検索するアルゴリズムを提案する。 シーン構成全体を特定するための簡潔で直感的な表現として描画を利用する。
    論文  参考訳(メタデータ)   (Tue, 15 Jun 2021 09:38:09 GMT)
    • フリーハンドで書いたスケッチをもとに検索を行うシステムの報告。このような検索は便利。