コンテンツへスキップ
- SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [90.0]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。 既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。 本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文 参考訳(メタデータ) (Thu, 22 May 2025 16:05:02 GMT)
- 「Our approach synthesizes high-quality training data by simulating realistic user interactions in live web search environments, coupled with a multi-criteria curation strategy that optimizes the diversity and quality of input and output side.」、小規模なデータでも改善幅が大きいとのこと。
- プロジェクトサイトはGitHub – RUCAIBox/SimpleDeepSearcher: SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis
- XRAG: Cross-lingual Retrieval-Augmented Generation [21.5]
XRAGは,LLMの生成能力を評価するために設計されている。 XRAGは最近のニュース記事から構築されており、質問に答えるために外部の知識が必要であることを保証している。
論文 参考訳(メタデータ) (Thu, 15 May 2025 08:47:55 GMT)
- クロスリンガル設定のRAGベンチマーク。LLMが内部知識からは答えられないように構築されている。
- 「(3) We find that in the monolingual retrieval setting, all evaluated LLMs face issues with Response Language Correctness an issue that has received little attention from the research community. (4) In the multilingual retrieval setting, the primary challenge for LLMs does not lie in non- English generation, but in reasoning over retrieved information across languages.」と意外に難しく、興味深い結果になっている。
- データを見てみたいところ。
- HiPerRAG: High-Performance Retrieval Augmented Generation for Scientific Insights [72.8]
HiPerRAGは360万以上の科学論文から知識をインデクシングし取り出すワークフローである。 コアとなるのはマルチモーダル文書解析のための高スループットモデルであるOreoと、クエリ対応エンコーダの微調整アルゴリズムであるColTrastだ。 HiPerRAGは、既存の科学的質問応答ベンチマークと、この研究で導入された2つの新しいベンチマークで堅牢なパフォーマンスを提供する。
論文 参考訳(メタデータ) (Wed, 07 May 2025 22:50:23 GMT)
- 「Despite the widespread adoption of RAG, it faces three significant technical challenges that hinder its ability to scale to millions of documents.」はまさにその通りで、大規模RAGの構築にとって参考になる論文。
- かなり凝ったことも行っている。(分野によっては)実用上もこのようなアプローチが必要になるんだろうか…
- UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities [53.8]
UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。 本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。 複数のモダリティにまたがる8つのベンチマークでUniversalRAGを検証する。
論文 参考訳(メタデータ) (Tue, 29 Apr 2025 13:18:58 GMT)
- マルチモーダルなRAGに対応するため「UniversalRAG dynamically determines the most suitable knowledge source to retrieve from, based on the modality requirement of the given query, then routes the retrieval process to the corresponding modality-specific corpus.」というアプローチ。ルーターは「Training-free Router(実験ではGPT-4o)」と「Trained Router (実験ではDistilBERT 、T5-Large)」が試されていて平均的にはTrained Routerが優勢に見える。
- プロジェクトサイトはUniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities
- Self-Routing RAG: Binding Selective Retrieval with Knowledge Verbalization [97.7]
本稿では,選択的検索と知識の言語化を結合する新しいフレームワークであるSelf-Routing RAG(SR-RAG)を提案する。 SR-RAGは、LLMが外部検索と独自のパラメトリック知識の言語化を動的に決定できるようにする。 近接探索による動的知識源推定を導入し,知識源決定の精度を向上させる。
論文 参考訳(メタデータ) (Tue, 01 Apr 2025 17:59:30 GMT)
- 「SR-RAG enables an LLM to dynamically decide between external retrieval and verbalizing its own parametric knowledge.」のため「SR-RAG proposes a two-stage multi-task learning framework that jointly optimizes knowledge source selection, knowledge verbalization, and response generation.」という学習フレームワークを提案。効率的な対応が可能に。
- リポジトリはGitHub – xiaowu0162/self-routing-rag
- More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG [15.9]
マルチホップQAタスクから派生したカスタムデータセットの様々な言語モデルを評価する。 我々は文書数を変えながら関連情報のコンテキスト長と位置を一定に保ち、RAG設定における文書数の増加がLCMにとって大きな課題となることを発見した。
論文 参考訳(メタデータ) (Thu, 06 Mar 2025 12:38:17 GMT)
- ドキュメント数とRAG性能の関係の検証。「We keep the context length and position of relevant information constant while varying the number of documents, and find that increasing the document count in RAG settings poses significant challenges for LLMs.」と文書数の増加は悪影響を与えるとのこと。「The effects of adding non-related documents When adding irrelevant documents, LLMs’ performance improves.」はFugu-MT 論文翻訳(概要): The Power of Noise: Redefining Retrieval for RAG Systemsと同じような話なのだろうか。
- リポジトリはGitHub – shaharl6000/MoreDocsSameLen