コンテンツへスキップ
- Structured Knowledge Representation through Contextual Pages for Retrieval-Augmented Generation [53.8]
PAGERは、RAGのためのページ駆動の自律的知識表現フレームワークである。 関連文書を反復的に検索して洗練し、各スロットをポップアップさせ、最終的にコヒーレントなページを構成する。 実験の結果、PAGERはすべてのRAGベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (Wed, 14 Jan 2026 11:44:31 GMT)]a
- 「PAGER first prompts the LLM to draw on its parametric knowledge to con- struct a structured cognitive outline for the target question. This outline consists of multiple slots, each representing a distinct aspect of the potentially relevant knowledge needed to answer the question. Then PAGER employs an iterative knowledge completion mechanism to iteratively retrieve supporting documents for each slot, refine them into concise knowledge evidence, and fill the corresponding slot in the page. This iterative process continues until all slots are filled with the corresponding knowledge evidence. Finally, PAGER uses this structured page as contextual knowledge to guide the LLM to answer the given question」というフレームワークの提案。Deep Researchのような動き。
- リポジトリはGitHub – OpenBMB/PAGER
- EmoRAG: Evaluating RAG Robustness to Symbolic Perturbations [58.0]
Retrieval-Augmented Generation (RAG)システムは、ますます堅牢なAIの中心になっている。 今回の研究では、微妙な象徴的な摂動に対する感受性という、批判的で見落とされがちな脆弱性が明らかになりました。 一つのエモティコンをクエリに注入することで、意味的に無関係なテキストを100%検索できることを示す。
論文 参考訳(メタデータ) (Mon, 01 Dec 2025 06:53:49 GMT)
- 絵文字、顔文字のようなデータがRAGに大きな影響を与えるとの指摘。
- (I) Single- Emoticon Disaster: Even a single emoticon can catastrophically affect RAG systems, causing nearly 100% retrieval of semantically irrelevant content.
- (II) Widespread Effectiveness: Around 83% of tested emoticons can induce such nearly 100% retrieval failures as mentioned above.
- (III) Positional Sensitivity: Placing a single emoticon at the beginning of a query can cause severe perturbation, with F1-Scores exceeding 0.92 across all datasets.
- (IV) Parameter- Scale Vulnerability: Larger models are significantly more sensitive to emoticon-induced perturbations, with F1-Scores almost always reaching 1.00 under perturbation.
- (V) No Cross-Triggering: Specific emoticons only retrieve content containing the same emoticon, which may provide an attack vector for potential adversaries.
- リポジトリはGitHub – EmoRAG-code/EmoRAG
- ToM: Leveraging Tree-oriented MapReduce for Long-Context Reasoning in Large Language Models [107.9]
ToMは、長期コンテキスト推論のための新しいツリー指向MapReduceフレームワークである。 ToM は既存の分割・クエリー・フレームワークや検索拡張生成手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (Sat, 01 Nov 2025 10:43:58 GMT)
- 「Leveraging a tree- structured MapReduce approach, ToM performs recursive reasoning over documents to enhance long-context understanding. It consists of two key components: DocTree Construction: ToM first applies Hierarchical Semantic Parsing to convert each chunk into a structured subtree, then combines these subtrees into a hierarchical DocTree through Bottom-up Aggregation. 2). Recursive Reasoning via MapReduce: ToM performs recursive reasoning on the DocTree in a MapReduce fashion, enabling systematic aggregation of rationales across the hierarchy. 」とTree構造化&MapReduceを用いる長文処理の提案。一般的なRAGよりも性能が良いとのこと。
- リポジトリはGitHub – gjn12-31/ToM
- UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.8]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。 UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。 実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (Thu, 09 Oct 2025 05:30:23 GMT)
- マルチモーダルなRAGのためのベンチマーク。下記のように包括的で大規模(リポジトリの記載より引用)
- 70,000 real-world PDF pages across 8 diverse domains
- 1,600 multimodal QA pairs with 20% expert validation
- Four query types: factual retrieval, comparison, summarization, and logical reasoning
- Unified evaluation protocol with standardized candidate pools, prompts, and metrics
- リポジトリはGitHub – SalesforceAIResearch/UniDoc-Bench
- LLM-Specific Utility: A New Perspective for Retrieval-Augmented Generation [110.6]
Retrieval-augmented Generation (RAG)は、外部知識を取り入れた大規模言語モデル(LLM)を強化する。 既存の研究はしばしばユーティリティをジェネリック属性として扱い、異なるLLMが同じ通路から異なる利益をもたらすという事実を無視している。
論文 参考訳(メタデータ) (Mon, 13 Oct 2025 12:57:45 GMT)
- 「(1) We highlight the new perspective of utility for RAG, i.e., LLM-specific utility. (2) We introduce the LLM-specific utility judgment task, propose a benchmarking procedure, and provide a comprehensive empirical analysis of various LLMs and methods.(3) We identify the key direction in achieving more effective LLM-specific utility judgment: known queries should reject all passages, while unknown ones must identify useful ones, which need to be analyzed further.」とのこと。そうだよねという印象で、RAGの特性を整理するうえでも参考になる。
- リポジトリはAnonymized Repository – Anonymous GitHub
- A Survey on Retrieval And Structuring Augmented Generation with Large Language Models [29.7]
大規模言語モデル(LLM)は、テキスト生成と推論において顕著な能力を持つ自然言語処理に革命をもたらした。 しかし、これらのモデルは、時代遅れの知識や限られたドメインの専門知識を含む、現実世界のアプリケーションにデプロイする際の重要な課題に直面します。 Retrieval And Structuring (RAS) Augmented Generationは、動的情報検索と構造化知識表現を統合することで、これらの制限に対処する。
論文 参考訳(メタデータ) (Fri, 12 Sep 2025 21:25:25 GMT)
- 「This survey (1) examines retrieval mechanisms including sparse, dense, and hybrid approaches for accessing external knowledge; (2) explore text structuring techniques such as taxonomy construction, hierarchical classification, and information extraction that transform unstructured text into organized representations; and (3) investigate how these structured representations integrate with LLMs through prompt-based methods, reasoning frameworks, and knowledge embedding techniques.」とのこと。
- RAGの対比は「While RAG provides the foundation for connecting LLMs with external information, RAS extends this capability by incorporating knowledge structuring techniques that transform unstructured text into organized representations such as taxonomies, hierarchies, and knowledge graphs」としているが、RASという用語が流行るかは謎。。
- InfoGain-RAG: Boosting Retrieval-Augmented Generation via Document Information Gain-based Reranking and Filtering [17.3]
Retrieval-Augmented Generation (RAG) は,Large Language Models (LLMs) の重要な限界に対処する,有望なアプローチとして登場した。 本稿では,検索した文書のコントリビューションを定量化し,回答生成の精度を高めるために,文書情報ゲイン(Document Information Gain, DIG)を提案する。 本稿では,DIGスコアを利用した特殊リランカの学習フレームワークInfoGain-RAGを紹介する。
論文 参考訳(メタデータ) (Tue, 16 Sep 2025 07:28:07 GMT)
- 「We introduce a novel metric called Document Information Gain (DIG), to quantify each retrieved document’s impact on the LLM’s generation confidence.」というメトリックの提案。rerankerとしての有効性を確認。
- MMORE: Massive Multimodal Open RAG & Extraction [35.5]
MMOREは、大規模な異種文書フォーマットから知識を取り込み、変換し、取り出すパイプラインである。 MMOREはテキスト、テーブル、画像、メール、オーディオ、ビデオを含む15以上のファイルタイプをサポートし、それらを統一されたフォーマットに処理する。 処理ベンチマークでは、MMOREは1ノードのベースラインよりも3.8倍のスピードアップを示し、スキャンされたPDFのドッキングよりも40%高い精度を示している。
論文 参考訳(メタデータ) (Mon, 15 Sep 2025 13:56:06 GMT)
- 「MMORE is a scalable, open-source pipeline for retrieval- augmented generation over diverse, real-world data. It supports more than 15 file types, including PDFs, spread- sheets, images, audio, and video, and enables structured, high-throughput integration into LLM workflows.」と便利そうなソフトウェア。
- リポジトリはGitHub – swiss-ai/mmore: Massive Multimodal Open RAG & Extraction A scalable multimodal pipeline for processing, indexing, and querying multimodal documents Ever needed to take 8000 PDFs, 2000 videos, and 500 spreadsheets and feed them to an LLM as a knowledge base? Well, MMORE is here to help you!
- Beyond Chunks and Graphs: Retrieval-Augmented Generation through Triplet-Driven Thinking [31.7]
Retrieval-augmented Generation(RAG)は、幻覚を減らし、外部知識をLarge Language Models(LLM)に組み込むために重要である。 T$2$RAGは、原子三重項の単純でグラフのない知識ベースで動作する新しいフレームワークである。 実験結果から,T$2$RAGは最先端のマルチラウンド法とグラフRAG法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (Mon, 04 Aug 2025 13:50:44 GMT)
- 「We introduce a novel RAG framework that leverages triplets as the fundamental unit for indexing, retrieval, and reasoning, moving beyond the limitations of chunk-based and explicit graph-based approaches」とトリプレットベースのRAGアプローチの提案。グラフ構造を上回るのはやや意外だが、コンポーネントとしては「both the iterative process and the use of chunks are important. The iterative reasoning module proves to be a critical component.」ということでシンプルな構成であることも有利だったりするのだろうか。
- リポジトリはrockcor/T2RAG: Official code of paper “Beyond Chunks and Graphs: Retrieval-Augmented Generation through Triplet-Driven Thinking”