

  • xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token [108.7]
    xRAGは、検索拡張生成に適した、革新的なコンテキスト圧縮手法である。 xRAGは、言語モデル表現空間に文書の埋め込みをシームレスに統合する。 実験の結果、xRAGは6つの知識集約タスクで平均10%以上の改善を達成していることがわかった。
  • プロンプトに検索結果を投入する一般的なRAGではなくProjectorとドキュメントを表すトークンを介す方式の新たなRAG手法の提案。モダリティの拡張に近いイメージのよう。
  • リポジトリはGitHub – Hannibal046/xRAG: Source code for xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token
  • FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research [32.8]
    FlashRAGは、研究者が既存のRAGメソッドを再現し、統一されたフレームワーク内で独自のRAGアルゴリズムを開発するのを支援するために設計された、効率的でモジュール化されたオープンソースツールキットである。 私たちのツールキットには、カスタマイズ可能なモジュラーフレームワーク、実装済みRAGワークの豊富なコレクション、包括的なデータセット、効率的な補助的な前処理スクリプト、広範囲で標準的な評価指標など、さまざまな機能があります。
  • RAGに関連する様々な手法が使えるツールキット。ベンチマークデータも整理されているのが素晴らしい
  • リポジトリはGitHub – RUC-NLPIR/FlashRAG: ⚡FlashRAG: A Python Toolkit for Efficient RAG Research
  • HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models [24.5]
    我々は,ヒトの長期記憶の海馬索引付け理論に触発された新しい検索フレームワークであるHippoRAGを紹介する。 その結果,本手法は最先端の手法を最大20%向上させることができた。 提案手法は,既存の手法に及ばない新たなシナリオに対処することができる。
  • 海馬を模したRAGとのこと。動作は「Our novel design first models the neocortex’s ability to process perceptual input by using an LLM to transform a corpus into a schemaless knowledge graph (KG) as our artificial hippocampal index.Given a new query, HippoRAG identifies the key concepts in the query and runs the Personalized PageRank (PPR) algorithm [23] on the KG, using the query concepts as the seeds, to integrate information across passages for retrieval. PPR enables HippoRAG to explore KG paths and identify relevant subgraphs, essentially performing multi-hop reasoning in a single retrieval step.」ということでKnowledge Graphをうまく使うアプローチ。
  • リポジトリはGitHub – OSU-NLP-Group/HippoRAG: HippoRAG is a novel RAG framework inspired by human long-term memory that enables LLMs to continuously integrate knowledge across external documents.

RAFT: Retrieval Augmented Fine Tuning

  • RAFT: Adapting Language Model to Domain Specific RAG [75.6]
    本稿では、ドメイン内の「オープンブック」設定において、モデルが質問に答える能力を改善するためのトレーニングレシピであるRetrieval Augmented FineTuning(RAFT)を紹介する。 RAFTは、質問に答える助けとなる関連文書から、動詞の正しいシーケンスを引用することで、これを達成します。 RAFTは、PubMed、HotpotQA、Gorillaデータセット全体のモデルのパフォーマンスを一貫して改善する。
  • RAGのためのfine tuning手法の提案、「RAFT is a training strategy designed to enhance the model’s performance in answering questions within a specific domain, in “open-book” settings.」
  • リポジトリはGitHub – ShishirPatil/gorilla: Gorilla: An API store for LLMs

Benchmarking Retrieval-Augmented Generation for Medicine / Medical Information Retrieval-Augmented Generation Evaluation (MIRAGE)

  • Benchmarking Retrieval-Augmented Generation for Medicine [30.4]
    大規模言語モデル(LLM)は、幅広い医療質問応答(QA)タスクにおいて最先端のパフォーマンスを達成した。 Retrieval-augmented Generation(RAG)は有望なソリューションであり、広く採用されている。 我々は、5つの医療QAデータセットから7,663の質問を含む第一種ベンチマークであるMIRAGE(Medicical Information Retrieval-Augmented Generation Evaluation)を提案する。
  • ベンチマークを作成し医療分野でのRAGの有効性について検証、CoTとの比較や使用しているLLMごとの差異などとても興味深い結果になっている。BM25ってやはりかなり優秀なのでは。
  • リポジトリはMIRAGE:Teddy-XiongGZ/MIRAGE: Official repository of the MIRAGE benchmark (github.com)、MEDRAG:Teddy-XiongGZ/MedRAG: Code for the MedRAG toolkit (github.com)

HyKGE: Hypothesis Knowledge Graph Enhanced

  • Think and Retrieval: A Hypothesis Knowledge Graph Enhanced Medical Large Language Models [21.2]
    我々は、検索補助生成(RAG)とファインチューニング(FT)の2つの戦略に焦点を当てる。 本稿では,医療用LLMの強化に知識グラフを活用した仮説知識グラフ拡張(HyKGE)フレームワークを提案する。
  • LLM + Knowledge GraphなRAGの提案。

NoMIRACL: Knowing When You Don’t Know for Robust Multilingual Retrieval-Augmented Generation

  • NoMIRACL: Knowing When You Don’t Know for Robust Multilingual Retrieval-Augmented Generation [92.5]
    Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。 評価の結果,GPT-4はフランス語や英語などの高リソース言語で頻繁に幻覚を呈することがわかった。
  • RAGにおける頑健性のマルチリンガルなベンチマーク。 hallucination rateとerror rateがメトリクス。GPT-4のbase lineがあるが「GPT-4 achieves a high 33.2% hallucination rate on the non-relevant subset and 14.9% error rate on the relevant NoMIRACL split, highlighting that GPT-4 finds it challenging to dismiss non-relevant passages over relevant passages in first-stage retrieved information.」と十分とは言えなさそうな結果。日本語はhallucination rateが高くerror rateが低い結果となっている。
  • リポジトリはproject-miracl/nomiracl: A multilingual dataset to evaluate LLM robustness in RAG setup against first-stage retrieval errors on 18 languages. (github.com)

Retrieval-Augmented Generation for Large Language Models: A Survey 

  • Retrieval-Augmented Generation for Large Language Models: A Survey [12.6]
    Retrieval-Augmented Generation (RAG)は、大きな言語モデルで質問に答える前に、外部知識ベースから関連する情報を検索することを指す。 情報源を引用することで、ユーザーは回答の正確さを確認し、モデルの出力に対する信頼を高めることができる。 本稿では,大規模言語モデルの時代におけるRAGの開発パラダイムについて概説する。
  • 応用例が増加しているRAGのサーベイ
  • リポジトリはTongji-KGLLM/RAG-Survey (github.com)、論文へのリンク集も有用

Context Tuning for Retrieval Augmented Generation 

  • Context Tuning for Retrieval Augmented Generation [1.2]
    本稿では、スマートコンテキスト検索システムを用いて関連する情報を取得するRAGのためのコンテキストチューニングを提案する。 実験の結果,文脈調整が意味探索を著しく促進することが示された。 また,Reciprocal Rank Fusion (RRF) とLambdaMARTを用いた軽量モデルでは,GPT-4に基づく検索よりも優れていることを示す。
  • LLMの実利用において重要なRAGの検証と、LambdaMART with Reciprocal Rank Fusionが有効だったという報告
  • データ構築部分に「This methodology provided a comprehensive and realistic dataset, essential for the evaluation of our context tuning approach in RAG-based planning systems.」とあるが、この設定がrealisticかは見解が分かれそうに思う…(結果は興味深いけど)

RGB:  Retrieval-Augmented Generation Benchmark

  • Benchmarking Large Language Models in Retrieval-Augmented Generation [53.5]
    大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。 我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。 RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
  • LLM活用に欠かせないRAG能力をnoise robustness, negative rejection, information integration, counterfactual robustnessと整理、ベンチマークを構築。英語と中国語が対象。
  • リポジトリはGitHub – chen700564/RGB

MuRAG: マルチモーダルなRAG

  • MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text [58.7]
    我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。 以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
    • マルチモーダルなRAG、モダリティを追加することで性能も相応に向上している。