SiReRAG: Indexing Similar and Related Information for Multihop Reasoning

  • SiReRAG: Indexing Similar and Related Information for Multihop Reasoning [96.6]
    SiReRAGは、類似情報と関連する情報の両方を明示的に考慮する新しいRAGインデックス方式である。 SiReRAGは、3つのマルチホップデータセットの最先端インデックス手法を一貫して上回る。
    論文  参考訳(メタデータ)   (Mon, 09 Dec 2024 04:56:43 GMT)
  • 類似性によるツリーに加えて関連性(we construct the relatedness tree by clustering the propositions based on their entities to get proposition aggregates and having recursive summaries on top.)のツリーを併用するRAG
  • マルチホップなQAにて高性能とのこと

Retrieval Augmented Recipe Generation

  • Retrieval Augmented Recipe Generation [96.4]
    本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。 既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。 生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
    論文  参考訳(メタデータ)   (Wed, 13 Nov 2024 15:58:50 GMT)
  • レシピ生成でもRAG、RetrieverとしてStochastic Diversified Retrieval Augmentation (SDRA)、最終ステージで Self consistency Ensemble Votingを採用。ingredients と instructionを検索したうえでレシピ化、複数作成したうえで投票により最終レシピを決定と、レシピの特性に沿った凝ったパイプライン構成に見える。

HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems

  • HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems [62.4]
    Retrieval-Augmented Generation (RAG) は知識能力の向上を目的としている。 HTML RAGは、検索された知識のフォーマットとして、平易なテキストの代わりにHTMLを使用する。 我々は,情報の損失を最小限に抑えつつ,HTMLの短縮化を図るため,HTMLのクリーニング,圧縮,プルーニング戦略を提案する。
    論文  参考訳(メタデータ)   (Tue, 05 Nov 2024 09:58:36 GMT)
  • RAGで使用する知識のフォーマットとしてHTMLを使用するという提案、ベンチマークでも優れた結果とのこと。ベースLLM(Llama 3.1 8B・70B)×提案手法・PlainText・Markdownの結果が興味深い。(HTMLがベストなのか読み取るのが難しいような気がしなくもない)
  • リポジトリはGitHub – plageon/HtmlRAG: HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieval Results in RAG Systems

StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization

  • StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization [94.3]
    Retrieval-augmented Generation(RAG)は、大規模言語モデル(LLM)を効果的に強化する鍵となる手段である。 本稿では,手前のタスクに対して最適な構造型を識別し,元の文書をこの構造化形式に再構成し,その結果に基づいて回答を推測するStructRAGを提案する。 実験の結果、StructRAGは最先端のパフォーマンスを実現し、特に挑戦的なシナリオに優れていた。
    論文  参考訳(メタデータ)   (Fri, 25 Oct 2024 12:18:37 GMT)
  • タスクに応じた構造化を行うことによりRAGの性能を改善、GraphRAGと比べても優れた性能で計算コストも低い。
  • リポジトリはGitHub – Li-Z-Q/StructRAG: StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization

MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models

  • MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.2]
    MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。 MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。 その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
    論文  参考訳(メタデータ)   (Thu, 10 Oct 2024 17:55:02 GMT)
  • マルチモーダルなRAGのベンチマーク、様々なモデルのスコア一覧表もとても参考になる。
  • リポジトリはMRAG-Bench (mragbench.github.io)

MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models 

  • MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.8]
    近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。 Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。 我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
    論文  参考訳(メタデータ)   (Wed, 16 Oct 2024 23:03:27 GMT)
  • 医療ドメイン、かつ、マルチモーダルなRAGシステムの提案。ドメインを判別してRetireverを使い分けるなど凝った構成。「These enhancements significantly boost the factual accuracy of Med-LVLMs.」とのことで、この手の工夫は重要。
  • リポジトリはGitHub – richard-peng-xia/MMed-RAG: [arXiv’24 & NeurIPSW’24] MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models

Trustworthiness in Retrieval-Augmented Generation Systems: A Survey 

  • Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.3]
    Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。 本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
    論文  参考訳(メタデータ)   (Mon, 16 Sep 2024 09:06:44 GMT)
  • 信頼できるAIに関するサーベイはよくあるがRAGを対象としたものは珍しいように思う。
  • リポジトリはGitHub – smallporridge/TrustworthyRAG

P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task

  • P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task [94.1]
    Embodied Everyday Taskは、インボディードAIコミュニティで人気のあるタスクである。 自然言語命令は明示的なタスクプランニングを欠くことが多い。 タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。
    論文  参考訳(メタデータ)   (Tue, 17 Sep 2024 15:29:34 GMT)
  • 自然言語の指示と環境情報が与えられた時のエージェント動作(計画など)にRAGを使うアプローチの提案。RAGのデータベースを動的に更新していくものでLLM based Agentsそのものの印象。
  • 感覚的にRetrieveに難しさがありそうだが、「When an agent interacts with the environment during a task, it first receives the environment’s goal instruction 𝐼𝑔 and observation 𝑂𝑡. Then it encodes with MiniLM [31] both of them」とあるがこの方針でうまくいくのかという驚き。

Unleashing Worms and Extracting Data: Escalating the Outcome of Attacks against RAG-based Inference in Scale and Severity Using Jailbreaking

  • Unleashing Worms and Extracting Data: Escalating the Outcome of Attacks against RAG-based Inference in Scale and Severity Using Jailbreaking [6.9]
    我々は、GenAIモデルをジェイルブレイクする能力により、攻撃者はRAGベースのアプリケーションに対する攻撃の結果をエスカレートできることを示した。 論文の前半では、攻撃者がRAG文書抽出攻撃に対してRAGメンバシップ推論攻撃をエスカレートできることが示されている。 論文の第2部では、攻撃者がRAGデータ中毒攻撃の規模を拡大し、単一のアプリケーションに妥協することで、GenAIエコシステム全体を妥協できることを示す。
    論文  参考訳(メタデータ)   (Thu, 12 Sep 2024 13:50:22 GMT)
  • RAGに対する攻撃、RAG membership inference attacks、RAG entity extraction attacksからRAG documents extraction attacksへ。
  • 「Adversarial Self-Replicating Prompts」の考え方が面白い。
  • リポジトリはGitHub – StavC/UnleashingWorms-ExtractingData: Unleashing Worms and Extracting Data: Escalating the Outcome of Attacks against RAG-based Inference in Scale and Severity Using Jailbreaking

Data Gemma

Googleから発表されたDataGemmaも興味深い取り組み(DataGemma: AI open models connecting LLMs to Google’s Data Commons (blog.google)Grounding AI in reality with a little help from Data Commons (research.google))である。

Home – Data Commonsを利用してハルシネーションを抑えようというものでRIG (Retrieval-Interleaved Generation) とRAG (Retrieval-Augmented Generation) のユースケースを想定。モデルはgoogle/datagemma-rig-27b-it · Hugging Facegoogle/datagemma-rag-27b-it · Hugging Faceに公開れている。

上記モデルはRIGであれば「The DataGemma model (based on the 27 billion parameter Gemma 2 model and fully fine-tuned for this RIG task) generates a response, which includes a natural language query for Data Commons’ existing natural language interface, specifically designed to retrieve relevant data. For example, instead of stating “The population of California is 39 million”, the model would produce “The population of California is [DC(What is the population of California?) → “39 million”]”, allowing for external verification and increased accuracy.」、RAGであれば「The DataGemma model (based on the Gemma 2 (27B) model and fully fine-tuned for this RAG task) analyzes the user’s query and generates a corresponding query (or queries) in natural language that can be understood by Data Commons’ existing natural language interface.」とのことでData Commonsの既存インタフェースをうまく活用できるようになっている。

この手のfine tuningは重要になりつつあるように思う。