MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models

  • MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.2]
    MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。 MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。 その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
    論文  参考訳(メタデータ)   (Thu, 10 Oct 2024 17:55:02 GMT)
  • マルチモーダルなRAGのベンチマーク、様々なモデルのスコア一覧表もとても参考になる。
  • リポジトリはMRAG-Bench (mragbench.github.io)

MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models 

  • MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.8]
    近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。 Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。 我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
    論文  参考訳(メタデータ)   (Wed, 16 Oct 2024 23:03:27 GMT)
  • 医療ドメイン、かつ、マルチモーダルなRAGシステムの提案。ドメインを判別してRetireverを使い分けるなど凝った構成。「These enhancements significantly boost the factual accuracy of Med-LVLMs.」とのことで、この手の工夫は重要。
  • リポジトリはGitHub – richard-peng-xia/MMed-RAG: [arXiv’24 & NeurIPSW’24] MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models

Trustworthiness in Retrieval-Augmented Generation Systems: A Survey 

  • Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.3]
    Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。 本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
    論文  参考訳(メタデータ)   (Mon, 16 Sep 2024 09:06:44 GMT)
  • 信頼できるAIに関するサーベイはよくあるがRAGを対象としたものは珍しいように思う。
  • リポジトリはGitHub – smallporridge/TrustworthyRAG

P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task

  • P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task [94.1]
    Embodied Everyday Taskは、インボディードAIコミュニティで人気のあるタスクである。 自然言語命令は明示的なタスクプランニングを欠くことが多い。 タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。
    論文  参考訳(メタデータ)   (Tue, 17 Sep 2024 15:29:34 GMT)
  • 自然言語の指示と環境情報が与えられた時のエージェント動作(計画など)にRAGを使うアプローチの提案。RAGのデータベースを動的に更新していくものでLLM based Agentsそのものの印象。
  • 感覚的にRetrieveに難しさがありそうだが、「When an agent interacts with the environment during a task, it first receives the environment’s goal instruction 𝐼𝑔 and observation 𝑂𝑡. Then it encodes with MiniLM [31] both of them」とあるがこの方針でうまくいくのかという驚き。

Unleashing Worms and Extracting Data: Escalating the Outcome of Attacks against RAG-based Inference in Scale and Severity Using Jailbreaking

  • Unleashing Worms and Extracting Data: Escalating the Outcome of Attacks against RAG-based Inference in Scale and Severity Using Jailbreaking [6.9]
    我々は、GenAIモデルをジェイルブレイクする能力により、攻撃者はRAGベースのアプリケーションに対する攻撃の結果をエスカレートできることを示した。 論文の前半では、攻撃者がRAG文書抽出攻撃に対してRAGメンバシップ推論攻撃をエスカレートできることが示されている。 論文の第2部では、攻撃者がRAGデータ中毒攻撃の規模を拡大し、単一のアプリケーションに妥協することで、GenAIエコシステム全体を妥協できることを示す。
    論文  参考訳(メタデータ)   (Thu, 12 Sep 2024 13:50:22 GMT)
  • RAGに対する攻撃、RAG membership inference attacks、RAG entity extraction attacksからRAG documents extraction attacksへ。
  • 「Adversarial Self-Replicating Prompts」の考え方が面白い。
  • リポジトリはGitHub – StavC/UnleashingWorms-ExtractingData: Unleashing Worms and Extracting Data: Escalating the Outcome of Attacks against RAG-based Inference in Scale and Severity Using Jailbreaking

Data Gemma

Googleから発表されたDataGemmaも興味深い取り組み(DataGemma: AI open models connecting LLMs to Google’s Data Commons (blog.google)Grounding AI in reality with a little help from Data Commons (research.google))である。

Home – Data Commonsを利用してハルシネーションを抑えようというものでRIG (Retrieval-Interleaved Generation) とRAG (Retrieval-Augmented Generation) のユースケースを想定。モデルはgoogle/datagemma-rig-27b-it · Hugging Facegoogle/datagemma-rag-27b-it · Hugging Faceに公開れている。

上記モデルはRIGであれば「The DataGemma model (based on the 27 billion parameter Gemma 2 model and fully fine-tuned for this RIG task) generates a response, which includes a natural language query for Data Commons’ existing natural language interface, specifically designed to retrieve relevant data. For example, instead of stating “The population of California is 39 million”, the model would produce “The population of California is [DC(What is the population of California?) → “39 million”]”, allowing for external verification and increased accuracy.」、RAGであれば「The DataGemma model (based on the Gemma 2 (27B) model and fully fine-tuned for this RAG task) analyzes the user’s query and generates a corresponding query (or queries) in natural language that can be understood by Data Commons’ existing natural language interface.」とのことでData Commonsの既存インタフェースをうまく活用できるようになっている。

この手のfine tuningは重要になりつつあるように思う。

RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation

  • RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation [54.7]
    大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。 現在の研究は、LLMに外部知識を組み込むことによって、このボトルネックに対処している。 RAGLABはモジュール的で研究指向のオープンソースライブラリで、6つの既存のアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。
    論文  参考訳(メタデータ)   (Wed, 21 Aug 2024 07:20:48 GMT)
  • RAGに関するモジュール型フレームワーク、「open-source tools such as LlamaIndex and LangChain employ high-level abstractions, which results in a lack of transparency and limits the ability to develop novel algorithms and evaluation metrics.」とあるが、実利用でも抽象化しすぎて使いにくいことは多い印象…
  • リポジトリはGitHub – fate-ubw/RAGLAB: RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation

EfficientRAG: Efficient Retriever for Multi-Hop Question Answering 

  • EfficientRAG: Efficient Retriever for Multi-Hop Question Answering [52.6]
    マルチホップ質問応答のための効率的な検索器であるEfficientRAGを紹介する。 実験の結果、EfficientRAGは3つのオープンドメインのマルチホップ質問応答データセット上で既存のRAG手法を超越していることがわかった。
    論文  参考訳(メタデータ)   (Thu, 08 Aug 2024 06:57:49 GMT)
  • LLM callを抑えるためLabeler & Tagger、FIlterのモデルを使うタイプのRAG、合成データをうまく使ってトレーニングするアプローチ

RAG Foundry

  • RAG Foundry: A Framework for Enhancing LLMs for Retrieval Augmented Generation [8.4]
    我々は、RAGのユースケースのための大規模言語モデルを拡張するためのオープンソースのフレームワークであるRAG Foundryを紹介します。 RAG Foundryはデータ生成、トレーニング、推論、評価を単一のワークフローに統合する。 多様なRAG構成を持つLlama-3およびPhi-3モデルを拡張し,微調整することで,フレームワークの有効性を示す。
    論文  参考訳(メタデータ)   (Mon, 05 Aug 2024 15:16:24 GMT)
  • 「an open-source library dedicated to the task of RAG-augmentation of LLMs, namely fine-tuning LLMs to become better at RAG settings.」のためのフレームワーク。
  • リポジトリはGitHub – IntelLabs/RAGFoundry: Framework for specializing LLMs for retrieval-augmented-generation tasks using fine-tuning.

RAGEval

  • RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.5]
    既存のRAGベンチマークは主に、大言語モデルが一般的な知識に正しく答えられるかどうかを評価することに焦点を当てている。 本稿では,評価データセットを自動生成するフレームワークであるRAGEvalを紹介する。 LLMが生み出す応答を慎重に評価するために, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
    論文  参考訳(メタデータ)   (Fri, 02 Aug 2024 13:35:11 GMT)
  • RAGを評価するベンチマークの自動生成フレームワーク。DRAGONBall dataset(Diverse RAG Omni-Benchmark for All domains)って・・・。
  • 分析結果から見えるGenerate、Retrieverそれぞれのモデルの性能が興味深い。結論には「Notably, while GPT-4o showed superior performance overall, the gap with top-performing open-source models was relatively small.」という指摘も。