NoMIRACL: Knowing When You Don’t Know for Robust Multilingual Retrieval-Augmented Generation

  • NoMIRACL: Knowing When You Don’t Know for Robust Multilingual Retrieval-Augmented Generation [92.5]
    Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。 評価の結果,GPT-4はフランス語や英語などの高リソース言語で頻繁に幻覚を呈することがわかった。
    論文  参考訳(メタデータ)   (Mon, 18 Dec 2023 17:18:04 GMT)
  • RAGにおける頑健性のマルチリンガルなベンチマーク。 hallucination rateとerror rateがメトリクス。GPT-4のbase lineがあるが「GPT-4 achieves a high 33.2% hallucination rate on the non-relevant subset and 14.9% error rate on the relevant NoMIRACL split, highlighting that GPT-4 finds it challenging to dismiss non-relevant passages over relevant passages in first-stage retrieved information.」と十分とは言えなさそうな結果。日本語はhallucination rateが高くerror rateが低い結果となっている。
  • リポジトリはproject-miracl/nomiracl: A multilingual dataset to evaluate LLM robustness in RAG setup against first-stage retrieval errors on 18 languages. (github.com)

Retrieval-Augmented Generation for Large Language Models: A Survey 

  • Retrieval-Augmented Generation for Large Language Models: A Survey [12.6]
    Retrieval-Augmented Generation (RAG)は、大きな言語モデルで質問に答える前に、外部知識ベースから関連する情報を検索することを指す。 情報源を引用することで、ユーザーは回答の正確さを確認し、モデルの出力に対する信頼を高めることができる。 本稿では,大規模言語モデルの時代におけるRAGの開発パラダイムについて概説する。
    論文  参考訳(メタデータ)   (Mon, 18 Dec 2023 07:47:33 GMT)
  • 応用例が増加しているRAGのサーベイ
  • リポジトリはTongji-KGLLM/RAG-Survey (github.com)、論文へのリンク集も有用

Context Tuning for Retrieval Augmented Generation 

  • Context Tuning for Retrieval Augmented Generation [1.2]
    本稿では、スマートコンテキスト検索システムを用いて関連する情報を取得するRAGのためのコンテキストチューニングを提案する。 実験の結果,文脈調整が意味探索を著しく促進することが示された。 また,Reciprocal Rank Fusion (RRF) とLambdaMARTを用いた軽量モデルでは,GPT-4に基づく検索よりも優れていることを示す。
    論文  参考訳(メタデータ)   (Sat, 9 Dec 2023 23:33:16 GMT)
  • LLMの実利用において重要なRAGの検証と、LambdaMART with Reciprocal Rank Fusionが有効だったという報告
  • データ構築部分に「This methodology provided a comprehensive and realistic dataset, essential for the evaluation of our context tuning approach in RAG-based planning systems.」とあるが、この設定がrealisticかは見解が分かれそうに思う…(結果は興味深いけど)

RGB:  Retrieval-Augmented Generation Benchmark

  • Benchmarking Large Language Models in Retrieval-Augmented Generation [53.5]
    大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。 我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。 RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
    論文  参考訳(メタデータ)   (Mon, 4 Sep 2023 08:28:44 GMT)
  • LLM活用に欠かせないRAG能力をnoise robustness, negative rejection, information integration, counterfactual robustnessと整理、ベンチマークを構築。英語と中国語が対象。
  • リポジトリはGitHub – chen700564/RGB

MuRAG: マルチモーダルなRAG

  • MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text [58.7]
    我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。 以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
    論文  参考訳(メタデータ)   (Thu, 6 Oct 2022 13:58:03 GMT)
    • マルチモーダルなRAG、モダリティを追加することで性能も相応に向上している。