Benchmarking Retrieval-Augmented Generation for Medicine / Medical Information Retrieval-Augmented Generation Evaluation (MIRAGE)

  • Benchmarking Retrieval-Augmented Generation for Medicine [30.4]
    大規模言語モデル(LLM)は、幅広い医療質問応答(QA)タスクにおいて最先端のパフォーマンスを達成した。 Retrieval-augmented Generation(RAG)は有望なソリューションであり、広く採用されている。 我々は、5つの医療QAデータセットから7,663の質問を含む第一種ベンチマークであるMIRAGE(Medicical Information Retrieval-Augmented Generation Evaluation)を提案する。
    論文  参考訳(メタデータ)   (Tue, 20 Feb 2024 17:44:06 GMT)
  • ベンチマークを作成し医療分野でのRAGの有効性について検証、CoTとの比較や使用しているLLMごとの差異などとても興味深い結果になっている。BM25ってやはりかなり優秀なのでは。
  • リポジトリはMIRAGE:Teddy-XiongGZ/MIRAGE: Official repository of the MIRAGE benchmark (github.com)、MEDRAG:Teddy-XiongGZ/MedRAG: Code for the MedRAG toolkit (github.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です