NoMIRACL: Knowing When You Don’t Know for Robust Multilingual Retrieval-Augmented Generation
NoMIRACL: Knowing When You Don’t Know for Robust Multilingual Retrieval-Augmented Generation [92.5] Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。 評価の結果,GPT-4はフランス語や英語などの高リソース言語で頻繁に幻覚を呈することがわかった。 論文参考訳(メタデータ) (Mon, 18 Dec 2023 17:18:04 GMT)
RAGにおける頑健性のマルチリンガルなベンチマーク。 hallucination rateとerror rateがメトリクス。GPT-4のbase lineがあるが「GPT-4 achieves a high 33.2% hallucination rate on the non-relevant subset and 14.9% error rate on the relevant NoMIRACL split, highlighting that GPT-4 finds it challenging to dismiss non-relevant passages over relevant passages in first-stage retrieved information.」と十分とは言えなさそうな結果。日本語はhallucination rateが高くerror rateが低い結果となっている。