NoMIRACL: Knowing When You Don’t Know for Robust Multilingual Retrieval-Augmented Generation

NoMIRACL: Knowing When You Don’t Know for Robust Multilingual Retrieval-Augmented Generation [92.5]
Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。評価の結果,GPT-4はフランス語や英語などの高リソース言語で頻繁に幻覚を呈することがわかった。
論文参考訳（メタデータ） (Mon, 18 Dec 2023 17:18:04 GMT)
RAGにおける頑健性のマルチリンガルなベンチマーク。 hallucination rateとerror rateがメトリクス。GPT-4のbase lineがあるが「GPT-4 achieves a high 33.2% hallucination rate on the non-relevant subset and 14.9% error rate on the relevant NoMIRACL split, highlighting that GPT-4 finds it challenging to dismiss non-relevant passages over relevant passages in first-stage retrieved information.」と十分とは言えなさそうな結果。日本語はhallucination rateが高くerror rateが低い結果となっている。
リポジトリはproject-miracl/nomiracl: A multilingual dataset to evaluate LLM robustness in RAG setup against first-stage retrieval errors on 18 languages. (github.com)

コメントを残す

コメントを残す コメントをキャンセル