RAGを評価するベンチマークの自動生成フレームワーク。DRAGONBall dataset(Diverse RAG Omni-Benchmark for All domains)って・・・。
分析結果から見えるGenerate、Retrieverそれぞれのモデルの性能が興味深い。結論には「Notably, while GPT-4o showed superior performance overall, the gap with top-performing open-source models was relatively small.」という指摘も。