MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models

MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.2]
MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。 MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
論文参考訳（メタデータ） (Thu, 10 Oct 2024 17:55:02 GMT)
マルチモーダルなRAGのベンチマーク、様々なモデルのスコア一覧表もとても参考になる。
リポジトリはMRAG-Bench (mragbench.github.io)

コメントを残す

コメントを残す コメントをキャンセル