MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models

  • MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.2]
    MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。 MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。 その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
    論文  参考訳(メタデータ)   (Thu, 10 Oct 2024 17:55:02 GMT)
  • マルチモーダルなRAGのベンチマーク、様々なモデルのスコア一覧表もとても参考になる。
  • リポジトリはMRAG-Bench (mragbench.github.io)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です