MMBench

  • MMBench: Is Your Multi-modal Model an All-around Player? [90.7]
    大規模な視覚言語モデルを評価する方法は依然として大きな障害であり、将来のモデル開発を妨げる。 従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非破壊評価の指標が欠如している。 近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。 MMBenchは、視覚言語モデルの様々な能力を頑健に評価するための、体系的に設計された客観的ベンチマークである。
    論文  参考訳(メタデータ)   (Wed, 12 Jul 2023 16:23:09 GMT)
  • Vision/Languageのベンチマーク。検証する能力が20あり、包括的なものになっている。プロジェクトサイトはOpenCompass

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です