- LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models [71.8]
LMMS-EVALは50以上のタスクと10以上のモデルを持つ統一的で標準化されたマルチモーダルベンチマークフレームワークである。 LMMS-EVAL LITEは、カバー範囲と効率の両方を重視したプルーニング評価ツールキットである。 マルチモーダルなLIVEBENCHは、ニュースやオンラインフォーラムを継続的に更新し、野生におけるモデルの一般化能力を評価する。
論文 参考訳(メタデータ) (Wed, 17 Jul 2024 17:51:53 GMT) - マルチモーダルなLLM用のベンチマーク。LiveBenchではGPT4 TurboがGPT4oより高スコアとなっている。
- リポジトリはGitHub – EvolvingLMMs-Lab/lmms-eval: Accelerating the development of large multimodal models (LMMs) with lmms-eval、リーダーボードはLiveBench – a Hugging Face Space by lmms-lab