WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences [122.9] WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。 WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。 実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。 論文参考訳(メタデータ) (Sun, 16 Jun 2024 20:53:25 GMT)