VisualWebBench

  • VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding? [115.6]
    MLLM(Multimodal Large Language Model)は、Web関連のタスクにおいて有望であることを示す。 Webドメインにおけるパフォーマンス評価は、包括的なベンチマークが欠如しているため、依然として課題である。 benchは、さまざまなWebタスクにわたるMLLMの機能を評価するために設計されたマルチモーダルベンチマークである。
    論文  参考訳(メタデータ)   (Tue, 09 Apr 2024 02:29:39 GMT)
  • マルチモーダルなLLMを対処としたWeb undestandingタスクのベンチマーク「VisualWebBench consists of seven tasks, and comprises 1.5K human-curated instances from 139 real websites, covering 87 sub-domains.」とそこそこの規模。結果はタスクによって異なるが、平均的にはClaude Sonnet > GPT-4V > Claude Opus > LLaVA-1.6-34B > Gemini Pro とやや意外。日本語版作りたいなーと思わなくもない。
  • リポジトリはVisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding?

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です