LM Fight Arena: Benchmarking Large Multimodal Models via Game Competition

LM Fight Arena: Benchmarking Large Multimodal Models via Game Competition [104.8]
本稿では,Mortal Kombat IIにおける大規模マルチモーダルモデルを評価する新しいフレームワークであるLM Fight Arenaを紹介する。静的評価とは異なり、LM Fight Arenaは完全に自動化され、再現可能で、LMMの戦略的推論能力の客観的評価を提供する。
論文参考訳（メタデータ） (Fri, 10 Oct 2025 02:19:21 GMT)
「Unlike static evaluations, LM Fight Arena provides a fully automated, reproducible, and objective assessment of an LMM’s strategic reasoning capabilities in a dynamic setting. This work introduces a challenging and engaging benchmark that bridges the gap between AI evaluation and interactive entertainment.」とのことだが、なぜにMortal Kombat…
Claude 3.5 Sonnetがとても強いらしい。

コメントを残す

コメントを残す コメントをキャンセル