LM Fight Arena: Benchmarking Large Multimodal Models via Game Competition
LM Fight Arena: Benchmarking Large Multimodal Models via Game Competition [104.8] 本稿では,Mortal Kombat IIにおける大規模マルチモーダルモデルを評価する新しいフレームワークであるLM Fight Arenaを紹介する。 静的評価とは異なり、LM Fight Arenaは完全に自動化され、再現可能で、LMMの戦略的推論能力の客観的評価を提供する。 論文参考訳(メタデータ) (Fri, 10 Oct 2025 02:19:21 GMT)
「Unlike static evaluations, LM Fight Arena provides a fully automated, reproducible, and objective assessment of an LMM’s strategic reasoning capabilities in a dynamic setting. This work introduces a challenging and engaging benchmark that bridges the gap between AI evaluation and interactive entertainment.」とのことだが、なぜにMortal Kombat…