LM Fight Arena: Benchmarking Large Multimodal Models via Game Competition

  • LM Fight Arena: Benchmarking Large Multimodal Models via Game Competition [104.8]
    本稿では,Mortal Kombat IIにおける大規模マルチモーダルモデルを評価する新しいフレームワークであるLM Fight Arenaを紹介する。 静的評価とは異なり、LM Fight Arenaは完全に自動化され、再現可能で、LMMの戦略的推論能力の客観的評価を提供する。
    論文  参考訳(メタデータ)   (Fri, 10 Oct 2025 02:19:21 GMT)
  • 「Unlike static evaluations, LM Fight Arena provides a fully automated, reproducible, and objective assessment of an LMM’s strategic reasoning capabilities in a dynamic setting. This work introduces a challenging and engaging benchmark that bridges the gap between AI evaluation and interactive entertainment.」とのことだが、なぜにMortal Kombat…
  • Claude 3.5 Sonnetがとても強いらしい。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です