Game – arXiv最新論文の紹介

NitroGen: An Open Foundation Model for Generalist Gaming Agents

NitroGen: An Open Foundation Model for Generalist Gaming Agents [101.4]
NitroGenは、ジェネラリストゲームエージェントのためのビジョンアクション基盤モデルである。 1000以上のゲームで4万時間のゲームプレイビデオでトレーニングされている。
論文参考訳（メタデータ） (Sun, 04 Jan 2026 16:24:50 GMT)
「: (1) Multi-game foundation agent (center) – a generalist vision-action model that takes in game observations and generates gamepad actions, enabling zero-shot gameplay across multiple titles and serving as a foundation for fine-tuning on new games; (2) Universal simulator (left) – an environment wrapper that allows any commercial game to be controlled through a Gymnasium API; and (3) Internet-scale dataset (right) – the largest and most diverse open-source gaming dataset curated from 40,000 hours of publicly available gaming videos, spanning more than 1,000 games with extracted action labels.」とゲームの基盤モデル
プロジェクトサイトはNitroGen | A Foundation Model for Generalist Gaming Agents

TurnaboutLLM: A Deductive Reasoning Benchmark from Detective Games [9.2]
本稿では,Large Language Models(LLM)の推論能力を評価するための新しいフレームワークとデータセットであるTurnaboutLLMを紹介する。このフレームワークは、長い物語の文脈の中で、証言と証拠の間の矛盾を識別するLLMを処理します。提案手法は,12種類のLLMをデータセット上で評価し,導出的推論を向上するための一般的な戦略の限界を示唆した。
論文参考訳（メタデータ） (Wed, 21 May 2025 16:22:32 GMT)
逆転裁判やダンガンロンパを使ったLLMの性能評価ベンチマークの提案。攻略サイトなどがLeakになっていそうだが、総合力が試されるベンチマークではあると思う。LRMが優勢な結果（まぁそうだろうと思う）。
リポジトリはGitHub – zharry29/turnabout_llm

lmgame-Bench: How Good are LLMs at Playing Games? [60.0]
本稿では,現代の大規模言語モデル (LLM) エージェントを評価するために,人気ゲームを使用する上での大きな課題について検討する。我々はlmgame-Benchを導入し、ゲームを信頼性評価に変換する。
論文参考訳（メタデータ） (Wed, 21 May 2025 06:02:55 GMT)
こちらもゲームを用いたベンチマーク・評価。「We study the major challenges in using popular video games to evaluate modern LLMs and find that directly dropping LLMs into games cannot make an effective evaluation, for three reasons: brittle vision perception, prompt sensitivity, and potential data contamination.」とLeakの課題が大きいことも指摘している。
リポジトリはGitHub – lmgame-org/GamingAgent: Computer gaming agents that run on your PC and laptops.下のhttps://github.com/lmgame-org/GamingAgent/lmgame-benchとのことだが、現状では404

AI in Games: Techniques, Challenges and Opportunities [40.9]
Libratus、OpenAI Five、AlphaStarといった様々なゲームAIシステムが開発され、プロの人間プレイヤーに勝っている。本稿では,最近成功したゲームAI,ボードゲームAI,カードゲームAI,ファーストパーソンシューティングゲームAI,リアルタイム戦略ゲームAIについて調査する。
論文参考訳（メタデータ） (Mon, 15 Nov 2021 09:35:53 GMT)
- 碁のようなボードゲーム、テキサス・ホールデムのようなカードゲーム、FPS、リアルタイムストラテジーゲームと4種類のゲームとそのAIに関するサーベイ。ゲームは意思決定と密接に関わっており、応用範囲は広い印象。