NitroGen: An Open Foundation Model for Generalist Gaming Agents 

  • NitroGen: An Open Foundation Model for Generalist Gaming Agents [101.4]
    NitroGenは、ジェネラリストゲームエージェントのためのビジョンアクション基盤モデルである。 1000以上のゲームで4万時間のゲームプレイビデオでトレーニングされている。
    論文  参考訳(メタデータ)   (Sun, 04 Jan 2026 16:24:50 GMT)
  • 「: (1) Multi-game foundation agent (center) – a generalist vision-action model that takes in game observations and generates gamepad actions, enabling zero-shot gameplay across multiple titles and serving as a foundation for fine-tuning on new games; (2) Universal simulator (left) – an environment wrapper that allows any commercial game to be controlled through a Gymnasium API; and (3) Internet-scale dataset (right) – the largest and most diverse open-source gaming dataset curated from 40,000 hours of publicly available gaming videos, spanning more than 1,000 games with extracted action labels.」とゲームの基盤モデル
  • プロジェクトサイトはNitroGen | A Foundation Model for Generalist Gaming Agents

lmgame-Bench: How Good are LLMs at Playing Games? / TurnaboutLLM: A Deductive Reasoning Benchmark from Detective Games 

  • TurnaboutLLM: A Deductive Reasoning Benchmark from Detective Games [9.2]
    本稿では,Large Language Models(LLM)の推論能力を評価するための新しいフレームワークとデータセットであるTurnaboutLLMを紹介する。 このフレームワークは、長い物語の文脈の中で、証言と証拠の間の矛盾を識別するLLMを処理します。 提案手法は,12種類のLLMをデータセット上で評価し,導出的推論を向上するための一般的な戦略の限界を示唆した。
    論文  参考訳(メタデータ)   (Wed, 21 May 2025 16:22:32 GMT)
  • 逆転裁判やダンガンロンパを使ったLLMの性能評価ベンチマークの提案。攻略サイトなどがLeakになっていそうだが、総合力が試されるベンチマークではあると思う。LRMが優勢な結果(まぁそうだろうと思う)。
  • リポジトリはGitHub – zharry29/turnabout_llm
  • lmgame-Bench: How Good are LLMs at Playing Games? [60.0]
    本稿では,現代の大規模言語モデル (LLM) エージェントを評価するために,人気ゲームを使用する上での大きな課題について検討する。 我々はlmgame-Benchを導入し、ゲームを信頼性評価に変換する。
    論文  参考訳(メタデータ)   (Wed, 21 May 2025 06:02:55 GMT)
  • こちらもゲームを用いたベンチマーク・評価。「We study the major challenges in using popular video games to evaluate modern LLMs and find that directly dropping LLMs into games cannot make an effective evaluation, for three reasons: brittle vision perception, prompt sensitivity, and potential data contamination.」とLeakの課題が大きいことも指摘している。
  • リポジトリはGitHub – lmgame-org/GamingAgent: Computer gaming agents that run on your PC and laptops.下のhttps://github.com/lmgame-org/GamingAgent/lmgame-benchとのことだが、現状では404

GameにおけるAIのサーベイ

  • AI in Games: Techniques, Challenges and Opportunities [40.9]
    Libratus、OpenAI Five、AlphaStarといった様々なゲームAIシステムが開発され、プロの人間プレイヤーに勝っている。 本稿では,最近成功したゲームAI,ボードゲームAI,カードゲームAI,ファーストパーソンシューティングゲームAI,リアルタイム戦略ゲームAIについて調査する。
    論文  参考訳(メタデータ)   (Mon, 15 Nov 2021 09:35:53 GMT)
    • 碁のようなボードゲーム、テキサス・ホールデムのようなカードゲーム、FPS、リアルタイムストラテジーゲームと4種類のゲームとそのAIに関するサーベイ。ゲームは意思決定と密接に関わっており、応用範囲は広い印象。