- LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.5]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。 LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文 参考訳(メタデータ) (Wed, 28 Aug 2024 13:16:41 GMT) - ルールを用いた推論能力について、計画と実行の軸で評価するベンチマーク
- GPT-4 turboとGPT-4o、Claude 3.5 sonnetの優秀さが目立つ