LogicGame – arXiv最新論文の紹介

LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.5]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。 LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文参考訳（メタデータ） (Wed, 28 Aug 2024 13:16:41 GMT)
ルールを用いた推論能力について、計画と実行の軸で評価するベンチマーク
GPT-4 turboとGPT-4o、Claude 3.5 sonnetの優秀さが目立つ

コメントを残す

コメントを残す コメントをキャンセル