LogicGame

  • LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.5]
    大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。 LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
    論文  参考訳(メタデータ)   (Wed, 28 Aug 2024 13:16:41 GMT)
  • ルールを用いた推論能力について、計画と実行の軸で評価するベンチマーク
  • GPT-4 turboとGPT-4o、Claude 3.5 sonnetの優秀さが目立つ

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です