GTA: A Benchmark for General Tool Agents [32.4] 229個の実世界のタスクと実行可能なツールチェーンを設計し、主要な大言語モデル(LLM)を評価する。 GPT-4 はタスクの 50% 以下であり,ほとんどの LLM は 25% 以下である。 この評価は、現実シナリオにおける現在のLLMのツール利用能力のボトルネックを明らかにし、汎用ツールエージェントを前進させるための今後の方向性を提供する。 論文参考訳(メタデータ) (Thu, 11 Jul 2024 17:50:09 GMT)
リアルなシナリオでツールを利用して問題を解くエージェントの能力を評価するベンチマーク。想定されているツールはOCRやDrawBox、Calculator、TextToImageなど14種類。「Our findings show that realworld user queries are challenging for existing LLMs, with GPT-4 completing less than 50% of the tasks and most LLMs achieving below 25%.」とのこと。