UltraTool

  • Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [96.0]
    UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。 現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。 以前の作業とは異なり、計画中に事前に定義されたツールセットの制限を取り除く。
    論文  参考訳(メタデータ)   (Tue, 30 Jan 2024 16:52:56 GMT)
  • ツールの利用計画や実行などエージェント的動作のためのツール利用ベンチマーク。Tool Creationが入っているのが特徴的に思える。
  • 現状のベンチマーク結果はさすがのGPT-4という感じではあるが、各モデルに得意不得意があるように見えるのが興味深い。
  • リポジトリはJoeYing1019/UltraTool: Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios (github.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です