T-Eval

  • T-Eval: Evaluating the Tool Utilization Capability Step by Step [69.6]
    大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を達成した。 LLMのツール活用能力の評価と分析方法はまだ未検討である。
    論文  参考訳(メタデータ)   (Thu, 21 Dec 2023 17:02:06 GMT)
  • LLMによるツール活用能力のベンチマーク、INSTRUCT、PLAN、 REASON、 RETRIEVE、 UNDERSTAND、REVIEWを測る構成。GPT-4がさすがのスコアだが、性能には結構なムラがあるよう。GPT-4のREVIEW能力の高さが気になるところ。
  • リポジトリはGitHub – open-compass/T-Eval: T-Eval: Evaluating Your LLMs on Tool Utilization Step by Step

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です