T-Eval

  • T-Eval: Evaluating the Tool Utilization Capability Step by Step [69.6]
    大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を達成した。 LLMのツール活用能力の評価と分析方法はまだ未検討である。
    論文  参考訳(メタデータ)   (Thu, 21 Dec 2023 17:02:06 GMT)
  • LLMによるツール活用能力のベンチマーク、INSTRUCT、PLAN、 REASON、 RETRIEVE、 UNDERSTAND、REVIEWを測る構成。GPT-4がさすがのスコアだが、性能には結構なムラがあるよう。GPT-4のREVIEW能力の高さが気になるところ。
  • リポジトリはGitHub – open-compass/T-Eval: T-Eval: Evaluating Your LLMs on Tool Utilization Step by Step

LLM+Toolの利用

LLM+Toolという使い方が広く研究されているが、関連する論文が出ていた。fine tuning vs few shot(のようなデータの与え方)という点で興味深い。

  • ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs [80.6]
    オープンソースの大規模言語モデル(LLM)は、ハイレベルなタスクの実行において著しく制限されている。 これは、現在のインストラクションチューニングがツールユースドメインではなく、基本的な言語タスクに重点を置いているためである。 データ構築、モデルトレーニング、評価のための一般的なツール・ユース・フレームワークであるToolLLMを紹介する。
    論文  参考訳(メタデータ)   (Mon, 31 Jul 2023 15:56:53 GMT)
  • OSSのLLMに対してツール利用のためのチューニングを行うフレームワークの提案。
  • 16Kと膨大なAPIコレクションを収集、インストラクションを作成(ToolBenchデータセット)、有効な経路を見つけるための手法(DFSDT: Depth First Search-based Decision Tree)提案、新たな評価器(ToolEval)で評価と幅広い内容。LLaMA 7Bをfine tuningした場合+DFSDTの結果がChatGPT+ReActを超えている。(ChatGPT + DFSDTには及ばず)
  • full finetuningとLoRAの比較があるのも興味深い
  • リポジトリはGitHub – OpenBMB/ToolBench: An open platform for training, serving, and evaluating large language model for tool learning.
  • Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models [91.0]
    大規模言語モデル(LLM)は、ツールの使用のデモを提供することで、新しいツールを使用するように教えられている。 デモよりも、ツールドキュメンテーションの使用、個々のツール使用方法の説明を推奨します。
    論文  参考訳(メタデータ)   (Tue, 1 Aug 2023 17:21:38 GMT)
  • ツールの使い方は一般的にデモにより提供されるが、ドキュメンテーションの利用に効果があるとの指摘。ツールドキュメントにfew shot並みの効果があるというのは若干驚き。
  • LLMが読みやすいツールドキュメントというものもあるのだろうか。

Toolを使うFoundation Model、Tool-AugmentedなLLM

  • Tool Learning with Foundation Models [114.3]
    基礎モデルの出現により、AIシステムは、人間としてのツールの使用に等しく適応できる可能性がある。 その大きな可能性にもかかわらず、この分野における重要な課題、機会、そして将来の取り組みに関する包括的な理解はいまだに欠けている。
    論文  参考訳(メタデータ)   (Mon, 17 Apr 2023 15:16:10 GMT)
  • ツールを使用する基盤モデルに関するサーベイ
  • 外部知識活用からの自然な拡張な気はしつつ、すごく世界が広がる感覚がありとても興味深い
  • リポジトリはGitHub – OpenBMB/BMTools: Tool Learning for Big Models, Open-Source Solutions of ChatGPT-Plugins

  • API-Bank: A Benchmark for Tool-Augmented LLMs [48.7]
    本稿では,Tool-Augmented LLM向けに開発された最初のベンチマークであるAPI-Bankを紹介する。 API-Bankには、53の一般的なAPIツール、完全なツール拡張LLMワークフロー、264の注釈付き対話が含まれている。 実験の結果, GPT-3.5はGPT3に対してツールを使用できるが, GPT-4はプランニング性能が優れていた。
    論文  参考訳(メタデータ)   (Fri, 14 Apr 2023 14:05:32 GMT)
  • LLMのためのAPI利用ベンチマーク
  • データやコードは公開されているのだろうか?論文中にはリンクがなさそう。