ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration 

  • ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration [110.2]
    私たちは、他のモデルやさまざまなツールを管理する小さなオーケストレータが、どちらもインテリジェンスの上限を押し上げることができることを示しています。 インテリジェントなツールをコーディネートする,小さなオーケストレータのトレーニング方法であるToolOrchestraを紹介する。 ToolOrchestraを使うことで、従来のツール使用エージェントよりも低コストで精度の高い8BモデルであるOrchestratorを作成できる。
    論文  参考訳(メタデータ)   (Wed, 26 Nov 2025 18:59:46 GMT)
  • 「We introduce ToolOrchestra, a method for training a small language model to serve as the orchestrator of a diverse toolkit, including classical tools and more intelligent models. This dovetails with recent developments in the field testifying that small language models are often sufficiently powerful and far more economical in agentic systems」とエージェント時代に重要な能力であるツールオーケストレーション能力をモデルに与えるための研究
  • リポジトリはToolOrchestraGitHub – NVlabs/ToolOrchestra: ToolOrchestra is an end-to-end RL training framework for orchestrating tools and agentic workflows.

ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning

  • ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning [80.1]
    外部ツールを備えたLarge Language Models (LLM) は、複雑な推論タスクにおけるパフォーマンスの向上を実証している。 このツールに強化された推論が広く採用されるのは、ドメイン固有のツールが不足しているためである。 構造化ツールライブラリに非構造化ツールのコレクションを自動的に組み込むための体系的なアプローチを提案する。
    論文  参考訳(メタデータ)   (Thu, 09 Oct 2025 04:11:16 GMT)
  • LLMが使用するツールを整理するためのフレームワーク。ツールを自動作成しているアプローチもあるのでその整理は有用。
  • リポジトリはGitHub – SalesforceAIResearch/ToolLibGen

Tool Learning with Large Language Models: A Survey 

  • Tool Learning with Large Language Models: A Survey [60.7]
    大規模言語モデル(LLM)を用いたツール学習は,高度に複雑な問題に対処するLLMの能力を強化するための,有望なパラダイムとして登場した。 この分野での注目と急速な進歩にもかかわらず、現存する文献は断片化され、体系的な組織が欠如している。
    論文  参考訳(メタデータ)   (Tue, 28 May 2024 08:01:26 GMT)
  • 複雑な問題を解くためにToolを扱うアプローチに関するサーベイ。流行っている分野であり整理された情報はとても参考になる。リポジトリがあるのもありがたい。
  • リポジトリはGitHub – quchangle1/LLM-Tool-Survey: This is the repository for the Tool Learning survey.

T-Eval

  • T-Eval: Evaluating the Tool Utilization Capability Step by Step [69.6]
    大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を達成した。 LLMのツール活用能力の評価と分析方法はまだ未検討である。
    論文  参考訳(メタデータ)   (Thu, 21 Dec 2023 17:02:06 GMT)
  • LLMによるツール活用能力のベンチマーク、INSTRUCT、PLAN、 REASON、 RETRIEVE、 UNDERSTAND、REVIEWを測る構成。GPT-4がさすがのスコアだが、性能には結構なムラがあるよう。GPT-4のREVIEW能力の高さが気になるところ。
  • リポジトリはGitHub – open-compass/T-Eval: T-Eval: Evaluating Your LLMs on Tool Utilization Step by Step

LLM+Toolの利用

LLM+Toolという使い方が広く研究されているが、関連する論文が出ていた。fine tuning vs few shot(のようなデータの与え方)という点で興味深い。

  • ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs [80.6]
    オープンソースの大規模言語モデル(LLM)は、ハイレベルなタスクの実行において著しく制限されている。 これは、現在のインストラクションチューニングがツールユースドメインではなく、基本的な言語タスクに重点を置いているためである。 データ構築、モデルトレーニング、評価のための一般的なツール・ユース・フレームワークであるToolLLMを紹介する。
    論文  参考訳(メタデータ)   (Mon, 31 Jul 2023 15:56:53 GMT)
  • OSSのLLMに対してツール利用のためのチューニングを行うフレームワークの提案。
  • 16Kと膨大なAPIコレクションを収集、インストラクションを作成(ToolBenchデータセット)、有効な経路を見つけるための手法(DFSDT: Depth First Search-based Decision Tree)提案、新たな評価器(ToolEval)で評価と幅広い内容。LLaMA 7Bをfine tuningした場合+DFSDTの結果がChatGPT+ReActを超えている。(ChatGPT + DFSDTには及ばず)
  • full finetuningとLoRAの比較があるのも興味深い
  • リポジトリはGitHub – OpenBMB/ToolBench: An open platform for training, serving, and evaluating large language model for tool learning.
  • Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models [91.0]
    大規模言語モデル(LLM)は、ツールの使用のデモを提供することで、新しいツールを使用するように教えられている。 デモよりも、ツールドキュメンテーションの使用、個々のツール使用方法の説明を推奨します。
    論文  参考訳(メタデータ)   (Tue, 1 Aug 2023 17:21:38 GMT)
  • ツールの使い方は一般的にデモにより提供されるが、ドキュメンテーションの利用に効果があるとの指摘。ツールドキュメントにfew shot並みの効果があるというのは若干驚き。
  • LLMが読みやすいツールドキュメントというものもあるのだろうか。

Toolを使うFoundation Model、Tool-AugmentedなLLM

  • Tool Learning with Foundation Models [114.3]
    基礎モデルの出現により、AIシステムは、人間としてのツールの使用に等しく適応できる可能性がある。 その大きな可能性にもかかわらず、この分野における重要な課題、機会、そして将来の取り組みに関する包括的な理解はいまだに欠けている。
    論文  参考訳(メタデータ)   (Mon, 17 Apr 2023 15:16:10 GMT)
  • ツールを使用する基盤モデルに関するサーベイ
  • 外部知識活用からの自然な拡張な気はしつつ、すごく世界が広がる感覚がありとても興味深い
  • リポジトリはGitHub – OpenBMB/BMTools: Tool Learning for Big Models, Open-Source Solutions of ChatGPT-Plugins

  • API-Bank: A Benchmark for Tool-Augmented LLMs [48.7]
    本稿では,Tool-Augmented LLM向けに開発された最初のベンチマークであるAPI-Bankを紹介する。 API-Bankには、53の一般的なAPIツール、完全なツール拡張LLMワークフロー、264の注釈付き対話が含まれている。 実験の結果, GPT-3.5はGPT3に対してツールを使用できるが, GPT-4はプランニング性能が優れていた。
    論文  参考訳(メタデータ)   (Fri, 14 Apr 2023 14:05:32 GMT)
  • LLMのためのAPI利用ベンチマーク
  • データやコードは公開されているのだろうか?論文中にはリンクがなさそう。