LLM+Toolの利用

LLM+Toolという使い方が広く研究されているが、関連する論文が出ていた。fine tuning vs few shot(のようなデータの与え方)という点で興味深い。

  • ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs [80.6]
    オープンソースの大規模言語モデル(LLM)は、ハイレベルなタスクの実行において著しく制限されている。 これは、現在のインストラクションチューニングがツールユースドメインではなく、基本的な言語タスクに重点を置いているためである。 データ構築、モデルトレーニング、評価のための一般的なツール・ユース・フレームワークであるToolLLMを紹介する。
    論文  参考訳(メタデータ)   (Mon, 31 Jul 2023 15:56:53 GMT)
  • OSSのLLMに対してツール利用のためのチューニングを行うフレームワークの提案。
  • 16Kと膨大なAPIコレクションを収集、インストラクションを作成(ToolBenchデータセット)、有効な経路を見つけるための手法(DFSDT: Depth First Search-based Decision Tree)提案、新たな評価器(ToolEval)で評価と幅広い内容。LLaMA 7Bをfine tuningした場合+DFSDTの結果がChatGPT+ReActを超えている。(ChatGPT + DFSDTには及ばず)
  • full finetuningとLoRAの比較があるのも興味深い
  • リポジトリはGitHub – OpenBMB/ToolBench: An open platform for training, serving, and evaluating large language model for tool learning.
  • Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models [91.0]
    大規模言語モデル(LLM)は、ツールの使用のデモを提供することで、新しいツールを使用するように教えられている。 デモよりも、ツールドキュメンテーションの使用、個々のツール使用方法の説明を推奨します。
    論文  参考訳(メタデータ)   (Tue, 1 Aug 2023 17:21:38 GMT)
  • ツールの使い方は一般的にデモにより提供されるが、ドキュメンテーションの利用に効果があるとの指摘。ツールドキュメントにfew shot並みの効果があるというのは若干驚き。
  • LLMが読みやすいツールドキュメントというものもあるのだろうか。

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

  • RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.5]
    本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。 提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
    論文  参考訳(メタデータ)   (Fri, 28 Jul 2023 21:18:02 GMT)
  • LLM + Robotのような研究が盛り上がっているが、本件ではアクションをトークン化しweb scaleのVQAデータセット+13機のロボット×17か月間のデータを使って学習を行ったとのこと。
  • プロジェクトサイトはRT-2: Vision-Language-Action Models (robotics-transformer2.github.io)
  • 参考としてRT-1はRT-1: Robotics Transformer – arXiv最新論文の紹介 (devneko.jp)