- T-Eval: Evaluating the Tool Utilization Capability Step by Step [69.6]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を達成した。 LLMのツール活用能力の評価と分析方法はまだ未検討である。
論文 参考訳(メタデータ) (Thu, 21 Dec 2023 17:02:06 GMT) - LLMによるツール活用能力のベンチマーク、INSTRUCT、PLAN、 REASON、 RETRIEVE、 UNDERSTAND、REVIEWを測る構成。GPT-4がさすがのスコアだが、性能には結構なムラがあるよう。GPT-4のREVIEW能力の高さが気になるところ。
- リポジトリはGitHub – open-compass/T-Eval: T-Eval: Evaluating Your LLMs on Tool Utilization Step by Step
タグ: Autonomous Agent
ReST meets ReAct
- ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.5]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。 エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。 引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文 参考訳(メタデータ) (Fri, 15 Dec 2023 18:20:15 GMT) - Reinforced Self-Training (ReST) を適用したReAct-style LLM agentの提案。ReAct的な動くで作ったtrajectoryのうち良いものを使ってfull fine-tuningとかなりの計算量が必要そうな手法。 少ない回数のイテレーションで良い性能を出せるとのこと。
- 「employing growing-batch reinforcement learning with AI feedback for continuous self-improvement and self-distillation.」とあるが、自分で学んでいけるAIがてきつつあるんじゃないかという気もする。
CogAgent
- CogAgent: A Visual Language Model for GUI Agents [40.2]
GUI理解とナビゲーションに特化した視覚言語モデル(VLM)であるCogAgentを紹介する。 低解像度画像エンコーダと高解像度画像エンコーダの両方を利用することで、CogAgentは1120*1120の解像度で入力をサポートする。 CogAgentは、VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、 infoVQA、DocVQA、MM-Vet、POPEを含む5つの一般的なVQAベンチマークで、技SoTAを達成している。
論文 参考訳(メタデータ) (Thu, 14 Dec 2023 13:20:57 GMT) - GUIを理解し実行するためのAgent、複数のVQAベンチマークでもSoTAを主張
- リポジトリはGitHub – THUDM/CogVLM: a state-of-the-art-level open visual language model | 多模态预训练模型
TaskWeaver
- TaskWeaver: A Code-First Agent Framework [51.8]
TaskWeaverは、LLMで動く自律エージェントを構築するためのコードファーストフレームワークである。 ユーザ要求を実行可能なコードに変換し、ユーザ定義プラグインを呼び出し可能な関数として扱う。 リッチなデータ構造、フレキシブルなプラグイン利用、動的プラグイン選択のサポートを提供する。
論文 参考訳(メタデータ) (Fri, 1 Dec 2023 07:42:56 GMT) - ChatGPT + Advanced data analyticsのような動作をするフレームワークの提案。リポジトリにあるビデオが分かりやすい。
- リポジトリはGitHub – microsoft/TaskWeaver: A code-first agent framework for seamlessly planning and executing data analytics tasks.
TPTU-v2
- TPTU-v2: Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems [25.9]
本稿では,大規模言語モデル(LLM)のタスク計画・ツール利用(TPTU)能力の向上を目的とした包括的フレームワークを提案する。 このフレームワークは、これらの課題に対処するために設計された3つの重要なコンポーネントで構成されている。(1) API Retrieverは、利用可能な広範囲な配列の中で、ユーザタスクに最も関連するAPIを選択し、(2) LLM Finetunerは、タスク計画とAPI呼び出しにより適するように、ベースLSMをチューニングし、(3)Demo Selectorは、難しいAPIに関連するさまざまなデモを適応的に検索する。
論文 参考訳(メタデータ) (Sun, 19 Nov 2023 12:37:30 GMT) - TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents – arXiv最新論文の紹介 (devneko.jp)のv2、3ヶ月で更新という今のスピード感。
- API Retriever、LLM Finetuner、Demo Selectorからなる構成、ToolBenchの結果は高いように思えるが詳細な情報が欲しいところ。。
Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents
- Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents [121.5]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。 具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。 PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (Wed, 1 Nov 2023 03:20:16 GMT) - Plug-and-Play Dialogue Policy Planner (PPDPP)の提案、よくあるプロンプトベースのものより高性能とのこと。
- リポジトリはhttps://github.com/dengyang17/PPDPPとのことだが、現時点では404
X-of-Thoughts
- Plan, Verify and Switch: Integrated Reasoning with Diverse X-of-Thoughts [65.2]
我々は,多種多様な推論の思考をLCMに促すことにより,総合的な問題解決フレームワーク XoT を提案する。 各質問に対して、XoTは常に最も適切なメソッドを選択して始まり、各メソッドを反復的に実行する。 各イテレーション内で、XoTは生成された回答の有効性を積極的にチェックし、外部エグゼクタからのフィードバックを取り入れます。
論文 参考訳(メタデータ) (Mon, 23 Oct 2023 07:02:20 GMT) - of thoughtシリーズのワイルカード版(?)、計画・推論・検証モジュールを持ち、of thoughtな手法を選び使い検証しながら問題を解く。様々なベンチマークで有効性を検証したとのこと。複数手法を組み合わせるアンサンブル的な動きでもあり検証から再計画をするエージェント的な動きでもあり、効果はありそう。
- リポジトリはGitHub – tengxiaoliu/XoT: EMNLP 2023 Plan, Verify and Switch: Integrated Reasoning with Diverse X-of-Thoughts
SOTOPIA
- SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [110.6]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。 エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。 GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (Wed, 18 Oct 2023 02:27:01 GMT) - 様々なシナリオでロールプレイをし、社会的知性を測ることができる環境STOPIAとベンチマークSOTOPIA-EVALの提案。人間との比較でGPT-4は優秀ではあるが、GOAL指標(目標の達成度合い)における大きな差と「It is also worth noting that humans on average produce 16.8 words per turn, while GPT-4 produces 45.5 words per turn, which indicates humans are more efficient in social interactions.」という指摘が興味深い。
- プロジェクトサイトはSotopia
LLM Agent関連(OSS, 音楽, LLM強化, マクロ経済)
最近、LLMをAgentとして使う研究が多く発表されている。LLMのAgents – arXiv最新論文の紹介 (devneko.jp)で取り上げたようにオープンな取り組み、音楽特化のような分野特化の取り組み、LLM自体を強化する取り組み(Llama 2 70Bを強化しgpt-3.5-turbo相当)など様々な研究がある。この分野が社会実装されると影響が大きく要注目。
- OpenAgents: An Open Platform for Language Agents in the Wild [71.2]
OpenAgentsは、日々の生活の中で言語エージェントを使い、ホストするためのオープンなプラットフォームです。 我々は課題と機会を解明し、現実世界の言語エージェントの将来の研究と開発の基礎を築きたいと考えています。
論文 参考訳(メタデータ) (Mon, 16 Oct 2023 17:54:53 GMT) - Agentのためのオープンなプラットフォーム
- プロジェクトサイトはGitHub – xlang-ai/OpenAgents: OpenAgents: An Open Platform for Language Agents in the Wild
- MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models [54.6]
MusicAgentは、多数の音楽関連ツールと、ユーザの要求に対処するための自律ワークフローを統合している。 このシステムの第一の目的は、AI音楽ツールの複雑さからユーザーを解放し、クリエイティブな側面に集中できるようにすることである。
論文 参考訳(メタデータ) (Wed, 18 Oct 2023 13:31:10 GMT) - AI+音楽のためのエージェント、分野特化の取り組みは珍しいが1分野に様々なタスクがありツールがありという状況だと非常に役に立つと思う。
- リポジトリはmuzic/agent at main · microsoft/muzic · GitHub
- AgentTuning: Enabling Generalized Agent Abilities for LLMs [35.7]
本稿では,オープンな大規模言語モデルのエージェント能力を高めるための,シンプルで汎用的なAgentTuningを提案する。 我々は、AgentInstructと一般的なドメインからのオープンソース命令を組み合わせることで、ハイブリッドなインストラクションチューニング戦略を採用する。 評価の結果,AgentTuning は汎用能力を損なうことなく LLM のエージェント機能を実現することができることがわかった。
論文 参考訳(メタデータ) (Thu, 19 Oct 2023 15:19:53 GMT) - 言語モデルのエージェント能力を高めるデータAgentInstructを構築、AgentTuningによってLlama 2 ベースのAgentLMを構築、70Bでgpt-3.5-turbo相当の能力とのこと
- リポジトリはGitHub – THUDM/AgentTuning: AgentTuning: Enabling Generalized Agent Abilities for LLMs
- Large Language Model-Empowered Agents for Simulating Macroeconomic Activities [48.6]
大規模言語モデル(LLM)は、最近、自律的な人間のような特徴を提供することで有名になった。 我々は,人為的な意思決定と適応性を示すために,プロンプトエンジニアリング駆動型LLMエージェントを設計する。 我々の研究は、LLMとその人間的特性に基づいてマクロ経済学をシミュレートする有望な可能性を実証している。
論文 参考訳(メタデータ) (Mon, 16 Oct 2023 14:19:40 GMT) - マクロ経済シミュレーションへのLLM活用、「Classic macroeconomic phenomena are reproduced and more reasonable compared to traditional rule-based or AI agents.」とのこと。
UniSim: Learning Interactive Real-World Simulators
- Learning Interactive Real-World Simulators [113.5]
生成モデルを用いて実世界の相互作用の普遍的シミュレータ(UniSim)を学習する可能性について検討する。 UniSimは、高レベルの命令と低レベルの制御の両方の視覚的結果をシミュレートすることで、人間とエージェントが世界とどのように相互作用するかをエミュレートすることができる。
論文 参考訳(メタデータ) (Mon, 9 Oct 2023 19:42:22 GMT) - 生成モデルを活用したエージェントをシミュレーション環境を通して学習していく話、強化学習で有力だった方針であり、エージェントの学習にも有望な方針に思える。
- プロジェクトサイトはUniSim: Learning Interactive Real-World Simulators (universal-simulator.github.io)