Understanding the planning of LLM agents: A survey

  • Understanding the planning of LLM agents: A survey [98.8]
    本調査では, LLMをベースとしたエージェント計画の体系的考察を行い, 計画能力の向上を目的とした最近の成果について報告する。 各方向について総合的な分析を行い、研究分野におけるさらなる課題について論じる。
    論文  参考訳(メタデータ)   (Mon, 5 Feb 2024 04:25:24 GMT)
  • 最近よく見るLLMを利用した自律エージェントのうち計画に関するサーベイ。さらにTask Decomposition, Plan Selection, External Module, Reflection, Memoryに細分化して整理している。実質7ページとよくまとまっているサーベイ。

AgentBoard

UltraTool

  • Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [96.0]
    UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。 現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。 以前の作業とは異なり、計画中に事前に定義されたツールセットの制限を取り除く。
    論文  参考訳(メタデータ)   (Tue, 30 Jan 2024 16:52:56 GMT)
  • ツールの利用計画や実行などエージェント的動作のためのツール利用ベンチマーク。Tool Creationが入っているのが特徴的に思える。
  • 現状のベンチマーク結果はさすがのGPT-4という感じではあるが、各モデルに得意不得意があるように見えるのが興味深い。
  • リポジトリはJoeYing1019/UltraTool: Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios (github.com)

Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate

  • Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.1]
    エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。 フレームワークのコードをGitHubで公開しています。
    論文  参考訳(メタデータ)   (Tue, 30 Jan 2024 07:03:32 GMT)
  • 評価のためにLLMエージェントを多数使い、かつ、人間の評価を取り入れるフレームワークの提案。GPT-4が一強という時代は終わりつつあり、このようなフレームワークでないと正しい性能評価が難しくなってきているのだろうと思う。
  • リポジトリはGAIR-NLP/scaleeval: Scalable Meta-Evaluation of LLMs as Evaluators (github.com)

CivRealm

  • CivRealm: A Learning and Reasoning Odyssey in Civilization for Decision-Making Agents [63.8]
    文明ゲームに触発された環境であるCivRealmを紹介する。 CivRealmは、意思決定エージェントにとってユニークな学習と推論の課題である。
    論文  参考訳(メタデータ)   (Fri, 19 Jan 2024 09:14:11 GMT)
  • AIがプレイするFreeciv ベースの環境の提案、当然だが現状で解くのは簡単ではない。AutoGPTを階層的に束ねた手法でも海賊への対策に失敗するとのこと。「The performance contrast between Mastaba and BaseLang highlights the necessity of a hierarchical decision architecture for tackling the complex scenarios presented by CivRealm.」というのはとても興味深い(人間の社会を見ているよう・・・)
  • リポジトリはbigai-ai/civrealm: CivRealm is an interactive environment for the open-source strategy game Freeciv-web based on Freeciv, a Civilization-inspired game. (github.com)

CodeAgent

  • CodeAgent: Enhancing Code Generation with Tool-Integrated Agent Systems for Real-World Repo-level Coding Challenges [44.0]
    大規模言語モデル(LLM)は自動コード生成において有望であるが、通常は単純なタスクでのみ優れている。 私たちの研究は、実世界のリポジトリレベルのコード生成という、より現実的な設定でLLMを評価することに向かっています。 我々は,効率的なリポジトリレベルのコード生成に外部ツールを利用する,新しいLLMベースのエージェントフレームワークであるCodeAgentを紹介する。
    論文  参考訳(メタデータ)   (Sun, 14 Jan 2024 18:12:03 GMT)
  • 単純なコード生成ではなく、リポジトリレベルでコードを作成する研究
  • 当然ながら(?)高難度でエージェント的な動きが不可欠、今はかなり難しいタスク。この手の研究にトライしようと思えるようになったことに進化を感じる。
  • リポジトリはhttps://github.com/zkcpku/CodeAgentとのこと

Self-Rewarding Language Models

SeeAct

  • GPT-4V(ision) is a Generalist Web Agent, if Grounded [20.9]
    GPT-4Vは,テキストプランを手作業でWebサイト上で動作させると,ライブWebサイトのタスクの50%を完了できることを示す。 これは GPT-4 のようなテキストのみの LLM や、Web エージェント用に微調整されたより小さなモデルよりも大幅に優れている。 本稿では,Web上での視覚的理解と行動の統合にLMMの力を利用する汎用WebエージェントであるSEEACTを提案する。
    論文  参考訳(メタデータ)   (Wed, 3 Jan 2024 08:33:09 GMT)
  • 複数の研究機関から出ている通り、GPT-4VのようなマルチモーダルなLLMでWebエージェントができそうな雰囲気。
  • プロジェクトサイトはSeeAct (osu-nlp-group.github.io)

AppAgent

SimulateBench

  • How Far Are We from Believable AI Agents? A Framework for Evaluating the Believability of Human Behavior Simulation [49.2]
    我々は,AIエージェントの信頼性を評価するための2つの指標,一貫性と堅牢性,およびベンチマークであるSimulateBenchを紹介する。 エージェント (i) が長文入力を提示した場合の文字情報の正確な描写に苦慮していること, (ii) プロファイルの摂動に対する脆弱性を示すこと, (iii) 全体としての信頼性に影響を及ぼす重要な要因に大きく影響していること,などが判明した。
    論文  参考訳(メタデータ)   (Thu, 28 Dec 2023 16:51:11 GMT)
  • AIエージェントの一貫性(Consistency )と頑健性(Robustness )を計測するベンチマークの提案。一貫性、がん形成の定義は「Consistency measures whether the LLMs’ generated human behavior accurately depicts the identity information; Robustness measures whether the generated human behavior will be influenced by the perturbation in the profile.」とのこと
  • リポジトリはhttps://github.com/GAIR-NLP/GPTMan