A Survey on Large Language Models for Automated Planning / Beyond Self-Talk: A Communication-Centric Survey of LLM-Based Multi-Agent Systems [

  • A Survey on Large Language Models for Automated Planning [15.8]
    自動計画における大規模言語モデルの利用に関する既存の研究を批判的に調査する。 これらの制限のため、LCMは独立したプランナーとして機能するには適していないが、他のアプローチと組み合わせることで、計画アプリケーションを強化する大きな機会を提供する。
    論文  参考訳(メタデータ)   (Tue, 18 Feb 2025 02:11:03 GMT)
  • LLMを用いた自動計画に関するサーベイ
  • エージェントでは必須の能力であるが、このテーマでのサーベイは貴重
  • Beyond Self-Talk: A Communication-Centric Survey of LLM-Based Multi-Agent Systems [11.5]
    大規模言語モデル(LLM)は、最近、推論、計画、意思決定において顕著な能力を示した。 研究者はLLMをマルチエージェントシステムに組み込んで、単一エージェント設定の範囲を超えてタスクに取り組むようになった。 この調査はさらなるイノベーションの触媒として機能し、より堅牢でスケーラブルでインテリジェントなマルチエージェントシステムを促進する。
    論文  参考訳(メタデータ)   (Thu, 20 Feb 2025 07:18:34 GMT)
  • マルチエージェント、コミュニケーションに軸足を置いたサーベイ。

PlanGEN: A Multi-Agent Framework for Generating Planning and Reasoning Trajectories for Complex Problem Solving 

  • PlanGEN: A Multi-Agent Framework for Generating Planning and Reasoning Trajectories for Complex Problem Solving [89.6]
    制約,検証,選択という3つの重要な要素を持つモデルに依存しない,スケーラブルなエージェントフレームワークであるPlanGENを提案する。 具体的には、推論時間アルゴリズムの性能を向上させるために、制約誘導反復検証を提案する。
    論文  参考訳(メタデータ)   (Sat, 22 Feb 2025 06:21:56 GMT)
  • 「PlanGEN comprises three specialized LLM agents: a constraint agent, a verification agent, and a selection agent.」というマルチエージェントフレームワーク。「Further, we introduced a Mixture of Algorithms, an iterative framework that integrates the selection agent (Figure 1) to dynamically choose the best algorithm.」とのことだが、MoAのAがAgentのものと紛らわしい。。
  • Gemini-1.5-Pro, Gemini-2.0-Flash, GPT-4o、それぞれ単一で使うよりも性能が向上しているようでアンサンブル的な効果は出ている。

Agent Planning with World Knowledge Model

  • Agent Planning with World Knowledge Model [88.5]
    エージェント計画を容易にするためにパラメトリック世界知識モデル(WKM)を導入する。 我々はWKMを開発し、グローバルな計画と動的状態の知識を導くために、事前のタスク知識を提供する。 我々は、我々のWKMが視覚障害者の試行錯誤と幻覚的行動の問題を効果的に緩和できることを示すために分析を行った。
    論文  参考訳(メタデータ)   (Thu, 23 May 2024 06:03:19 GMT)
  • World Knowledge Modelが計画に有効とのこと。それ自体は納得的でWKMを得るために「Specifically, we first steer the agent model to synthesize task knowledge from the comparison between expert and sampled trajectories. Then we prompt it to summarize state knowledge for each planning step from expert trajectories and combine the previous and next actions to build a state knowledge base. Lastly, we integrate the generated knowledge into expert trajectories and train a WKM.」という手順をとる。この手の設計が重要になっている。
  • リポジトリはhttps://github.com/zjunlp/WKMとのことだが、現時点では404

Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks

  • Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.3]
    Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。 PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
    論文  参考訳(メタデータ)   (Thu, 02 May 2024 17:59:31 GMT)
  • 今なお難しい長期計画のためのフレームワークの提案。自然言語による高レベルな計画と、それを実現するための「Sequencing Module 」「Learning Module」からなる。
  • リポジトリはPlan-Seq-Learn (mihdalal.github.io)

TPTU-v2

  • TPTU-v2: Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems [25.9]
    本稿では,大規模言語モデル(LLM)のタスク計画・ツール利用(TPTU)能力の向上を目的とした包括的フレームワークを提案する。 このフレームワークは、これらの課題に対処するために設計された3つの重要なコンポーネントで構成されている。(1) API Retrieverは、利用可能な広範囲な配列の中で、ユーザタスクに最も関連するAPIを選択し、(2) LLM Finetunerは、タスク計画とAPI呼び出しにより適するように、ベースLSMをチューニングし、(3)Demo Selectorは、難しいAPIに関連するさまざまなデモを適応的に検索する。
    論文  参考訳(メタデータ)   (Sun, 19 Nov 2023 12:37:30 GMT)
  • TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents – arXiv最新論文の紹介 (devneko.jp)のv2、3ヶ月で更新という今のスピード感。
  • API Retriever、LLM Finetuner、Demo Selectorからなる構成、ToolBenchの結果は高いように思えるが詳細な情報が欲しいところ。。

TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents

  • TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents [17.2]
    大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。 LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。 本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
    論文  参考訳(メタデータ)   (Mon, 7 Aug 2023 09:22:03 GMT)
  • LLM-based AI AgentsのTPTU(Task Planning and Tool Usage)能力を測るフレームワークの提案。実務上も有用で未来を感じる能力。現状では商用製品(ChatGPT、Claude)が強い。

A Picture is Worth a Thousand Words: Language Models Plan from Pixels

  • A Picture is Worth a Thousand Words: Language Models Plan from Pixels [53.9]
    計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。 本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
    論文  参考訳(メタデータ)   (Thu, 16 Mar 2023 02:02:18 GMT)
  • Visualプロンプトによる計画作成。PLMをうまく使うためソフトプロンプトの形でデータを扱っているよう
  • 言語モデルか?という感じの使い方もかなりうまく動く報告が多くて面白い。GPT-4ではマルチモーダル対応でもう少しうまく取り合変えそう(将来的にはTextlessNLPっぽく扱ったりするんだろうか。)

TASKOGRAPHY, SCRUB, SEEK

Inner Monologue: 大規模言語モデルの計画への利用

  • Inner Monologue: Embodied Reasoning through Planning with Language Models [81.1]
    大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。 具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。 環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
    論文  参考訳(メタデータ)   (Tue, 12 Jul 2022 15:20:48 GMT)

ロボットへの自然言語によるフィードバック

  • Correcting Robot Plans with Natural Language Feedback [88.9]
     既存の補正方法(例えばジョイスティックの使用やエンドエフェクターの直接操作など)は完全な遠隔操作やリアルタイム操作を必要とする。 本稿では,ロボット訂正のための表現的かつ柔軟なツールとして自然言語を探索する。これらの変換により、ユーザは目標を正し、ロボットの動きを更新し、計画上のエラーから回復できる。 本手法により,シミュレーション環境や実環境において,複数の制約を合成し,未知のシーン,オブジェクト,文に一般化することが可能となる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 11 Apr 2022 15:22:43 GMT)
    • 自然言語でロボットにフィードバックするという未来を感じる研究。