Agent Planning with World Knowledge Model

  • Agent Planning with World Knowledge Model [88.5]
    エージェント計画を容易にするためにパラメトリック世界知識モデル(WKM)を導入する。 我々はWKMを開発し、グローバルな計画と動的状態の知識を導くために、事前のタスク知識を提供する。 我々は、我々のWKMが視覚障害者の試行錯誤と幻覚的行動の問題を効果的に緩和できることを示すために分析を行った。
    論文  参考訳(メタデータ)   (Thu, 23 May 2024 06:03:19 GMT)
  • World Knowledge Modelが計画に有効とのこと。それ自体は納得的でWKMを得るために「Specifically, we first steer the agent model to synthesize task knowledge from the comparison between expert and sampled trajectories. Then we prompt it to summarize state knowledge for each planning step from expert trajectories and combine the previous and next actions to build a state knowledge base. Lastly, we integrate the generated knowledge into expert trajectories and train a WKM.」という手順をとる。この手の設計が重要になっている。
  • リポジトリはhttps://github.com/zjunlp/WKMとのことだが、現時点では404

Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks

  • Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.3]
    Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。 PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
    論文  参考訳(メタデータ)   (Thu, 02 May 2024 17:59:31 GMT)
  • 今なお難しい長期計画のためのフレームワークの提案。自然言語による高レベルな計画と、それを実現するための「Sequencing Module 」「Learning Module」からなる。
  • リポジトリはPlan-Seq-Learn (mihdalal.github.io)

TPTU-v2

  • TPTU-v2: Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems [25.9]
    本稿では,大規模言語モデル(LLM)のタスク計画・ツール利用(TPTU)能力の向上を目的とした包括的フレームワークを提案する。 このフレームワークは、これらの課題に対処するために設計された3つの重要なコンポーネントで構成されている。(1) API Retrieverは、利用可能な広範囲な配列の中で、ユーザタスクに最も関連するAPIを選択し、(2) LLM Finetunerは、タスク計画とAPI呼び出しにより適するように、ベースLSMをチューニングし、(3)Demo Selectorは、難しいAPIに関連するさまざまなデモを適応的に検索する。
    論文  参考訳(メタデータ)   (Sun, 19 Nov 2023 12:37:30 GMT)
  • TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents – arXiv最新論文の紹介 (devneko.jp)のv2、3ヶ月で更新という今のスピード感。
  • API Retriever、LLM Finetuner、Demo Selectorからなる構成、ToolBenchの結果は高いように思えるが詳細な情報が欲しいところ。。

TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents

  • TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents [17.2]
    大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。 LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。 本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
    論文  参考訳(メタデータ)   (Mon, 7 Aug 2023 09:22:03 GMT)
  • LLM-based AI AgentsのTPTU(Task Planning and Tool Usage)能力を測るフレームワークの提案。実務上も有用で未来を感じる能力。現状では商用製品(ChatGPT、Claude)が強い。

A Picture is Worth a Thousand Words: Language Models Plan from Pixels

  • A Picture is Worth a Thousand Words: Language Models Plan from Pixels [53.9]
    計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。 本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
    論文  参考訳(メタデータ)   (Thu, 16 Mar 2023 02:02:18 GMT)
  • Visualプロンプトによる計画作成。PLMをうまく使うためソフトプロンプトの形でデータを扱っているよう
  • 言語モデルか?という感じの使い方もかなりうまく動く報告が多くて面白い。GPT-4ではマルチモーダル対応でもう少しうまく取り合変えそう(将来的にはTextlessNLPっぽく扱ったりするんだろうか。)

TASKOGRAPHY, SCRUB, SEEK

Inner Monologue: 大規模言語モデルの計画への利用

  • Inner Monologue: Embodied Reasoning through Planning with Language Models [81.1]
    大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。 具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。 環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
    論文  参考訳(メタデータ)   (Tue, 12 Jul 2022 15:20:48 GMT)

ロボットへの自然言語によるフィードバック

  • Correcting Robot Plans with Natural Language Feedback [88.9]
     既存の補正方法(例えばジョイスティックの使用やエンドエフェクターの直接操作など)は完全な遠隔操作やリアルタイム操作を必要とする。 本稿では,ロボット訂正のための表現的かつ柔軟なツールとして自然言語を探索する。これらの変換により、ユーザは目標を正し、ロボットの動きを更新し、計画上のエラーから回復できる。 本手法により,シミュレーション環境や実環境において,複数の制約を合成し,未知のシーン,オブジェクト,文に一般化することが可能となる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 11 Apr 2022 15:22:43 GMT)
    • 自然言語でロボットにフィードバックするという未来を感じる研究。

Language Models as Zero-Shot Planner: LMはタスクをステップに落とせるか?

  • Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents [111.3]
    自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。 事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。 本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
    論文  参考訳(メタデータ)   (Tue, 18 Jan 2022 18:59:45 GMT)
  • 大規模言語モデルを用いて「歯を磨く」というタスクを「①浴室に行く」「②ドアを開ける」・・・のようにステップに落とせるか?に対する論文。一定の補正を加えることで79%で実行可能となるとのこと。VirtualHome (virtual-home.org)による可視化が面白い。
  • プロジェクトサイトはLanguage Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents (wenlong.page)