Agent Planning with World Knowledge Model

  • Agent Planning with World Knowledge Model [88.5]
    エージェント計画を容易にするためにパラメトリック世界知識モデル(WKM)を導入する。 我々はWKMを開発し、グローバルな計画と動的状態の知識を導くために、事前のタスク知識を提供する。 我々は、我々のWKMが視覚障害者の試行錯誤と幻覚的行動の問題を効果的に緩和できることを示すために分析を行った。
    論文  参考訳(メタデータ)   (Thu, 23 May 2024 06:03:19 GMT)
  • World Knowledge Modelが計画に有効とのこと。それ自体は納得的でWKMを得るために「Specifically, we first steer the agent model to synthesize task knowledge from the comparison between expert and sampled trajectories. Then we prompt it to summarize state knowledge for each planning step from expert trajectories and combine the previous and next actions to build a state knowledge base. Lastly, we integrate the generated knowledge into expert trajectories and train a WKM.」という手順をとる。この手の設計が重要になっている。
  • リポジトリはhttps://github.com/zjunlp/WKMとのことだが、現時点では404

SGA: Scientific Generative Agent

  • LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.4]
    本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。 本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。 法発見と分子設計における枠組みの有効性を実証するための実験を行った。
    論文  参考訳(メタデータ)   (Thu, 16 May 2024 03:04:10 GMT)
  • 物理的シミュレーションとLLMを組みあわせ科学的発見をおこなうためのフレームワークの提案。「In conclution, we present Scientific Generative Agent, a bilevel optimization framework: LLMs serve as knowledgeable and adaptable thinkers, formulating scientific solutions like physics equations or molecule structures; concurrently, simulations operate as platforms for experimentation, offering observational feedback and optimizing continuous components like physical parameters.」と、LLMが人間的役割を担っている。
  • SORAのような(物理・世界シミュレーターとしての)動画生成モデルと組み合わさると自己完結的に深い思考ができるようになるのだろうか。そこまで行くとAGIの世界になりそうな気がする。。

Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond

  • Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.2]
    一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している 本調査では,世界モデルの最新動向を包括的に調査する。 我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
    論文  参考訳(メタデータ)   (Mon, 06 May 2024 14:37:07 GMT)
  • SoraがWorld simulatorとして機能しうるかは賛否が分かれているが、より広く(自動運転や自律エージェントなど)World simulatorになりうる生成系AIのサーベイ。「we expect world models to possess the ability of counterfactual reasoning, whereby outcomes are inferred through rational imagining.」はその通りで現時点ではまだ困難という印象を受けたが、実現できる未来はすぐだったりするのだろうか。
  • リポジトリも参考になる GitHub – GigaAI-research/General-World-Models-Survey

AgentKit: Flow Engineering with Graphs, not Coding

Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

  • Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.8]
    大規模言語モデルの自己改善のためのAlphaLLMを紹介する。 モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。 実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
    論文  参考訳(メタデータ)   (Thu, 18 Apr 2024 15:21:34 GMT)
  • Monte Carlo Tree Search + LLM、「we use the term option as a search node and propose option-level MCTS where each option represents a sequence of tokens, which can range from multiple tokens to several sentences.」というのが興味深く、性能向上にも寄与

USimAgent

  • USimAgent: Large Language Models for Simulating Search Users [33.2]
    大規模言語モデル(LLM)は、人間レベルの知能をシミュレートする可能性を示している。 本稿では,LLMに基づくユーザ検索行動シミュレータUSimAgentを紹介する。 提案するシミュレータは,検索中のユーザのクエリ,クリック,停止をシミュレートし,完全な検索セッションを生成することができる。
    論文  参考訳(メタデータ)   (Thu, 14 Mar 2024 07:40:54 GMT)
  • 検索を模倣するAgentの提案
  • ぼちぼち検索エンジンをそのまま利用するよりも便利になりつつある気がする、、

TRAD: Thought Retrieval and Aligned Decision

  • TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned Decision [32.2]
    大規模言語モデル(LLM)エージェントは、Webナビゲーションやオンラインショッピングなど、さまざまなタスクのために構築されている。 本稿では,これらの問題に対処するための新しいフレームワーク(TRAD)を提案する。 TRADはThought Retrievalを実行し、思考マッチングによるステップレベルのデモ選択を実現する。 そして、TRADはAligned Decisionを導入し、検索したデモステップを、以前のステップまたはその後のステップで補完する。
    論文  参考訳(メタデータ)   (Sun, 10 Mar 2024 13:58:38 GMT)
  • 現時点で有効そうなアプローチを多く盛り込んだように見えるフレームワーク。「Furthermore, TRAD has been deployed in real-world scenarios of a global business insurance company and improves the success rate of robotic process automation.」というのは凄い。
  • リポジトリはSkyRiver-2000/TRAD-Official: TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned Decision (github.com)

Large Multimodal Agents: A Survey

  • Large Multimodal Agents: A Survey [78.8]
    大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。 本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
    論文  参考訳(メタデータ)   (Fri, 23 Feb 2024 06:04:23 GMT)
  • 研究が流行っているLLM&マルチモーダル&エージェントのサーベイ
  • リポジトリも参考になる jun0wanan/awesome-large-multimodal-agents (github.com)

SheetRM & SheetAgent

  • SheetAgent: A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Models [42.7]
    大規模言語モデル (LLM) は近年, スプレッドシートの自動操作のために試みられているが, 現実的なタスクではまだ研究されていない。 我々は、推論に依存した操作を伴う長い水平および複数カテゴリのタスクを特徴付けるベンチマークであるSheetRMを紹介した。 さらに,LLMのパワーを利用した新しい自律エージェントであるSheetAgentを提案する。
    論文  参考訳(メタデータ)   (Wed, 6 Mar 2024 11:48:08 GMT)
  • Excelのようなスプレッドシートに対するエージェント的動作のベンチマークとエージェントの提案。SheetAgentはPlanner、Informer、Retrieverで構成されPlannerがPythonコード、InformerがSQLを作成するプログラムを介するタイプ。SheetCopilot: Bringing Software Productivity to the Next Level through Large Language Models (sheetcopilot-demo.github.io)より高性能と主張。本件で構築されたベンチマークSheetRM (Spreadsheet Reasoning and Manipulation Benchmark)に対してはSheetCopilotのスコアが悪く、汎用的なエージェントを作る難しさ(対象業務によってアプローチを選ぶ必要性)がよくわかる気がする。
  • リポジトリはSheetAgent: A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Models

KnowAgent

  • KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.1]
    大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。 この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。 我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
    論文  参考訳(メタデータ)   (Tue, 5 Mar 2024 16:39:12 GMT)
  • planning hallucinationへの対策として行動のための知識を計画時に使いパスを作ることで性能を上げるエージェントの提案。パラメータ数が多い(ベースモデルの性能が高い)ほど効果が大きいように見えるのが興味深い。
  • リポジトリはKnowAgent: Knowledge-Augmented Planning for LLM-Based Agents (zjukg.org)