GenSim2

  • GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs [38.3]
    GenSim2は、複雑で現実的なシミュレーションタスク作成のためのスケーラブルなフレームワークである。 パイプラインは200のオブジェクトで最大100の調音タスクのデータを生成し、必要な人的労力を減らすことができる。 我々は、生成したデータをゼロショット転送や実世界の収集データとの協調訓練に使用できる、GenSim2の有望な使用法を示す。
    論文  参考訳(メタデータ)   (Fri, 04 Oct 2024 17:51:33 GMT)
  •  (1) task proposal, (2) solver creation, (3) multi-task training, and (4) generalization evaluation and sim-to-real transfer.からなるフレームワークの提案。各所にLLM、MLLMを活用しながらデータ合成を行っていくアプローチ。(NLPのライブラリ gensimではない)
  • プロジェクトサイトはGenSim2: Scaling Robotic Data Generation with Multi-modal and Reasoning LLMs
  • GenSim: A General Social Simulation Platform with Large Language Model based Agents [110.4]
    我々はtextitGenSim と呼ばれる新しい大規模言語モデル (LLM) ベースのシミュレーションプラットフォームを提案する。 我々のプラットフォームは10万のエージェントをサポートし、現実世界のコンテキストで大規模人口をシミュレートする。 我々の知る限り、GenSimは汎用的で大規模で修正可能な社会シミュレーションプラットフォームに向けた最初の一歩である。
    論文  参考訳(メタデータ)   (Sun, 06 Oct 2024 05:02:23 GMT)
  • 大規模なLLM based Agentのシミュレーションプラットフォーム(これもNLPのgemsimではない)
  • リポジトリはGitHub – TangJiakai/GenSim

Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement

  • Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.9]
    G”odel AgentはG”odelマシンにインスパイアされた自己進化型フレームワークである。 G”odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
    論文  参考訳(メタデータ)   (Sun, 06 Oct 2024 10:49:40 GMT)
  • 「we introduce G¨odel Agent, a self-evolving framework inspired by the G¨odel machine, enabling agents to recursively improve themselves without relying on predefined routines or fixed optimization algorithms.」と自己改善していけるエージェントを提案、効果を確認とのこと。エージェント的改善を行っていくフレームワークでLLM自体を改善するような実装ではなさそう。
  • 「Currently, G¨odel Agent is not sufficiently stable and may be prone to error accumulation, hindering its ability to continue self-optimization.」とのことではあるが、この手の研究が進んでいくのは未来を感じる。
  • リポジトリはGitHub – Arvid-pku/Godel_Agent: Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement

DelTA: An Online Document-Level Translation Agent Based on Multi-Level Memory

Agent S: An Open Agentic Framework that Uses Computers Like a Human 

  • Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.2]
    我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。 Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
    論文  参考訳(メタデータ)   (Thu, 10 Oct 2024 17:43:51 GMT)
  • 人が操作するようにコンピュータを操作するエージェントフレームワークの提案
  • リポジトリはGitHub – simular-ai/Agent-S: Official codebase for Agent S, a open agentic framework that uses computers like a human

Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models

  • Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models [85.6]
    具体的計画能力を評価するために設計されたベンチマークデータセットであるCan-Doを紹介する。 私たちのデータセットには400のマルチモーダルサンプルが含まれており、それぞれが自然言語のユーザ指示、環境を描写した視覚イメージ、状態変化、対応するアクションプランで構成されています。 ニューログラウンド(NeuroGround)は、まず認識された環境状態において計画生成を基礎とし、次に象徴的な計画エンジンを活用してモデル生成計画を強化する、ニューログラウンド(NeuroGround)を提案する。
    論文  参考訳(メタデータ)   (Sun, 22 Sep 2024 00:30:11 GMT)
  • 多様なシナリオでの具体的計画能力を測るマルチモーダルなデータセットとこれらを解くためにシンボリックエンジンを活用するNeuroGroundの提案。
  • リポジトリはCan-Do! A Dataset for Embodied Planning with Large Multimodal Models (embodied-planning.github.io)

HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions

  • HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions [76.4]
    本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。 私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。 我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
    論文  参考訳(メタデータ)   (Tue, 24 Sep 2024 19:47:21 GMT)
  • AIエージェントの安全性を確かめるフレームワークの提案
  • プロジェクトサイトはAN ECOSYSTEM FOR SANDBOXING SAFETY RISKS IN HUMAN-AI INTERACTIONS (haicosystem.org)

Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning

  • Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning [78.4]
    Reflective Monte Carlo Tree Search (R-MCTS)は、AIエージェントの能力を高めるために設計された新しいテストタイムアルゴリズムである。 R-MCTSは1)従来のMCTSを拡張し、対照的な反射を取り入れ、エージェントは過去の相互作用から学ぶことができる。 自己学習によりGPT-4oを微調整することでエージェントの性能を向上させる。
    論文  参考訳(メタデータ)   (Wed, 02 Oct 2024 21:42:35 GMT)
  • 「We propose Reflective Monte Carlo Tree Search (R-MCTS), an extension of classic MCTS that improves the agent’s decision making process on the fly by incorporating reflection over its past task executions, and state estimations using multi-agent-debate」というタイプのモンテカルロ木探索の提案と、それによるSFTでベンチマーク結果を改善。ToTや単純なMCTSより優れた結果。
  • リポジトリはjasonyux/RMCTS-self-learning · GitHub

Synatra: Turning Indirect Knowledge into Direct Demonstrations for Digital Agents at Scale

  • Synatra: Turning Indirect Knowledge into Direct Demonstrations for Digital Agents at Scale [97.2]
    LLMは、デジタル環境と対話し、特定の目的を完遂する自律エージェントとして機能する。 デジタルタスクに対する大規模な直接的なデモが欠如していることもあって、正確性はまだ十分ではない。 我々は、この間接的な知識を大規模に直接監督するアプローチであるSynatraを提案する。
    論文  参考訳(メタデータ)   (Tue, 24 Sep 2024 00:51:45 GMT)
  • 複雑なタスクを対象としてAgentがとるべき行動を合成するアプローチの提案。マニュアル等で「キーワードを入力する」と書かれているような曖昧な箇所をLLMで補間することが性能向上寄与するという話のよう。Agentの限界(人間との違い)を感じるとともに合成データの有効性、LLMの強力さを感じる。
  • 「We use 100k such synthetically-created demonstrations to finetune a 7B CodeLlama, and demonstrate that the resulting agent surpasses all comparably sized models on three web-based task benchmarks Mind2Web, MiniWoB++ and WebArena, as well as surpassing GPT-3.5 on WebArena and Mind2Web.」と有効性を確認。「In addition, while synthetic demonstrations prove to be only 3% the cost of human demonstrations (at $0.031 each), we show that the synthetic demonstrations can be more effective than an identical number of human demonstrations collected from limited domains.1」コストパフォーマンスも優れる。
  • リポジトリはSynatra: Turning Indirect Knowledge into Direct Demonstrations for Digital Agents at Scale (oootttyyy.github.io)

Agents in Software Engineering: Survey, Landscape, and Vision 

P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task

  • P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task [94.1]
    Embodied Everyday Taskは、インボディードAIコミュニティで人気のあるタスクである。 自然言語命令は明示的なタスクプランニングを欠くことが多い。 タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。
    論文  参考訳(メタデータ)   (Tue, 17 Sep 2024 15:29:34 GMT)
  • 自然言語の指示と環境情報が与えられた時のエージェント動作(計画など)にRAGを使うアプローチの提案。RAGのデータベースを動的に更新していくものでLLM based Agentsそのものの印象。
  • 感覚的にRetrieveに難しさがありそうだが、「When an agent interacts with the environment during a task, it first receives the environment’s goal instruction 𝐼𝑔 and observation 𝑂𝑡. Then it encodes with MiniLM [31] both of them」とあるがこの方針でうまくいくのかという驚き。