Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models

  • Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models [85.6]
    具体的計画能力を評価するために設計されたベンチマークデータセットであるCan-Doを紹介する。 私たちのデータセットには400のマルチモーダルサンプルが含まれており、それぞれが自然言語のユーザ指示、環境を描写した視覚イメージ、状態変化、対応するアクションプランで構成されています。 ニューログラウンド(NeuroGround)は、まず認識された環境状態において計画生成を基礎とし、次に象徴的な計画エンジンを活用してモデル生成計画を強化する、ニューログラウンド(NeuroGround)を提案する。
    論文  参考訳(メタデータ)   (Sun, 22 Sep 2024 00:30:11 GMT)
  • 多様なシナリオでの具体的計画能力を測るマルチモーダルなデータセットとこれらを解くためにシンボリックエンジンを活用するNeuroGroundの提案。
  • リポジトリはCan-Do! A Dataset for Embodied Planning with Large Multimodal Models (embodied-planning.github.io)

HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions

  • HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions [76.4]
    本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。 私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。 我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
    論文  参考訳(メタデータ)   (Tue, 24 Sep 2024 19:47:21 GMT)
  • AIエージェントの安全性を確かめるフレームワークの提案
  • プロジェクトサイトはAN ECOSYSTEM FOR SANDBOXING SAFETY RISKS IN HUMAN-AI INTERACTIONS (haicosystem.org)

Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning

  • Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning [78.4]
    Reflective Monte Carlo Tree Search (R-MCTS)は、AIエージェントの能力を高めるために設計された新しいテストタイムアルゴリズムである。 R-MCTSは1)従来のMCTSを拡張し、対照的な反射を取り入れ、エージェントは過去の相互作用から学ぶことができる。 自己学習によりGPT-4oを微調整することでエージェントの性能を向上させる。
    論文  参考訳(メタデータ)   (Wed, 02 Oct 2024 21:42:35 GMT)
  • 「We propose Reflective Monte Carlo Tree Search (R-MCTS), an extension of classic MCTS that improves the agent’s decision making process on the fly by incorporating reflection over its past task executions, and state estimations using multi-agent-debate」というタイプのモンテカルロ木探索の提案と、それによるSFTでベンチマーク結果を改善。ToTや単純なMCTSより優れた結果。
  • リポジトリはjasonyux/RMCTS-self-learning · GitHub

Synatra: Turning Indirect Knowledge into Direct Demonstrations for Digital Agents at Scale

  • Synatra: Turning Indirect Knowledge into Direct Demonstrations for Digital Agents at Scale [97.2]
    LLMは、デジタル環境と対話し、特定の目的を完遂する自律エージェントとして機能する。 デジタルタスクに対する大規模な直接的なデモが欠如していることもあって、正確性はまだ十分ではない。 我々は、この間接的な知識を大規模に直接監督するアプローチであるSynatraを提案する。
    論文  参考訳(メタデータ)   (Tue, 24 Sep 2024 00:51:45 GMT)
  • 複雑なタスクを対象としてAgentがとるべき行動を合成するアプローチの提案。マニュアル等で「キーワードを入力する」と書かれているような曖昧な箇所をLLMで補間することが性能向上寄与するという話のよう。Agentの限界(人間との違い)を感じるとともに合成データの有効性、LLMの強力さを感じる。
  • 「We use 100k such synthetically-created demonstrations to finetune a 7B CodeLlama, and demonstrate that the resulting agent surpasses all comparably sized models on three web-based task benchmarks Mind2Web, MiniWoB++ and WebArena, as well as surpassing GPT-3.5 on WebArena and Mind2Web.」と有効性を確認。「In addition, while synthetic demonstrations prove to be only 3% the cost of human demonstrations (at $0.031 each), we show that the synthetic demonstrations can be more effective than an identical number of human demonstrations collected from limited domains.1」コストパフォーマンスも優れる。
  • リポジトリはSynatra: Turning Indirect Knowledge into Direct Demonstrations for Digital Agents at Scale (oootttyyy.github.io)

Agents in Software Engineering: Survey, Landscape, and Vision 

P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task

  • P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task [94.1]
    Embodied Everyday Taskは、インボディードAIコミュニティで人気のあるタスクである。 自然言語命令は明示的なタスクプランニングを欠くことが多い。 タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。
    論文  参考訳(メタデータ)   (Tue, 17 Sep 2024 15:29:34 GMT)
  • 自然言語の指示と環境情報が与えられた時のエージェント動作(計画など)にRAGを使うアプローチの提案。RAGのデータベースを動的に更新していくものでLLM based Agentsそのものの印象。
  • 感覚的にRetrieveに難しさがありそうだが、「When an agent interacts with the environment during a task, it first receives the environment’s goal instruction 𝐼𝑔 and observation 𝑂𝑡. Then it encodes with MiniLM [31] both of them」とあるがこの方針でうまくいくのかという驚き。

Paper Copilot, TravelAgent

LLMを用いたアプリケーションに近い論文も内部動作・設計を見る上で参考になる。

  • Paper Copilot: A Self-Evolving and Efficient LLM System for Personalized Academic Assistance [14.5]
    本稿では,研究者を支援する自己進化型,効率的なLCMシステムであるPaper Copilotを紹介する。 Paper Copilotはパーソナライズされたリサーチサービスを提供し、リアルタイムで更新されたデータベースを維持する。 本稿では,Paper Copilotの設計と実装について詳述し,パーソナライズされた学術的支援への貢献と研究プロセスの合理化の可能性について述べる。
    論文  参考訳(メタデータ)   (Fri, 06 Sep 2024 20:04:04 GMT)
  • 論文確認用のアシスタント
  • デモシステムはArxivCopilot – a Hugging Face Space by ulab-ai
  • TravelAgent: An AI Assistant for Personalized Travel Planning [36.0]
    大規模言語モデル(LLM)を利用した旅行計画システムであるTravelAgentを紹介する。 TravelAgentはツール使用、推奨、計画、メモリモジュールの4つのモジュールで構成されている。 我々は,TravelAgentの性能を人間とシミュレーションユーザで評価し,その全体的な効果を3つの基準で示し,パーソナライズされたレコメンデーションの精度を確認した。
    論文  参考訳(メタデータ)   (Thu, 12 Sep 2024 14:24:45 GMT)
  • 旅行計画用のエージェント、構築方法など参考になる。

Agent Workflow Memory

  • Agent Workflow Memory [71.8]
    本稿では、一般的に再利用されるルーチンを誘導するAgent Memoryを紹介する。 AWMはベースラインの結果を24.6%、相対的な成功率51.1%で大幅に改善する。 オンラインAWMは、クロスタスク、ウェブサイト、ドメイン評価を強力に一般化する。
    論文  参考訳(メタデータ)   (Wed, 11 Sep 2024 17:21:00 GMT)
  • 「AWM induces workflows from agent trajectories by extracting reusable routines, and then integrates these workflows into agent memory to guide future task-solving processes.」というフレームワークの提案。過去の経験を一般化し貯める動的メモリのイメージで、オフラインシナリオだけでなくオンラインでも有効とのこと。
  • リポジトリはGitHub – zorazrw/agent-workflow-memory: AWM: Agent Workflow Memory

OpenAI o1

先週の最大のニュースは今まで様々なうわさがあった、OpenAI o1 Introducing OpenAI o1 | OpenAIの公開だろう。特にSTEM分野で強力な性能を発揮している。

技術的な情報は公開されていない部分が多いが、Learning to Reason with LLMs | OpenAIに書かれている「Our large-scale reinforcement learning algorithm teaches the model how to think productively using its chain of thought in a highly data-efficient training process. We have found that the performance of o1 consistently improves with more reinforcement learning (train-time compute) and with more time spent thinking (test-time compute). The constraints on scaling this approach differ substantially from those of LLM pretraining, and we are continuing to investigate them.」では自己改善・合成データ活用の流れ(self-X – arXiv最新論文の紹介 (devneko.jp)Synthetic data – arXiv最新論文の紹介 (devneko.jp))に近いのかなと思う。

開発者向けの質問回答では

  • OpenAI o-1はモデルであってシステムではない、(ユーザには見せない)長い推論過程を生成するモデルである
  • GPT-4oのプロンプトエンジニアリングによってOpenAI o-1の性能と競合することはできない
  • RAGはOpenAI o-1においても有効

など興味深い質疑があったよう。詳細の開示はないだろうが、何らかのテクニカルレポートが欲しいところ。現時点では最近の研究動向から大きく外れたものではないし、性能の改善幅や使用感からして大きな驚きはないというのが正直な感想。1モデルにするのが良いのか、システム(Agenticな動作)にしたうえでそれに対応するモデル(Agenticな動きに特化したモデルと、通常の推論に適したモデルなど)の組み合わせのほうが良いのかなど気になるところではある。o-1は前者とのことだが、外部ツール利用を考えたとき制約が大きくなりそうな気がしている。

今後、エージェント的動作を行う場合を含め様々なベンチマークで評価されているのだろうと思うが、CybenchCybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models – arXiv最新論文の紹介 (devneko.jp))では「Subtasks % Solved: Percentage of subtasks solved per task, macro-averaged across the tasks.」が向上している(GPT-4oで負けていたClaude 3.5 Sonnetを抜いた)一方でSuccessRateはGPT-4oに及んでいない。

SYNTHETIC CONTINUED PRETRAINING

  • Synthetic continued pretraining [29.7]
    与えられた事実を学ぶためには、モデルは数百から数千の多様な表現で訓練されなければならない。 本研究では,より学習しやすい大規模コーパスを合成するための合成継続事前学習を提案する。 合成データ拡張アルゴリズムであるEntiGraphでこの提案をインスタンス化する。
    論文  参考訳(メタデータ)   (Wed, 11 Sep 2024 17:21:59 GMT)
  • ナレッジグラフを介して合成データを構築するEntiGraphの提案。「Synthetic continued pretraining with EntiGraph demonstrates consistent scaling in downstream closed-book QA performance up to a 600M token synthetic corpus, whereas baselines such as continued pretraining on the small corpus or synthetic paraphrases show no improvement or asymptote early.」とのことで有効性を確認
  • 抽象的な「知識」を介したほうが、表現の変換よりも良い(学習に利用可能な)情報を提供できるという解釈で良いのだろうか。