TRAD: Thought Retrieval and Aligned Decision

  • TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned Decision [32.2]
    大規模言語モデル(LLM)エージェントは、Webナビゲーションやオンラインショッピングなど、さまざまなタスクのために構築されている。 本稿では,これらの問題に対処するための新しいフレームワーク(TRAD)を提案する。 TRADはThought Retrievalを実行し、思考マッチングによるステップレベルのデモ選択を実現する。 そして、TRADはAligned Decisionを導入し、検索したデモステップを、以前のステップまたはその後のステップで補完する。
    論文  参考訳(メタデータ)   (Sun, 10 Mar 2024 13:58:38 GMT)
  • 現時点で有効そうなアプローチを多く盛り込んだように見えるフレームワーク。「Furthermore, TRAD has been deployed in real-world scenarios of a global business insurance company and improves the success rate of robotic process automation.」というのは凄い。
  • リポジトリはSkyRiver-2000/TRAD-Official: TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned Decision (github.com)

Large Multimodal Agents: A Survey

  • Large Multimodal Agents: A Survey [78.8]
    大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。 本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
    論文  参考訳(メタデータ)   (Fri, 23 Feb 2024 06:04:23 GMT)
  • 研究が流行っているLLM&マルチモーダル&エージェントのサーベイ
  • リポジトリも参考になる jun0wanan/awesome-large-multimodal-agents (github.com)

SheetRM & SheetAgent

  • SheetAgent: A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Models [42.7]
    大規模言語モデル (LLM) は近年, スプレッドシートの自動操作のために試みられているが, 現実的なタスクではまだ研究されていない。 我々は、推論に依存した操作を伴う長い水平および複数カテゴリのタスクを特徴付けるベンチマークであるSheetRMを紹介した。 さらに,LLMのパワーを利用した新しい自律エージェントであるSheetAgentを提案する。
    論文  参考訳(メタデータ)   (Wed, 6 Mar 2024 11:48:08 GMT)
  • Excelのようなスプレッドシートに対するエージェント的動作のベンチマークとエージェントの提案。SheetAgentはPlanner、Informer、Retrieverで構成されPlannerがPythonコード、InformerがSQLを作成するプログラムを介するタイプ。SheetCopilot: Bringing Software Productivity to the Next Level through Large Language Models (sheetcopilot-demo.github.io)より高性能と主張。本件で構築されたベンチマークSheetRM (Spreadsheet Reasoning and Manipulation Benchmark)に対してはSheetCopilotのスコアが悪く、汎用的なエージェントを作る難しさ(対象業務によってアプローチを選ぶ必要性)がよくわかる気がする。
  • リポジトリはSheetAgent: A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Models

KnowAgent

  • KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.1]
    大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。 この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。 我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
    論文  参考訳(メタデータ)   (Tue, 5 Mar 2024 16:39:12 GMT)
  • planning hallucinationへの対策として行動のための知識を計画時に使いパスを作ることで性能を上げるエージェントの提案。パラメータ数が多い(ベースモデルの性能が高い)ほど効果が大きいように見えるのが興味深い。
  • リポジトリはKnowAgent: Knowledge-Augmented Planning for LLM-Based Agents (zjukg.org)

PreAct: Predicting Future in ReAct Enhances Agent’s Planning Ability

  • PreAct: Predicting Future in ReAct Enhances Agent’s Planning Ability [24.2]
    これは$textbfpre$dictionと$textbfrea$soningと$textbfact$ionを統合したエージェントフレームワークです。 実験の結果,PreActは複雑なタスクを遂行する上でReActのアプローチよりも優れており,Reflexion法と組み合わせることでPreActを併用できることがわかった。
    論文  参考訳(メタデータ)   (Sun, 18 Feb 2024 10:15:38 GMT)
  • 名前の通りReActの改善提案、 予測を作成し実績の違いから計画を修正させる、ようにActionとObservationにPredictを追加。ベンチマークで効果を確認とのこと。
  • リポジトリはFu-Dayuan/PreAct (github.com)

Formal-LLMとStructured Chain-of-Thought Prompting

  • Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents [42.4]
    大規模言語モデル(LLM)により、AIエージェントは複雑なタスクを解決するためのマルチステッププランを自動的に生成し実行することができる。 しかし、現在のLLMベースのエージェントは、しばしば無効または実行不可能な計画を生成する。 本稿では,自然言語の表現性と形式言語の精度を統合することで,LLMをベースとしたエージェントのための新しいフォーマルLLM’フレームワークを提案する。
    論文  参考訳(メタデータ)   (Sun, 4 Feb 2024 22:16:48 GMT)
  • LLMを用いたAIエージェントと形式言語の融合。「another important problem to explore in the future is LLM plan verification based on formal language.」と書かれている通り形式検証に持ち込めると面白いと思う。
  • リポジトリはagiresearch/Formal-LLM: Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents (github.com)
  • Structured Chain-of-Thought Prompting for Few-Shot Generation of Content-Grounded QA Conversations [13.1]
    本稿では,構造化チェーン・オブ・シークレット (SCoT) を用いて,コンテントグラウンドによる質問応答会話を生成する手法を提案する。 実験の結果,SCoTによる幻覚の緩和は,文書の接地に対するエージェント忠実度を最大16.8%向上させることがわかった。
    論文  参考訳(メタデータ)   (Mon, 19 Feb 2024 01:49:53 GMT)
  • 「At the core of our proposal is a structured breakdown of the complex task into a number of states in a state machine, so that actions corresponding to various subtasks, e g , content reading and utterance generation, can be executed in their own dedicated states.」
  • 上記FormalLLMと組み合わさらないかなと思わなくもない。

GLAN: Generalized Instruction Tuning

  • Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models [153.1]
    GLAN(Generalized Instruction Tuning)は,Large Language Models(LLM)の汎用的かつスケーラブルなチューニング手法である。 GLANは、人間の知識と能力の事前分類を入力として利用し、あらゆる分野にわたる大規模な合成指導データを生成する。 サイラバスの全クラスセッションで詳述された、きめ細かい重要な概念により、私たちは、人間の知識とスキルの全範囲にわたって幅広い範囲をカバーする多様な命令を生成できる。
    論文  参考訳(メタデータ)   (Tue, 20 Feb 2024 15:00:35 GMT)
  • 大規模なinstruction data をLLM自身に合成させる研究。Self-InstrctやEovlve-Instructとは異なり、元データを必要としない。Mistral-7Bをベースとして複数のタスクで既存の結果を上回る。感覚的にはstudent modelを訓練する蒸留にちかいんやろうか。データを作る側を何らかの形で上回れたら面白いが。。
  • リポジトリはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

What if LLMs Have Different World Views: Simulating Alien Civilizations with LLM-based Agents

  • What if LLMs Have Different World Views: Simulating Alien Civilizations with LLM-based Agents [41.7]
    コスモアジェント(CosmoAgent)は、人類と地球外文明の複雑な相互作用をシミュレートする人工知能の枠組みである。 目標は、善意の文明を脅かす可能性のあるリスクを考慮しつつ、平和的な共存の実現可能性を評価することである。 この興味深い研究分野のさらなる学術的な調査を可能にするために、コードとデータセットをリリースしました。
    論文  参考訳(メタデータ)   (Tue, 20 Feb 2024 17:49:46 GMT)
  • 人類と地球外文明とのコミュニケーションをシミュレーションする環境の提案。論文読んでいても思ったが「Our research faces limitations, including an Earth-centric bias in LLMs that may not capture the full range of alien ethics and decision-making.」はそうだろうと思いつつ、Earth-centric biasはなかなか見ないワード。
  • リポジトリはhttps://github.com/agiresearch/AlienAgentとのことだが現時点では404

Intention-in-Interaction (IN3)とMistral Interact: ユーザに意図を尋ねるAgent

  • Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents [110.3]
    現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。 Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。 私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
    論文  参考訳(メタデータ)   (Thu, 15 Feb 2024 09:59:52 GMT)
  • ユーザに意図を問う能力を測るベンチマークの提案と、それを解くモデルの開発。GPT-4はそもそもがかなり強力だが、SFTしたMistral-7Bで迫れるというのは興味深い(full-parameter fine-tuning of Mistral-7B on two 80GB A800s、かかった時間は4.5時間とのこと)
  • リポジトリはHBX-hbx/Mistral-Interact: Repo for paper “Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents” (github.com)

OS-COPILOT/FRIDAY (Fully Responsive Intelligence, Devoted to Assisting You)とUFO(UI-Focused)

コンピュータ操作を含むエージェントに関する論文が2つ出ていた。LLMを用いた自律エージェント系の研究が非常に盛ん。

  • OS-Copilot: Towards Generalist Computer Agents with Self-Improvement [48.3]
    オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。 我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。 一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
    論文  参考訳(メタデータ)   (Mon, 12 Feb 2024 07:29:22 GMT)
  • OS操作のためのフレームワークと自己改善型エージェントFRIDAYの提案。GAIA: A Benchmark for General AI Assistants – arXiv最新論文の紹介 (devneko.jp)のスコアはGPT-4 PluginsやAuto GPT-4を大きく上回る。
  • リポジトリはOS-Copilot: Towards Generalist Computer Agents with Self-Improvement
  • UFO: A UI-Focused Agent for Windows OS Interaction [42.0]
    われわれは,Windows OS上のアプリケーションに適したユーザ要求を満たす,革新的なUIフォーカスエージェントであるUFOを紹介した。 UFOはデュアルエージェントフレームワークを使用して、グラフィカルユーザインタフェース(GUI)を注意深く観察し、分析し、Windowsアプリケーションの情報を制御する。 我々は9つの人気のあるWindowsアプリケーションでUFOのテストを行い、ユーザの日々の使用を反映したさまざまなシナリオを網羅した。
    論文  参考訳(メタデータ)   (Thu, 8 Feb 2024 15:40:35 GMT)
  • Microsoftによるエージェント。GPT-Visionを活用する方式。
  • リポジトリはmicrosoft/UFO: A UI-Focused Agent for Windows OS Interaction. (github.com)