- What if LLMs Have Different World Views: Simulating Alien Civilizations with LLM-based Agents [41.7]
コスモアジェント(CosmoAgent)は、人類と地球外文明の複雑な相互作用をシミュレートする人工知能の枠組みである。 目標は、善意の文明を脅かす可能性のあるリスクを考慮しつつ、平和的な共存の実現可能性を評価することである。 この興味深い研究分野のさらなる学術的な調査を可能にするために、コードとデータセットをリリースしました。
論文 参考訳(メタデータ) (Tue, 20 Feb 2024 17:49:46 GMT) - 人類と地球外文明とのコミュニケーションをシミュレーションする環境の提案。論文読んでいても思ったが「Our research faces limitations, including an Earth-centric bias in LLMs that may not capture the full range of alien ethics and decision-making.」はそうだろうと思いつつ、Earth-centric biasはなかなか見ないワード。
- リポジトリはhttps://github.com/agiresearch/AlienAgentとのことだが現時点では404
タグ: Autonomous Agent
Intention-in-Interaction (IN3)とMistral Interact: ユーザに意図を尋ねるAgent
- Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents [110.3]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。 Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。 私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (Thu, 15 Feb 2024 09:59:52 GMT) - ユーザに意図を問う能力を測るベンチマークの提案と、それを解くモデルの開発。GPT-4はそもそもがかなり強力だが、SFTしたMistral-7Bで迫れるというのは興味深い(full-parameter fine-tuning of Mistral-7B on two 80GB A800s、かかった時間は4.5時間とのこと)
- リポジトリはHBX-hbx/Mistral-Interact: Repo for paper “Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents” (github.com)
OS-COPILOT/FRIDAY (Fully Responsive Intelligence, Devoted to Assisting You)とUFO(UI-Focused)
コンピュータ操作を含むエージェントに関する論文が2つ出ていた。LLMを用いた自律エージェント系の研究が非常に盛ん。
- OS-Copilot: Towards Generalist Computer Agents with Self-Improvement [48.3]
オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。 我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。 一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
論文 参考訳(メタデータ) (Mon, 12 Feb 2024 07:29:22 GMT) - OS操作のためのフレームワークと自己改善型エージェントFRIDAYの提案。GAIA: A Benchmark for General AI Assistants – arXiv最新論文の紹介 (devneko.jp)のスコアはGPT-4 PluginsやAuto GPT-4を大きく上回る。
- リポジトリはOS-Copilot: Towards Generalist Computer Agents with Self-Improvement
- UFO: A UI-Focused Agent for Windows OS Interaction [42.0]
われわれは,Windows OS上のアプリケーションに適したユーザ要求を満たす,革新的なUIフォーカスエージェントであるUFOを紹介した。 UFOはデュアルエージェントフレームワークを使用して、グラフィカルユーザインタフェース(GUI)を注意深く観察し、分析し、Windowsアプリケーションの情報を制御する。 我々は9つの人気のあるWindowsアプリケーションでUFOのテストを行い、ユーザの日々の使用を反映したさまざまなシナリオを網羅した。
論文 参考訳(メタデータ) (Thu, 8 Feb 2024 15:40:35 GMT) - Microsoftによるエージェント。GPT-Visionを活用する方式。
- リポジトリはmicrosoft/UFO: A UI-Focused Agent for Windows OS Interaction. (github.com)
Understanding the planning of LLM agents: A survey
- Understanding the planning of LLM agents: A survey [98.8]
本調査では, LLMをベースとしたエージェント計画の体系的考察を行い, 計画能力の向上を目的とした最近の成果について報告する。 各方向について総合的な分析を行い、研究分野におけるさらなる課題について論じる。
論文 参考訳(メタデータ) (Mon, 5 Feb 2024 04:25:24 GMT) - 最近よく見るLLMを利用した自律エージェントのうち計画に関するサーベイ。さらにTask Decomposition, Plan Selection, External Module, Reflection, Memoryに細分化して整理している。実質7ページとよくまとまっているサーベイ。
AgentBoard
- AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [77.0]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。 本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文 参考訳(メタデータ) (Wed, 24 Jan 2024 01:51:00 GMT) - LLMエージェントの分析的評価のためのフレームワーク
- 対象タスクは9つ。Embodied AI / AlfWorld, ScienceWorld, BabyAI、Game / Jericho, PDDL、Web / WebShop, WebArena、Tool / Tool-Query, Tool-Operation。論文で比べられているものの中ではGPT-4の性能が圧倒的。
- リポジトリはhkust-nlp/AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents (github.com)、リーダーボードはResult | AgentBoard: An Analytical Evaluation Board of Multi-Turn LLM Agents (hkust-nlp.github.io)
UltraTool
- Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [96.0]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。 現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。 以前の作業とは異なり、計画中に事前に定義されたツールセットの制限を取り除く。
論文 参考訳(メタデータ) (Tue, 30 Jan 2024 16:52:56 GMT) - ツールの利用計画や実行などエージェント的動作のためのツール利用ベンチマーク。Tool Creationが入っているのが特徴的に思える。
- 現状のベンチマーク結果はさすがのGPT-4という感じではあるが、各モデルに得意不得意があるように見えるのが興味深い。
- リポジトリはJoeYing1019/UltraTool: Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios (github.com)
Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate
- Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.1]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。 フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (Tue, 30 Jan 2024 07:03:32 GMT) - 評価のためにLLMエージェントを多数使い、かつ、人間の評価を取り入れるフレームワークの提案。GPT-4が一強という時代は終わりつつあり、このようなフレームワークでないと正しい性能評価が難しくなってきているのだろうと思う。
- リポジトリはGAIR-NLP/scaleeval: Scalable Meta-Evaluation of LLMs as Evaluators (github.com)
CivRealm
- CivRealm: A Learning and Reasoning Odyssey in Civilization for Decision-Making Agents [63.8]
文明ゲームに触発された環境であるCivRealmを紹介する。 CivRealmは、意思決定エージェントにとってユニークな学習と推論の課題である。
論文 参考訳(メタデータ) (Fri, 19 Jan 2024 09:14:11 GMT) - AIがプレイするFreeciv ベースの環境の提案、当然だが現状で解くのは簡単ではない。AutoGPTを階層的に束ねた手法でも海賊への対策に失敗するとのこと。「The performance contrast between Mastaba and BaseLang highlights the necessity of a hierarchical decision architecture for tackling the complex scenarios presented by CivRealm.」というのはとても興味深い(人間の社会を見ているよう・・・)
- リポジトリはbigai-ai/civrealm: CivRealm is an interactive environment for the open-source strategy game Freeciv-web based on Freeciv, a Civilization-inspired game. (github.com)
CodeAgent
- CodeAgent: Enhancing Code Generation with Tool-Integrated Agent Systems for Real-World Repo-level Coding Challenges [44.0]
大規模言語モデル(LLM)は自動コード生成において有望であるが、通常は単純なタスクでのみ優れている。 私たちの研究は、実世界のリポジトリレベルのコード生成という、より現実的な設定でLLMを評価することに向かっています。 我々は,効率的なリポジトリレベルのコード生成に外部ツールを利用する,新しいLLMベースのエージェントフレームワークであるCodeAgentを紹介する。
論文 参考訳(メタデータ) (Sun, 14 Jan 2024 18:12:03 GMT) - 単純なコード生成ではなく、リポジトリレベルでコードを作成する研究
- 当然ながら(?)高難度でエージェント的な動きが不可欠、今はかなり難しいタスク。この手の研究にトライしようと思えるようになったことに進化を感じる。
- リポジトリはhttps://github.com/zkcpku/CodeAgentとのこと
Self-Rewarding Language Models
- Self-Rewarding Language Models [84.7]
言語モデル自体がLLM-as-a-Judgeを介して使用される自己回帰言語モデルについて検討し、学習中に独自の報酬を提供する。 反復型DPOトレーニングでは,指導の追従能力が向上するだけでなく,高品質な報酬をそれ自体に提供する能力も向上することを示す。
論文 参考訳(メタデータ) (Thu, 18 Jan 2024 14:43:47 GMT) - 自分でInstructionを生成、評価しDPO(Fugu-MT 論文翻訳(概要): Direct Preference Optimization: Your Language Model is Secretly a Reward Model (fugumt.com))するプロセスの提案。3イテレーションでClaude 2, Gemini Pro, GPT-4 0613をアウトパフォーム。
- ReST meets ReAct – arXiv最新論文の紹介 (devneko.jp)の時も思ったが自己改善の動きで面白い。与えた情報を使いつくしていないが故の動きなのか、(さすがにまだなさそうだけど)新たな情報を生み出せているのかなど興味深い。