- TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration [33.9]
視覚言語基礎モデル(CLIPなど)は、大規模な画像テキスト事前学習により、転送学習におけるその能力を示している。 本稿では,分離されたエージェントの知識を統一的に伝達する,汎用的で簡潔なTransAgentフレームワークを提案する。 われわれのTransAgentは、11の視覚的認識データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (Wed, 16 Oct 2024 03:01:44 GMT) - エージェンティックなモデルの統合、「By adaptively integrating the external knowledge of agents from different modalities via MoA gating mechanism, TransAgent achieves state-of-the-art performance on 11 datasets under the low-shot scenarios.」とのこと。
- リポジトリはGitHub – markywg/transagent: [NeurIPS 2024] TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration
タグ: Agent
OS-COPILOT/FRIDAY (Fully Responsive Intelligence, Devoted to Assisting You)とUFO(UI-Focused)
コンピュータ操作を含むエージェントに関する論文が2つ出ていた。LLMを用いた自律エージェント系の研究が非常に盛ん。
- OS-Copilot: Towards Generalist Computer Agents with Self-Improvement [48.3]
オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。 我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。 一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
論文 参考訳(メタデータ) (Mon, 12 Feb 2024 07:29:22 GMT) - OS操作のためのフレームワークと自己改善型エージェントFRIDAYの提案。GAIA: A Benchmark for General AI Assistants – arXiv最新論文の紹介 (devneko.jp)のスコアはGPT-4 PluginsやAuto GPT-4を大きく上回る。
- リポジトリはOS-Copilot: Towards Generalist Computer Agents with Self-Improvement
- UFO: A UI-Focused Agent for Windows OS Interaction [42.0]
われわれは,Windows OS上のアプリケーションに適したユーザ要求を満たす,革新的なUIフォーカスエージェントであるUFOを紹介した。 UFOはデュアルエージェントフレームワークを使用して、グラフィカルユーザインタフェース(GUI)を注意深く観察し、分析し、Windowsアプリケーションの情報を制御する。 我々は9つの人気のあるWindowsアプリケーションでUFOのテストを行い、ユーザの日々の使用を反映したさまざまなシナリオを網羅した。
論文 参考訳(メタデータ) (Thu, 8 Feb 2024 15:40:35 GMT) - Microsoftによるエージェント。GPT-Visionを活用する方式。
- リポジトリはmicrosoft/UFO: A UI-Focused Agent for Windows OS Interaction. (github.com)
CivRealm
- CivRealm: A Learning and Reasoning Odyssey in Civilization for Decision-Making Agents [63.8]
文明ゲームに触発された環境であるCivRealmを紹介する。 CivRealmは、意思決定エージェントにとってユニークな学習と推論の課題である。
論文 参考訳(メタデータ) (Fri, 19 Jan 2024 09:14:11 GMT) - AIがプレイするFreeciv ベースの環境の提案、当然だが現状で解くのは簡単ではない。AutoGPTを階層的に束ねた手法でも海賊への対策に失敗するとのこと。「The performance contrast between Mastaba and BaseLang highlights the necessity of a hierarchical decision architecture for tackling the complex scenarios presented by CivRealm.」というのはとても興味深い(人間の社会を見ているよう・・・)
- リポジトリはbigai-ai/civrealm: CivRealm is an interactive environment for the open-source strategy game Freeciv-web based on Freeciv, a Civilization-inspired game. (github.com)