SOTOPIA

  • SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [110.6]
    人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。 エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。 GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
    論文  参考訳(メタデータ)   (Wed, 18 Oct 2023 02:27:01 GMT)
  • 様々なシナリオでロールプレイをし、社会的知性を測ることができる環境STOPIAとベンチマークSOTOPIA-EVALの提案。人間との比較でGPT-4は優秀ではあるが、GOAL指標(目標の達成度合い)における大きな差と「It is also worth noting that humans on average produce 16.8 words per turn, while GPT-4 produces 45.5 words per turn, which indicates humans are more efficient in social interactions.」という指摘が興味深い。
  • プロジェクトサイトはSotopia

LLM Agent関連(OSS, 音楽, LLM強化, マクロ経済)

最近、LLMをAgentとして使う研究が多く発表されている。LLMのAgents – arXiv最新論文の紹介 (devneko.jp)で取り上げたようにオープンな取り組み、音楽特化のような分野特化の取り組み、LLM自体を強化する取り組み(Llama 2 70Bを強化しgpt-3.5-turbo相当)など様々な研究がある。この分野が社会実装されると影響が大きく要注目。

  • MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models [54.6]
    MusicAgentは、多数の音楽関連ツールと、ユーザの要求に対処するための自律ワークフローを統合している。 このシステムの第一の目的は、AI音楽ツールの複雑さからユーザーを解放し、クリエイティブな側面に集中できるようにすることである。
    論文  参考訳(メタデータ)   (Wed, 18 Oct 2023 13:31:10 GMT)
  • AI+音楽のためのエージェント、分野特化の取り組みは珍しいが1分野に様々なタスクがありツールがありという状況だと非常に役に立つと思う。
  • リポジトリはmuzic/agent at main · microsoft/muzic · GitHub
  • AgentTuning: Enabling Generalized Agent Abilities for LLMs [35.7]
    本稿では,オープンな大規模言語モデルのエージェント能力を高めるための,シンプルで汎用的なAgentTuningを提案する。 我々は、AgentInstructと一般的なドメインからのオープンソース命令を組み合わせることで、ハイブリッドなインストラクションチューニング戦略を採用する。 評価の結果,AgentTuning は汎用能力を損なうことなく LLM のエージェント機能を実現することができることがわかった。
    論文  参考訳(メタデータ)   (Thu, 19 Oct 2023 15:19:53 GMT)
  • 言語モデルのエージェント能力を高めるデータAgentInstructを構築、AgentTuningによってLlama 2 ベースのAgentLMを構築、70Bでgpt-3.5-turbo相当の能力とのこと
  • リポジトリはGitHub – THUDM/AgentTuning: AgentTuning: Enabling Generalized Agent Abilities for LLMs
  • Large Language Model-Empowered Agents for Simulating Macroeconomic Activities [48.6]
    大規模言語モデル(LLM)は、最近、自律的な人間のような特徴を提供することで有名になった。 我々は,人為的な意思決定と適応性を示すために,プロンプトエンジニアリング駆動型LLMエージェントを設計する。 我々の研究は、LLMとその人間的特性に基づいてマクロ経済学をシミュレートする有望な可能性を実証している。
    論文  参考訳(メタデータ)   (Mon, 16 Oct 2023 14:19:40 GMT)
  • マクロ経済シミュレーションへのLLM活用、「Classic macroeconomic phenomena are reproduced and more reasonable compared to traditional rule-based or AI agents.」とのこと。

UniSim: Learning Interactive Real-World Simulators

  • Learning Interactive Real-World Simulators [113.5]
    生成モデルを用いて実世界の相互作用の普遍的シミュレータ(UniSim)を学習する可能性について検討する。 UniSimは、高レベルの命令と低レベルの制御の両方の視覚的結果をシミュレートすることで、人間とエージェントが世界とどのように相互作用するかをエミュレートすることができる。
    論文  参考訳(メタデータ)   (Mon, 9 Oct 2023 19:42:22 GMT)
  • 生成モデルを活用したエージェントをシミュレーション環境を通して学習していく話、強化学習で有力だった方針であり、エージェントの学習にも有望な方針に思える。
  • プロジェクトサイトはUniSim: Learning Interactive Real-World Simulators (universal-simulator.github.io)

ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving

  • ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.8]
    ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。 ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。 TORA-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルであり、GPT-4のCoTよりも大幅に優れている。
    論文  参考訳(メタデータ)   (Fri, 29 Sep 2023 17:59:38 GMT)
  •  Tool-integrated Reasoning Agentを実現するモデルの提案。Promptを工夫するアプローチではなくLlama-2やCodeLLaMAをfine tuningしている。結果、比較的小規模のモデルでも高い性能を達成とのこと。
  • リポジトリはGitHub – microsoft/ToRA: ToRA is a series of Tool-integrated Reasoning LLM Agents designed to solve challenging mathematical reasoning problems by interacting with tools.

Benchmarking Large Language Models As AI Research Agents

  • Benchmarking Large Language Models As AI Research Agents [105.7]
    我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。 我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。 長期計画や幻覚など,LLMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
    論文  参考訳(メタデータ)   (Thu, 5 Oct 2023 04:06:12 GMT)
  • データ処理、アーキテクチャ選択、トレーニングプロセスなど、機械学習パイプライン全体を対象とするエージェント用ベンチマーク。タスクは良く研究されているものKaggleにあるもの最近のタスクなど様々。結果もGPT-4は優れているもののタスク間の差異が大きいように見える。
  • リポジトリはGitHub – snap-stanford/MLAgentBench

MindAgent

  • MindAgent: Emergent Gaming Interaction [103.7]
    大規模言語モデル(LLM)は、マルチエージェントシステムで複雑なスケジューリングを行う能力を持つ。 我々はMindAgentを提案し,ゲームインタラクションにおける創発的能力の評価・調整を行う。
    論文  参考訳(メタデータ)   (Mon, 18 Sep 2023 17:52:22 GMT)
  • CUISINEWORLDという仮想環境をベースとしたマルチエージェント化での計画や人間を含むコラボレーションを対象としたベンチマークの提案。GPT-4の優秀さが際立つ。
  • プロジェクトサイトはMindAgent

Multimodal Foundation Models: From Specialists to General-Purpose Assistants

  • Multimodal Foundation Models: From Specialists to General-Purpose Assistants [187.7]
    専門モデルから汎用アシスタントへの移行に焦点をあて,視覚と視覚言語能力を示すマルチモーダル基礎モデルの分類と進化に関する包括的調査を行う。 対象読者は、コンピュータビジョンの研究者、大学院生、およびビジョン言語によるマルチモーダルコミュニティの専門家である。
    論文  参考訳(メタデータ)   (Mon, 18 Sep 2023 17:56:28 GMT)
  • 特化型モデル → 汎用アシスタントという最近の潮流に関するサーベイ。100ページ近くの分量であり教科書に近い
  • 研究の進展が非常に速い分野でもありとても重要な論文

LLMのAgents

  • Agents: An Open-source Framework for Autonomous Language Agents [97.0]
    我々は、言語エージェントを人工知能への有望な方向と見なしている。 Agentsはオープンソースライブラリで、これらの進歩を広く非専門的な聴衆に開放することを目的としています。
    論文  参考訳(メタデータ)   (Thu, 14 Sep 2023 17:18:25 GMT)
  • オープンソースの言語エージェントフレームワーク
  • リポジトリはGitHub – aiwaves-cn/agents: An Open-source Framework for Autonomous Language Agents、The Agent Hubなる取り組みも予定しているようで期待大

CoALA: Cognitive Architectures for Language Agents

  • Cognitive Architectures for Language Agents [47.0]
    本研究では,言語エージェントのための認知的アーキテクチャ (CoALA) を提案し,推論,基礎化,学習,意思決定の多様な手法を体系化する。
    論文  参考訳(メタデータ)   (Tue, 5 Sep 2023 17:56:20 GMT)
  • 言語エージェントの観点からLLMに関する様々なテクニック・研究を整理しフレームワーク化した論文
  • 「Zero-shot, Few-shot, Zero-shot Chain-of-Thought, Retrieval Augmented Generation, Socratic Models, Self-Critique」のようなテクニックの整理や「SayCan, ReAct, Voyager, Generative Agents, Tree of Thoughts」との比較などLLM周りの様々な取り組みを整理するうえでも参考になる。
  • リポジトリはGitHub – ysymyth/awesome-language-agents: List of language agents based on paper “Cognitive Architectures for Language Agents”

A Survey on Large Language Model based Autonomous Agents

  • A Survey on Large Language Model based Autonomous Agents [107.8]
    大規模言語モデル(LLM)は、人間レベルの知性を達成する上で、顕著な可能性を示している。 本稿では,自律エージェントの分野を包括的観点から体系的に検討する。 社会科学,自然科学,工学の分野におけるLLMベースのAIエージェントの様々な応用について概説する。 
    論文  参考訳(メタデータ)   (Tue, 22 Aug 2023 13:30:37 GMT)
  • LLMを用いたAIエージェントに関するサーベイ。フレームワークとしてprofiling module, memory module, planning module, action moduleでの構成が想定されている。LLM活用が流行ってからエージェントへの応用、さらにそれらのサーベイが出るというスピード感がとても早い。。。
  • 関連するリポジトリが用意されている。https://github.com/Paitesanshi/LLM-Agent-Survey