GTA: A Benchmark for General Tool Agents 

  • GTA: A Benchmark for General Tool Agents [32.4]
    229個の実世界のタスクと実行可能なツールチェーンを設計し、主要な大言語モデル(LLM)を評価する。 GPT-4 はタスクの 50% 以下であり,ほとんどの LLM は 25% 以下である。 この評価は、現実シナリオにおける現在のLLMのツール利用能力のボトルネックを明らかにし、汎用ツールエージェントを前進させるための今後の方向性を提供する。
    論文  参考訳(メタデータ)   (Thu, 11 Jul 2024 17:50:09 GMT)
  • リアルなシナリオでツールを利用して問題を解くエージェントの能力を評価するベンチマーク。想定されているツールはOCRやDrawBox、Calculator、TextToImageなど14種類。「Our findings show that realworld user queries are challenging for existing LLMs, with GPT-4 completing less than 50% of the tasks and most LLMs achieving below 25%.」とのこと。
  • リポジトリはGitHub – open-compass/GTA: Official repository for paper “GTA: A Benchmark for General Tool Agents”

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

  • Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.8]
    我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。 これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 17:54:37 GMT)
  • マルチモーダルエージェントのためのベンチマーク、対象タスクは「494 real-world tasks across the complete data science and engineering workflows (from data warehousing to orchestration)」とこれが自動化されると影響は少なくなさそう(ただしAutoMLなど過去から自動化を目指してきた業務ではある)
  • 「The most advanced VLM (GPT-4V) still performs poorly on Spider2-V (achieving 14.0% success rate), rendering it a very challenging benchmark.」と最新モデルでもスコアはかなり悪い。
  • リポジトリはSpider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

Self-Evolving GPT: A Lifelong Autonomous Experiential Learner 

  • Self-Evolving GPT: A Lifelong Autonomous Experiential Learner [40.2]
    大規模言語モデル(LLM)に基づく生涯の自律的経験学習フレームワークを設計する。 自律的に学習し、経験の伝達と帰納を通じて経験を蓄積し、どのような種類の入力質問を分類し、どの蓄積された経験を雇用するかを選択する。 6つのNLPデータセットによる実験結果から,本フレームワークは各中間段階において確実に動作し,GPT-3.5およびGPT-4の性能を効果的に向上することが示された。
    論文  参考訳(メタデータ)   (Fri, 12 Jul 2024 02:49:13 GMT)
  • 自律的に学習、自己改善していけるフレームワークの提案。タスク固有の経験をデータとして蓄積していくタイプのよう
  • fine tuningを行うタイプの手法ではないためGPT-4などAPI経由でも活用可能。Self-ICLなど他の手法と比べ有効性を確認とのこと。

Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents

  • Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents [46.8]
    大規模言語モデル(LLM)は人間とコンピュータの相互作用においてホットスポットとなっている。 Mobile-Benchは、LLMベースのモバイルエージェントの能力を評価するための新しいベンチマークである。
    論文  参考訳(メタデータ)   (Mon, 01 Jul 2024 06:10:01 GMT)
  • モバイルエージェント向けベンチマーク
  • リポジトリはhttps://github.com/XiaoMi/MobileBenchとのこと(arXivへの公開時点では404)

BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science

  • BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science [43.6]
    BioKGBenchはAI駆動型バイオメディカルエージェントの評価ベンチマークである。 私たちはまず『Understanding Literature』を2つの原子能力に分解した。 次に、KGQAとドメインベースのRetrieval-Augmented Generationを用いて、KGCheckと呼ばれる新しいエージェントタスクを定式化する。 2つのアトミックなタスクに対して2万以上のデータを集め、225の高品質なアノテートされたデータをエージェントタスクに対して収集する。
    論文  参考訳(メタデータ)   (Sat, 29 Jun 2024 15:23:28 GMT)
  • biomedical分野向けのAIエージェントベンチマーク。「Knowledge Graph Question Answering」、「Scientific Claim Verification」を基礎的能力としてKGCheckという総合的なタスクを提案
  • リポジトリはGitHub – westlake-autolab/Agent4S-BioKG: Agent4S-BioKG: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science

MMedAgent

  • MMedAgent: Learning to Use Medical Tools with Multi-modal Agent [26.3]
    本報告では,医療分野向けに設計された最初のエージェントである Multi-modal Medical Agent (MMedAgent) を紹介する。 本研究では,7つのタスクを解く6つの医療ツールからなる指導訓練データセットをキュレートし,与えられたタスクに最適なツールをエージェントが選択できるようにする。 MMedAgentは、最先端のオープンソース手法やクローズドソースモデルであるGPT-4oと比較して、様々な医療タスクにおいて優れたパフォーマンスを実現している。
    論文  参考訳(メタデータ)   (Tue, 2 Jul 2024 17:58:23 GMT)
  • マルチモーダルな医療用エージェントの提案、様々なツール(各タスクのSOTAな手法)を使いながら問題を解き優れた性能とのこと

MIRAI: Evaluating LLM Agents for Event Forecasting

  • MIRAI: Evaluating LLM Agents for Event Forecasting [22.5]
    我々は,国際イベントの文脈において,LLMエージェントを時間予測器として評価するための新しいベンチマークであるMIRAIを紹介する。 本ベンチマークでは,歴史的,構造化されたイベントやテキストニュース記事の広範なデータベースにアクセスするためのツールを備えたエージェント環境を特徴とする。 まとめると、MIRAIはエージェントの能力を3つの次元で総合的に評価する。1) 大規模グローバルデータベースから重要な情報を自律的にソースし統合すること、2) ドメイン固有のAPIとツール使用のためのライブラリを使ってコードを書くこと、3) 多様なフォーマットや時間から歴史的知識を共同で引き継ぎ、将来的な事象を正確に予測すること。
    論文  参考訳(メタデータ)   (Mon, 01 Jul 2024 12:22:46 GMT)
  • AIエージェントが未来を予測できるかを測るためのベンチマーク。「We finalized a collection of 991,759 GDELT event records, corresponding to 59,161 unique events and 296,630 unique news articles. Our test set contains 705 query and answer pairs on forecasting an event of given timestamp between two countries, with a 100 balanced test subset.」(GDELT=The GDELT Project)と大規模。
  • リポジトリはMIRAI: Evaluating LLM Agents for Event Forecasting (mirai-llm.github.io)

LLMs assist NLP Researchers: Critique Paper (Meta-)Reviewing 

  • LLMs assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.5]
    大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。 本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。 私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
    論文  参考訳(メタデータ)   (Mon, 24 Jun 2024 01:30:22 GMT)
  • LLMが研究者を支援できるかどうか、レビュワー・メタレビュワーの観点で試行した論文
  • 結論として「Our analysis reveals that while LLMs can generate reviews, they often produce Deficient and paper-unspecific segments, lacking the diversity and constructive feedbacks.Additionally, even state-of-the-art LLMs struggle to assess review deficiencies effectively.」

SeaKR: Self-aware Knowledge Retrieval for Adaptive Retrieval Augmented Generation

AgileCoder

  • AgileCoder: Dynamic Collaborative Agents for Software Development based on Agile Methodology [5.2]
    アジャイル方法論をフレームワークに統合するマルチエージェントシステムであるAgileCoderを提案する。 このシステムは、Product Manager、Developer、Testerといった特定のAMロールを異なるエージェントに割り当て、ユーザ入力に基づいて協調してソフトウェアを開発する。 また、動的コードグラフ生成(Dynamic Code Graph Generator)も導入しています。
    論文  参考訳(メタデータ)   (Sun, 16 Jun 2024 17:57:48 GMT)
  • コード生成においてAgentをAgile的に動かすことが効果的だったという報告。ほんまかいなと思う一方でソフトウエア開発プロセスの評価を定量的にできる可能性があり興味深い。
  • プロジェクトサイトはGitHub – FSoft-AI4Code/AgileCoder: Dynamic Collaborative Agents for Software Development