Benchmarking LLMs’ Swarm intelligence

  • Benchmarking LLMs’ Swarm intelligence [50.5]
    大規模言語モデル(LLM)は複雑な推論の可能性を秘めているが、マルチエージェントシステム(MAS)における創発的協調の能力はほとんど探索されていない。 既存のベンチマークは、エージェントが不完全な時間的情報を扱うときに生じる分散調整のユニークな課題を完全には捉えないことが多い。 分散エージェントとして機能するLLMのSwarmインテリジェンス能力を体系的に評価する新しいベンチマークであるSwarmBenchを紹介する。
    論文  参考訳(メタデータ)   (Wed, 07 May 2025 12:32:01 GMT)
  • 「we introduce SwarmBench, a novel benchmark designed to systematically evaluate the swarm intelligence capabilities of LLMs acting as decentralized agents. SwarmBench features five foundational MAS coordination tasks (Pursuit, Synchronization, For- aging, Flocking, Transport) within a configurable 2D grid environment, forcing agents to rely primarily on local sensory input (k × k view) and local communication.」というベンチマークの提案。
  • リポジトリはGitHub – RUC-GSAI/YuLan-SwarmIntell: 🐝 SwarmBench: Benchmarking LLMs’ Swarm Intelligence

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です