- AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [77.0]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。 本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文 参考訳(メタデータ) (Wed, 24 Jan 2024 01:51:00 GMT) - LLMエージェントの分析的評価のためのフレームワーク
- 対象タスクは9つ。Embodied AI / AlfWorld, ScienceWorld, BabyAI、Game / Jericho, PDDL、Web / WebShop, WebArena、Tool / Tool-Query, Tool-Operation。論文で比べられているものの中ではGPT-4の性能が圧倒的。
- リポジトリはhkust-nlp/AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents (github.com)、リーダーボードはResult | AgentBoard: An Analytical Evaluation Board of Multi-Turn LLM Agents (hkust-nlp.github.io)