WebWalker: Benchmarking LLMs in Web Traversal 

  • WebWalker: Benchmarking LLMs in Web Traversal [55.4]
    WebWalkerQAは,LLMがWebトラバースを実現する能力を評価するためのベンチマークである。 本稿では,WebWalkerを提案する。WebWalkerは,探索的・批判的パラダイムを通じて,人間のようなWebナビゲーションを模倣するマルチエージェントフレームワークである。
    論文  参考訳(メタデータ)   (Mon, 13 Jan 2025 18:58:07 GMT)
  • 「It evaluates the capacity of LLMs to traverse a website’s subpages to extract high-quality data systematically.」というWEBサイトをめぐりながら必要な情報をとれるか否かのベンチマークWebWalkerQAとそれを解くためのマルチエージェントフレームワークWebWalkerの提案。Agenticな動作を行い、かつ、GPT-4oなど先端モデルを使っても解くのが難しいデータセットになっている。(やや意外)
  • プロジェクトサイトはWebWalker、リポジトリはGitHub – Alibaba-NLP/WebWalker: 🌐 WebWaker: Benchmarking LLMs in Web TraversalWebWalkerQALeaderboard – a Hugging Face Space by callanwuもある

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です