- WebWalker: Benchmarking LLMs in Web Traversal [55.4]
WebWalkerQAは,LLMがWebトラバースを実現する能力を評価するためのベンチマークである。 本稿では,WebWalkerを提案する。WebWalkerは,探索的・批判的パラダイムを通じて,人間のようなWebナビゲーションを模倣するマルチエージェントフレームワークである。
論文 参考訳(メタデータ) (Mon, 13 Jan 2025 18:58:07 GMT) - 「It evaluates the capacity of LLMs to traverse a website’s subpages to extract high-quality data systematically.」というWEBサイトをめぐりながら必要な情報をとれるか否かのベンチマークWebWalkerQAとそれを解くためのマルチエージェントフレームワークWebWalkerの提案。Agenticな動作を行い、かつ、GPT-4oなど先端モデルを使っても解くのが難しいデータセットになっている。(やや意外)
- プロジェクトサイトはWebWalker、リポジトリはGitHub – Alibaba-NLP/WebWalker: 🌐 WebWaker: Benchmarking LLMs in Web Traversal、WebWalkerQALeaderboard – a Hugging Face Space by callanwuもある