Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.8] 我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。 これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。 論文参考訳(メタデータ) (Mon, 15 Jul 2024 17:54:37 GMT)
マルチモーダルエージェントのためのベンチマーク、対象タスクは「494 real-world tasks across the complete data science and engineering workflows (from data warehousing to orchestration)」とこれが自動化されると影響は少なくなさそう(ただしAutoMLなど過去から自動化を目指してきた業務ではある)
「The most advanced VLM (GPT-4V) still performs poorly on Spider2-V (achieving 14.0% success rate), rendering it a very challenging benchmark.」と最新モデルでもスコアはかなり悪い。