Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

  • Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.8]
    我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。 これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 17:54:37 GMT)
  • マルチモーダルエージェントのためのベンチマーク、対象タスクは「494 real-world tasks across the complete data science and engineering workflows (from data warehousing to orchestration)」とこれが自動化されると影響は少なくなさそう(ただしAutoMLなど過去から自動化を目指してきた業務ではある)
  • 「The most advanced VLM (GPT-4V) still performs poorly on Spider2-V (achieving 14.0% success rate), rendering it a very challenging benchmark.」と最新モデルでもスコアはかなり悪い。
  • リポジトリはSpider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です