ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition 

  • ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition [111.3]
    ActionAtlasは、様々なスポーツのショートビデオを含むビデオ質問応答ベンチマークである。 このデータセットには、56のスポーツで580のユニークなアクションを示す934の動画が含まれており、合計1896のアクションが選択できる。 我々は、このベンチマークでオープンでプロプライエタリな基礎モデルを評価し、最高のモデルであるGPT-4oが45.52%の精度を達成することを発見した。
    論文  参考訳(メタデータ)   (Tue, 08 Oct 2024 07:55:09 GMT)
  • 「The question pinpoints specific individuals, asking which choice “best” describes their action within a certain temporal context.」というデータセット。とても難しく見える。。。
  • プロジェクトサイトはActionAtlas (mrsalehi.github.io)