ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition
ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition [111.3] ActionAtlasは、様々なスポーツのショートビデオを含むビデオ質問応答ベンチマークである。 このデータセットには、56のスポーツで580のユニークなアクションを示す934の動画が含まれており、合計1896のアクションが選択できる。 我々は、このベンチマークでオープンでプロプライエタリな基礎モデルを評価し、最高のモデルであるGPT-4oが45.52%の精度を達成することを発見した。 論文参考訳(メタデータ) (Tue, 08 Oct 2024 07:55:09 GMT)
「The question pinpoints specific individuals, asking which choice “best” describes their action within a certain temporal context.」というデータセット。とても難しく見える。。。