コンテンツへスキップ
- ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition [111.3]
ActionAtlasは、様々なスポーツのショートビデオを含むビデオ質問応答ベンチマークである。 このデータセットには、56のスポーツで580のユニークなアクションを示す934の動画が含まれており、合計1896のアクションが選択できる。 我々は、このベンチマークでオープンでプロプライエタリな基礎モデルを評価し、最高のモデルであるGPT-4oが45.52%の精度を達成することを発見した。
論文 参考訳(メタデータ) (Tue, 08 Oct 2024 07:55:09 GMT)
- 「The question pinpoints specific individuals, asking which choice “best” describes their action within a certain temporal context.」というデータセット。とても難しく見える。。。
- プロジェクトサイトはActionAtlas (mrsalehi.github.io)