VideoGLUE – arXiv最新論文の紹介

VideoGLUE: Video General Understanding Evaluation of Foundation Models [89.2]
3つのタスクからなる慎重に設計された実験を用いて,既存の基礎モデルによる映像理解能力の評価を行った。一般的なビデオ理解タスクに適応する際のFMの有効性と効率を測定するために,ビデオGLUEスコア(VGS)を提案する。
論文参考訳（メタデータ） (Thu, 6 Jul 2023 17:47:52 GMT)
ビデオ理解における既存のFoudation Modelの比較、タスクはSpatioTemporal Action Localization (STAL), Temporal Action Localization (TAL), Video Classification (VC)
画像ベースのモデルが良い性能だったりすることがあり興味深い

コメントを残す

コメントを残す コメントをキャンセル