VideoGLUE

  • VideoGLUE: Video General Understanding Evaluation of Foundation Models [89.2]
    3つのタスクからなる慎重に設計された実験を用いて,既存の基礎モデルによる映像理解能力の評価を行った。 一般的なビデオ理解タスクに適応する際のFMの有効性と効率を測定するために,ビデオGLUEスコア(VGS)を提案する。
    論文  参考訳(メタデータ)   (Thu, 6 Jul 2023 17:47:52 GMT)
  • ビデオ理解における既存のFoudation Modelの比較、タスクはSpatioTemporal Action Localization (STAL), Temporal Action Localization (TAL), Video Classification (VC)
  • 画像ベースのモデルが良い性能だったりすることがあり興味深い

Transformerによる映像-言語の事前学習モデルのサーベイ

  • Survey: Transformer based Video-Language Pre-training [28.9]
    本調査は,ビデオ言語学習のためのトランスフォーマーに基づく事前学習手法を概観することを目的としている。 まず、注意機構、位置符号化などを含む背景知識を紹介する。 シングルストリームとマルチストリーム構造に分類し、イノベーションを強調し、パフォーマンスを比較する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 21 Sep 2021 02:36:06 GMT)
    • 映像と言語を扱うTransformerの事前学習に関するサーベイ。モデルだけではなくデータセットも整理されている。16ページと短めだがとても参考になる。CC BYと翻訳可能なライセンスであることもありがたい。(注:残念ながらFuguMTが綺麗に訳せている事は意味しない)