Video Graph Transformer (VGT) for Video Quetion Answering (VideoQA)

  • Video Graph Transformer for Video Question Answering [182.1]
    本稿では,ビデオクエリアンサー(VideoQA)のためのビデオグラフ変換器(VGT)モデルを提案する。 事前学習のないシナリオでは,VGTは先行技術よりも動的関係推論に挑戦するビデオQAタスクにおいて,はるかに優れたパフォーマンスが得られることを示す。
    論文  参考訳(メタデータ)   (Tue, 12 Jul 2022 06:51:32 GMT)
    • ビデオに対するQuestion Answeringのため動画像内のオブジェクトのグラフ構造も用いたTransformerを用いているが、こんなことが可能なんだな。。。という感想。
    • リポジトリはhttps://github.com/sail-sg/VGTとのことだが、今は404

SLaK: Sparse Large Kernel Network