- Video Graph Transformer for Video Question Answering [182.1]
本稿では,ビデオクエリアンサー(VideoQA)のためのビデオグラフ変換器(VGT)モデルを提案する。 事前学習のないシナリオでは,VGTは先行技術よりも動的関係推論に挑戦するビデオQAタスクにおいて,はるかに優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (Tue, 12 Jul 2022 06:51:32 GMT)- ビデオに対するQuestion Answeringのため動画像内のオブジェクトのグラフ構造も用いたTransformerを用いているが、こんなことが可能なんだな。。。という感想。
- リポジトリはhttps://github.com/sail-sg/VGTとのことだが、今は404