Video – ページ 2 – arXiv最新論文の紹介

CelebV-HQ

CelebV-HQ: A Large-Scale Video Facial Attributes Dataset [94.3]
CelebV-HQには35,666本のビデオクリップがあり、解像度は少なくとも512×512で、15,653個のIDが含まれている。年齢、民族性、明るさ安定性、動きのスムーズさ、頭部の多様性、データ品質の観点から包括的な分析を行う。その汎用性とポテンシャルは、2つの代表的タスク、すなわち無条件映像生成とビデオ顔属性編集において検証される。
論文参考訳（メタデータ） (Mon, 25 Jul 2022 17:57:07 GMT)
- 大規模なビデオデータセット、20秒以下の動画、35666個で構成されマニュアルでラベル付けされているのが凄い。
- プロジェクトサイトはCelebV-HQ: A Large-scale Video Facial Attributes Dataset

Video Graph Transformer (VGT) for Video Quetion Answering (VideoQA)

Video Graph Transformer for Video Question Answering [182.1]
本稿では,ビデオクエリアンサー(VideoQA)のためのビデオグラフ変換器(VGT)モデルを提案する。事前学習のないシナリオでは,VGTは先行技術よりも動的関係推論に挑戦するビデオQAタスクにおいて,はるかに優れたパフォーマンスが得られることを示す。
論文参考訳（メタデータ） (Tue, 12 Jul 2022 06:51:32 GMT)
- ビデオに対するQuestion Answeringのため動画像内のオブジェクトのグラフ構造も用いたTransformerを用いているが、こんなことが可能なんだな。。。という感想。
- リポジトリはhttps://github.com/sail-sg/VGTとのことだが、今は404

Video Question Answeringのサーベイ

Video Question Answering: Datasets, Algorithms and Challenges [99.9]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文参考訳（メタデータ）参考訳（全文） (Wed, 2 Mar 2022 16:34:09 GMT)
- Video Question Answeringのサーベイ。かなり新しい分野だと思っていただが、2016年にデータセットが出されていたことに驚いた。

Video Transformerのサーベイ

Video Transformers: A Survey [42.3]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文参考訳（メタデータ） (Sun, 16 Jan 2022 07:31:55 GMT)
- 動画処理にもTransformerが使われていることがよくわかるサーベイ