ビデオ – ページ 2 – arXiv最新論文の紹介

DOVE（Deformable Objects from VidEos）: 単一2次元画像からの3次元形状の推定（鳥）

DOVE: Learning Deformable 3D Objects by Watching Videos [89.4]
本研究では,鳥の単一2次元画像から3次元標準形状,変形,視点,テクスチャの予測を学習するDOVEを提案する。本手法は時間的に一貫した3次元形状と変形を再構成し,任意の視点から鳥をアニメーション化し再レンダリングする。
論文参考訳（メタデータ）参考訳（全文） (Thu, 22 Jul 2021 17:58:10 GMT)
2次元画像から鳥の3次元形状を得る研究でビデオクリップ（＋基本形状などの事前知識＋パイプライン）を用いてデータ量の問題を改善しようとするもの。デモのビデオが面白い。
Videoはhttps://dove3d.github.io/から確認可能。コードもリリース予定とのこと。

QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries [89.2]
Query-based Video Highlights (QVHighlights) データセットを提示する。これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。データセット内の各ビデオには、(1)人が書いた自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5点満点のsaliencyスコアが注釈付けされている。
論文参考訳（メタデータ） (Tue, 20 Jul 2021 16:42:58 GMT)
- 自然言語クエリに基づくビデオ検索（シーン検索）のデータセット。1万映像と規模が大きい。ドメインは日常＆旅行のvlogとnews。
- リポジトリはhttps://github.com/jayleicn/moment_detr

A Survey on Deep Learning Technique for Video Segmentation [147.1]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文参考訳（メタデータ） (Fri, 2 Jul 2021 15:51:07 GMT)
- Deep Learningを用いたビデオセグメンテーションに関するサーベイ。自動運転など応用範囲の広いタスクのサーベイで非常に有用。
- 引用数260と幅広い。アーキテクチャの変遷が興味深い。

CLIP-It! Language-Guided Video Summarization [96.7]
この作業では、一般的性とクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。本モデルは教師なしの設定に拡張することができる。標準ビデオ要約データセット (tvsum と summe) とクエリ指向ビデオ要約データセット (qfvs) の両方において,ベースラインと先行作業とを有意差で上回っている。本手法は強い一般化能力を示すため,転送設定の大幅な改善を実現した。
論文参考訳（メタデータ）参考訳（全文） (Thu, 1 Jul 2021 17:59:27 GMT)
- ビデオの各フレームをキャプショニング、スコアリングしてフレームからキーショットを選択。エンコーディングにCLIPを利用すると優れた性能が出せるとのこと。
- コード等はhttps://medhini.github.io/clip_it/で（後日）確認可能。

MERLOT: Multimodal Neural Script Knowledge Models [74.1]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。 MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。 Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文参考訳（メタデータ） (Fri, 4 Jun 2021 17:57:39 GMT)
- マルチモーダル事前学習モデル。ファインチューニングによって多くのタスクでsota。性能の向上幅も大きい。