CLIP-It!: 言葉でのクエリを用いたビデオ要約

CLIP-It! Language-Guided Video Summarization [96.7]
この作業では、一般的性とクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。本モデルは教師なしの設定に拡張することができる。標準ビデオ要約データセット (tvsum と summe) とクエリ指向ビデオ要約データセット (qfvs) の両方において,ベースラインと先行作業とを有意差で上回っている。本手法は強い一般化能力を示すため,転送設定の大幅な改善を実現した。
論文参考訳（メタデータ）参考訳（全文） (Thu, 1 Jul 2021 17:59:27 GMT)
- ビデオの各フレームをキャプショニング、スコアリングしてフレームからキーショットを選択。エンコーディングにCLIPを利用すると優れた性能が出せるとのこと。
- コード等はhttps://medhini.github.io/clip_it/で（後日）確認可能。

コメントを残す

コメントを残す コメントをキャンセル