CLIP-It!: 言葉でのクエリを用いたビデオ要約

  • CLIP-It! Language-Guided Video Summarization [96.7]
    この作業では、一般的性とクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。 本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。 本モデルは教師なしの設定に拡張することができる。 標準ビデオ要約データセット (tvsum と summe) とクエリ指向ビデオ要約データセット (qfvs) の両方において,ベースラインと先行作業とを有意差で上回っている。 本手法は強い一般化能力を示すため,転送設定の大幅な改善を実現した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 1 Jul 2021 17:59:27 GMT)
    • ビデオの各フレームをキャプショニング、スコアリングしてフレームからキーショットを選択。エンコーディングにCLIPを利用すると優れた性能が出せるとのこと。

MERLOT: ビデオを用いた大規模事前学習

  • MERLOT: Multimodal Neural Script Knowledge Models [74.1]
    我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。 MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。 Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。 
    論文  参考訳(メタデータ)   (Fri, 4 Jun 2021 17:57:39 GMT)
    • マルチモーダル事前学習モデル。ファインチューニングによって多くのタスクでsota。性能の向上幅も大きい。