FunQA, Movie101

  • FunQA: Towards Surprising Video Comprehension [34.3]
    本稿では,楽しみビデオに基づく動画推論の深度評価と深度向上を目的としたデータセットFunQAを紹介する。 FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。 各サブセットに対して、直感的正当性、詳細な映像記述、反直感性に関する推論におけるモデルの能力を評価するために設計された厳密なQAタスクを確立する。 FunQAベンチマークは4.3Kのビデオクリップから派生した312Kの無料テキストQAペアで構成され、合計24時間に及ぶ。
    論文  参考訳(メタデータ)   (Mon, 26 Jun 2023 17:59:55 GMT)
  • ビデオへのQAデータセット。QAテキスト自体は問題ないと思うが、ビデオ部分は著作権的に大丈夫なんだろうか?(不明点が多いのでリポジトリへのリンクは貼っていない)
  • Movie101: A New Movie Understanding Benchmark [47.2]
    大規模な中国の映画ベンチマーク「Movie101」を構築した。 映画ナレーション評価のためのMNScore(Movie Narration Score)と呼ばれる新しい指標を提案する。 両タスクにおいて,提案手法は外部知識をうまく活用し,慎重に設計したベースラインよりも優れた性能を発揮する。
    論文  参考訳(メタデータ)   (Tue, 27 Jun 2023 11:42:44 GMT)
  • こちらはナレーション作成のタスクを対象とした映画のデータセット
  • 同じく著作権的な疑問点があるためリンクは貼っていない

この手のタスクは重要であり今後有望な分野なのだろうと思うが、既存の映像を使うのはリスクが高い気がする。研究用に頑張って映像から作るしかないのではないかと思わなくはない。

TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency

  • TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency [133.8]
  • 我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。 既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。 本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
  • 論文  参考訳(メタデータ)   (Sun, 14 Aug 2022 04:07:40 GMT)

MMVID(MultiModal VIDeo generator): マルチモーダルな情報を使ったビデオ合成

VRT(Video Restoration Transformer)

  • VRT: A Video Restoration Transformer [126.8]
    ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。 並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
    論文  参考訳(メタデータ)   (Fri, 28 Jan 2022 17:54:43 GMT)

RSA(Relational Self-Attention): 時空間の関係をリッチにとらえる構造

  • Relational Self-Attention: What’s Missing in Attention for Video Understanding [52.4]
    リレーショナル・セルフアテンション(RSA)と呼ばれるリレーショナル・フィーチャー・トランスフォーメーションを導入する。 我々の実験およびアブレーション研究により、RSAネットワークは、畳み込みや自己意図的ネットワークよりも大幅に優れていることが示された。
    論文  参考訳(メタデータ)   (Tue, 2 Nov 2021 15:36:11 GMT)
    • コンテンツ間の関連を予測するRelational kernelとコンテンツ間の関連のパターンを提供するRelational contextを組み込んだ構造を用いてビデオ理解タスクでSoTAを主張。

AutoVideo: ビデオからの行動認識AutoML

  • AutoVideo: An Automated Video Action Recognition System [38.4]
    AutoVideoは、自動ビデオアクション認識のためのPythonシステムである。 7つのアクション認識アルゴリズムと様々な前処理モジュールをサポートする。 AutoMLのサーチと簡単に組み合わせることができる。
    論文  参考訳(メタデータ)   (Mon, 9 Aug 2021 17:53:32 GMT)

ICDAR 2021 SVTS(Scene Video Text Spotting)のコンペティション

  • ICDAR 2021 Competition on Scene Video Text Spotting [28.4]
    シーンビデオテキストスポッティング(SVTS)は,多くの実環境応用のために非常に重要な研究課題である。 本稿では,SVTS コンペティションにおける ICDAR 2021 のデータセット記述,タスク定義,評価プロトコル,結果要約について述べる。
    論文  参考訳(メタデータ)   (Mon, 26 Jul 2021 01:25:57 GMT)
    • 動画像からテキストを認識(ビデオテキスト検出やテキストトラッキング)するコンペティションの結果報告。静的なOCRよりも格段に難しいタスク。
    • 全24チームが参加したとのこと。上位チームのアプローチは参考になる。Task3 Tencentのチームのアプローチはてんこ盛り感があって凄い。

DOVE(Deformable Objects from VidEos): 単一2次元画像からの3次元形状の推定(鳥)

  • DOVE: Learning Deformable 3D Objects by Watching Videos [89.4]
    本研究では,鳥の単一2次元画像から3次元標準形状,変形,視点,テクスチャの予測を学習するDOVEを提案する。 本手法は時間的に一貫した3次元形状と変形を再構成し,任意の視点から鳥をアニメーション化し再レンダリングする。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 22 Jul 2021 17:58:10 GMT)
  • 2次元画像から鳥の3次元形状を得る研究でビデオクリップ(+基本形状などの事前知識+パイプライン)を用いてデータ量の問題を改善しようとするもの。デモのビデオが面白い。
  • Videoはhttps://dove3d.github.io/から確認可能。コードもリリース予定とのこと。

Query-based Video Highlights (QVHighlights) データセット

  • QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries [89.2]
    Query-based Video Highlights (QVHighlights) データセットを提示する。 これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。 データセット内の各ビデオには、(1)人が書いた自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5点満点のsaliencyスコアが注釈付けされている。
    論文  参考訳(メタデータ)   (Tue, 20 Jul 2021 16:42:58 GMT)
    • 自然言語クエリに基づくビデオ検索(シーン検索)のデータセット。1万映像と規模が大きい。ドメインは日常&旅行のvlogとnews。
    • リポジトリはhttps://github.com/jayleicn/moment_detr

深層学習によるビデオセグメンテーションに関するSurvey

  • A Survey on Deep Learning Technique for Video Segmentation [147.1]
    ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。 ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
    論文  参考訳(メタデータ)   (Fri, 2 Jul 2021 15:51:07 GMT)
    • Deep Learningを用いたビデオセグメンテーションに関するサーベイ。自動運転など応用範囲の広いタスクのサーベイで非常に有用。
    • 引用数260と幅広い。アーキテクチャの変遷が興味深い。