ビデオ – arXiv最新論文の紹介

Finding the Trigger: Causal Abductive Reasoning on Video Events

Finding the Trigger: Causal Abductive Reasoning on Video Events [59.2]
Causal Abductive Reasoning on Video Events (CARVE)は、ビデオ内のイベント間の因果関係を特定する。本稿では、時間空間と意味空間における映像イベントの関係を調査する因果イベント関係ネットワーク(CERN)を提案する。
論文参考訳（メタデータ） (Thu, 16 Jan 2025 05:39:28 GMT)
ビデオ内のイベントとその因果関係を特定、対象イベントの発生を説明する因果連鎖の仮説を生成するタスクCausal Abductive Reasoning on Video Events (CARVE)、データ作成及びそれを解くための Causal Event Relation Network (CERN)を提案。
実用上重要ではあるが難しそうなタスク

xGen-MM-Vid (BLIP-3-Video)

xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs [112.4]
ビデオ用マルチモーダル言語モデルであるxGen-MM-Vid(B-3-Video)を提案する。 BLIP-3-Videoは、従来のビジュアルトークン化器に加えて「時間エンコーダ」を利用する。 BLIP-3-Videoは、より大規模な最先端モデルに匹敵するビデオ質問応答精度が得られることを実験的に確認する。
論文参考訳（メタデータ） (Mon, 21 Oct 2024 17:59:11 GMT)
salesforceによる動画対応マルチモーダルLLM、軽量だが高い性能。
リポジトリはxGen-MM-Vid (BLIP-3-Video)

LongVideoBench

LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文参考訳（メタデータ） (Mon, 22 Jul 2024 16:00:55 GMT)
8-15 seconds, 15-60 seconds, 3-10 minutes, 15-60 minutesと様々な長さのビデオに対するQAベンチマーク。長いフレームを見ないと回答できないことが特徴。
プロジェクトサイトはLongVideoBench

FunQA, Movie101

FunQA: Towards Surprising Video Comprehension [34.3]
本稿では,楽しみビデオに基づく動画推論の深度評価と深度向上を目的としたデータセットFunQAを紹介する。 FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。各サブセットに対して、直感的正当性、詳細な映像記述、反直感性に関する推論におけるモデルの能力を評価するために設計された厳密なQAタスクを確立する。 FunQAベンチマークは4.3Kのビデオクリップから派生した312Kの無料テキストQAペアで構成され、合計24時間に及ぶ。
論文参考訳（メタデータ） (Mon, 26 Jun 2023 17:59:55 GMT)
ビデオへのQAデータセット。QAテキスト自体は問題ないと思うが、ビデオ部分は著作権的に大丈夫なんだろうか？（不明点が多いのでリポジトリへのリンクは貼っていない）

Movie101: A New Movie Understanding Benchmark [47.2]
大規模な中国の映画ベンチマーク「Movie101」を構築した。映画ナレーション評価のためのMNScore(Movie Narration Score)と呼ばれる新しい指標を提案する。両タスクにおいて,提案手法は外部知識をうまく活用し,慎重に設計したベースラインよりも優れた性能を発揮する。
論文参考訳（メタデータ） (Tue, 27 Jun 2023 11:42:44 GMT)
こちらはナレーション作成のタスクを対象とした映画のデータセット
同じく著作権的な疑問点があるためリンクは貼っていない

この手のタスクは重要であり今後有望な分野なのだろうと思うが、既存の映像を使うのはリスクが高い気がする。研究用に頑張って映像から作るしかないのではないかと思わなくはない。

TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency

TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency [133.8]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文参考訳（メタデータ） (Sun, 14 Aug 2022 04:07:40 GMT)
- 調理手順のようなインストラクション用動画のテキスト要約に関する研究。ハンドラベリングが困難な状況を想定しており、疑似的なラベルを利用するなど面白いアプローチを取っている。
- リポジトリはTL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency (medhini.github.io)

MMVID(MultiModal VIDeo generator): マルチモーダルな情報を使ったビデオ合成

Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning [36.9]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文参考訳（メタデータ） (Fri, 4 Mar 2022 21:09:13 GMT)
- テキスト情報、画像、セグメンテーション情報などマルチモーダルな情報を活用したビデオ合成。プロジェクトサイトの動画を見るとよくできていてびっくりする。
- プロジェクトサイトはShow Me What and Tell Me How: Video Synthesis via Multimodal Conditioning (snap-research.github.io)、リポジトリはGitHub – snap-research/MMVID: [CVPR 2022] Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning

VRT(Video Restoration Transformer)

VRT: A Video Restoration Transformer [126.8]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文参考訳（メタデータ） (Fri, 28 Jan 2022 17:54:43 GMT)
- ビデオの超解像技術にTrasnsformerを用いる研究。super-resolution、 deblurring、denoisingで優れた性能を達成とのこと。
- プロジェクトサイトはGitHub – JingyunLiang/VRT: VRT: A Video Restoration Transformer

RSA(Relational Self-Attention): 時空間の関係をリッチにとらえる構造

Relational Self-Attention: What’s Missing in Attention for Video Understanding [52.4]
リレーショナル・セルフアテンション(RSA)と呼ばれるリレーショナル・フィーチャー・トランスフォーメーションを導入する。我々の実験およびアブレーション研究により、RSAネットワークは、畳み込みや自己意図的ネットワークよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (Tue, 2 Nov 2021 15:36:11 GMT)
- コンテンツ間の関連を予測するRelational kernelとコンテンツ間の関連のパターンを提供するRelational contextを組み込んだ構造を用いてビデオ理解タスクでSoTAを主張。

AutoVideo: ビデオからの行動認識AutoML

AutoVideo: An Automated Video Action Recognition System [38.4]
AutoVideoは、自動ビデオアクション認識のためのPythonシステムである。 7つのアクション認識アルゴリズムと様々な前処理モジュールをサポートする。 AutoMLのサーチと簡単に組み合わせることができる。
論文参考訳（メタデータ） (Mon, 9 Aug 2021 17:53:32 GMT)
- ビデオから行動を認識するためのAutoML。画像系のものは多いが動画像を対象としたものは珍しいと思う。
- リポジトリはhttps://github.com/datamllab/autovideo、サポートするアルゴリズムはhttps://github.com/datamllab/autovideo#supported-algorithms

ICDAR 2021 SVTS(Scene Video Text Spotting)のコンペティション

ICDAR 2021 Competition on Scene Video Text Spotting [28.4]
シーンビデオテキストスポッティング(SVTS)は,多くの実環境応用のために非常に重要な研究課題である。本稿では,SVTS コンペティションにおける ICDAR 2021 のデータセット記述,タスク定義,評価プロトコル,結果要約について述べる。
論文参考訳（メタデータ） (Mon, 26 Jul 2021 01:25:57 GMT)
- 動画像からテキストを認識（ビデオテキスト検出やテキストトラッキング）するコンペティションの結果報告。静的なOCRよりも格段に難しいタスク。
- 全24チームが参加したとのこと。上位チームのアプローチは参考になる。Task3 Tencentのチームのアプローチはてんこ盛り感があって凄い。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31