動画 – arXiv最新論文の紹介

VidChapters-7M

VidChapters-7M: Video Chapters at Scale [110.2]
VidChapters-7Mは、合計で7M章を含む817万のユーザチャプター付きビデオのデータセットである。 VidChapters-7Mは、ユーザーが注釈を付けた章をスクラップすることで、オンラインビデオから自動的にスケーラブルな方法で作成される。 VidChapters-7Mの事前トレーニングは、ゼロショットと微調整の両方で、高密度な映像キャプションタスクに適していることを示す。
論文参考訳（メタデータ） (Mon, 25 Sep 2023 08:38:11 GMT)
ビデオチャプタ生成を対象としたデータセット
プロジェクトサイトはVidChapters-7M: Video Chapters at Scale (antoyang.github.io)

Edit-A-Video: Single Video Editing with Object-Aware Consistency [21.0]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文参考訳（メタデータ） (Thu, 23 Mar 2023 03:04:45 GMT)
テキストによる動画編集。「人間がギターを弾いているビデオ」＋「“a bear is playing a guitar”」という入力で、ギターを弾いている人をクマに変更ができる。
画像でできたことは動画でもできる、というのはわかるがとても面白い。
プロジェクトサイトはEdit-A-Video<span>:</span> Single Video Editing with Object-Aware Consistency

SAIL-VOS 3D: A Synthetic Dataset and Baselines for Object Detection and 3D Mesh Reconstruction from Video Data [124.3]
sail-vos 3d: フレーム毎のメッシュアノテーションを備えた合成ビデオデータセット。また,時間モデルによる映像データから3次元メッシュを再構成するための最初のベースラインを開発した。
論文参考訳（メタデータ） (Tue, 18 May 2021 15:42:37 GMT)
- 時間方向も使って動画像からオブジェクト認識をするのは自然な発想。こういうこともできるようになってきたのだと感慨深い。
- http://sailvos.web.illinois.edu/_site/index.html　で公開予定とのこと。