Scaling RL to Long Videos

  • Scaling RL to Long Videos [107.4]
    LongVILA-R1-7B は VideoMME などの長いビデオ QA ベンチマークで高い性能を発揮する。 LongVILA-R1は、視覚言語モデルにおけるロングビデオ推論に向けての第一歩となる。 各種モダリティのRLトレーニングをサポートする,一般公開のためのトレーニングシステムをリリースする。
    論文  参考訳(メタデータ)   (Thu, 10 Jul 2025 17:47:40 GMT)
  • 「(1) a large-scale dataset, LongVideo-Reason, comprising 52K long video QA pairs with high-quality reasoning annotations across diverse domains such as sports, games, and vlogs; (2) a two-stage training pipeline that extends VLMs with chain-of-thought supervised fine-tuning (CoT-SFT) and reinforcement learning (RL); and (3) a training infrastructure for long video RL, named Multi-modal Reinforcement Sequence Parallelism (MR-SP), which incorporates sequence parallelism and a vLLM-based engine tailored for long video, using cached video embeddings for efficient rollout and prefilling.」を使用しての長い動画を理解するためのフレームワークの提案
  • 「Unlike domains such as math or code reasoning, where structured supervision and benchmarks are readily available [7, 8], long video reasoning requires annotating complex temporal dynamics, goals, spatial relations, and narrative elements—often across minutes or hours of footage」と、コード生成や数学的推論とは異なる難しさがある。
  • リポジトリはGitHub – NVlabs/Long-RL: Long-RL: Scaling RL to Long Sequences

Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos

  • Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos [44.4]
    Video-MMMUは、ビデオから知識を取得し、活用するLMMの能力を評価するために設計されたベンチマークである。 Video-MMMUには、300のエキスパートレベルのビデオと、6つの分野にわたる900の人間による注釈付き質問が収集されている。 デルタ知識(Deltaknowledge)は、ビデオ視聴後の性能改善を定量化する。
    論文  参考訳(メタデータ)   (Thu, 23 Jan 2025 16:51:47 GMT)
  • VIDEOなMMMU、Claude 3.5 sonnetの性能が高い。
  • プロジェクトサイトはVideo-MMMU

STAR: A Benchmark for Situated Reasoning in Real-World Videos 

  • STAR: A Benchmark for Situated Reasoning in Real-World Videos [94.8]
    本稿では,実世界のビデオに対して,状況抽象化と論理的質問応答による位置推論能力を評価する新しいベンチマークを提案する。 データセットには、インタラクション、シーケンス、予測、実現可能性の4つのタイプが含まれている。 本稿では,視覚知覚,状況抽象化,言語理解,機能推論を両立させることができる診断型ニューロシンボリックモデルを提案する。
    論文  参考訳(メタデータ)   (Wed, 15 May 2024 21:53:54 GMT)
  • 動画を通したinteraction, sequence, prediction, feasibilityのベンチマーク
  • プロジェクトサイトはSTAR: A Benchmark for Situated Reasoning in Real-World Videos (bobbywu.com)

VidChapters-7M

  • VidChapters-7M: Video Chapters at Scale [110.2]
    VidChapters-7Mは、合計で7M章を含む817万のユーザチャプター付きビデオのデータセットである。 VidChapters-7Mは、ユーザーが注釈を付けた章をスクラップすることで、オンラインビデオから自動的にスケーラブルな方法で作成される。 VidChapters-7Mの事前トレーニングは、ゼロショットと微調整の両方で、高密度な映像キャプションタスクに適していることを示す。
    論文  参考訳(メタデータ)   (Mon, 25 Sep 2023 08:38:11 GMT)
  • ビデオチャプタ生成を対象としたデータセット
  • プロジェクトサイトはVidChapters-7M: Video Chapters at Scale (antoyang.github.io)

Edit-A-Video

  • Edit-A-Video: Single Video Editing with Object-Aware Consistency [21.0]
    本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。 本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。 各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
    論文  参考訳(メタデータ)   (Thu, 23 Mar 2023 03:04:45 GMT)
  • テキストによる動画編集。「人間がギターを弾いているビデオ」+「“a bear is playing a guitar”」という入力で、ギターを弾いている人をクマに変更ができる。
  • 画像でできたことは動画でもできる、というのはわかるがとても面白い。
  • プロジェクトサイトはEdit-A-Video<span>:</span> Single Video Editing with Object-Aware Consistency

動画ー3次元メッシュのデータセット

  • SAIL-VOS 3D: A Synthetic Dataset and Baselines for Object Detection and 3D Mesh Reconstruction from Video Data [124.3]
    sail-vos 3d: フレーム毎のメッシュアノテーションを備えた合成ビデオデータセット。 また,時間モデルによる映像データから3次元メッシュを再構成するための最初のベースラインを開発した。
    論文  参考訳(メタデータ)   (Tue, 18 May 2021 15:42:37 GMT)
    • 時間方向も使って動画像からオブジェクト認識をするのは自然な発想。こういうこともできるようになってきたのだと感慨深い。
    • http://sailvos.web.illinois.edu/_site/index.html で公開予定とのこと。