- xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs [112.4]
ビデオ用マルチモーダル言語モデルであるxGen-MM-Vid(B-3-Video)を提案する。 BLIP-3-Videoは、従来のビジュアルトークン化器に加えて「時間エンコーダ」を利用する。 BLIP-3-Videoは、より大規模な最先端モデルに匹敵するビデオ質問応答精度が得られることを実験的に確認する。
論文 参考訳(メタデータ) (Mon, 21 Oct 2024 17:59:11 GMT) - salesforceによる動画対応マルチモーダルLLM、軽量だが高い性能。
- リポジトリはxGen-MM-Vid (BLIP-3-Video)
タグ: ビデオ
LongVideoBench
- LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。 私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。 我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (Mon, 22 Jul 2024 16:00:55 GMT) - 8-15 seconds, 15-60 seconds, 3-10 minutes, 15-60 minutesと様々な長さのビデオに対するQAベンチマーク。長いフレームを見ないと回答できないことが特徴。
- プロジェクトサイトはLongVideoBench
FunQA, Movie101
- FunQA: Towards Surprising Video Comprehension [34.3]
本稿では,楽しみビデオに基づく動画推論の深度評価と深度向上を目的としたデータセットFunQAを紹介する。 FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。 各サブセットに対して、直感的正当性、詳細な映像記述、反直感性に関する推論におけるモデルの能力を評価するために設計された厳密なQAタスクを確立する。 FunQAベンチマークは4.3Kのビデオクリップから派生した312Kの無料テキストQAペアで構成され、合計24時間に及ぶ。
論文 参考訳(メタデータ) (Mon, 26 Jun 2023 17:59:55 GMT) - ビデオへのQAデータセット。QAテキスト自体は問題ないと思うが、ビデオ部分は著作権的に大丈夫なんだろうか?(不明点が多いのでリポジトリへのリンクは貼っていない)
- Movie101: A New Movie Understanding Benchmark [47.2]
大規模な中国の映画ベンチマーク「Movie101」を構築した。 映画ナレーション評価のためのMNScore(Movie Narration Score)と呼ばれる新しい指標を提案する。 両タスクにおいて,提案手法は外部知識をうまく活用し,慎重に設計したベースラインよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (Tue, 27 Jun 2023 11:42:44 GMT) - こちらはナレーション作成のタスクを対象とした映画のデータセット
- 同じく著作権的な疑問点があるためリンクは貼っていない
この手のタスクは重要であり今後有望な分野なのだろうと思うが、既存の映像を使うのはリスクが高い気がする。研究用に頑張って映像から作るしかないのではないかと思わなくはない。
TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency
- TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency [133.8]
- 我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。 既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。 本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
- 論文 参考訳(メタデータ) (Sun, 14 Aug 2022 04:07:40 GMT)
- 調理手順のようなインストラクション用動画のテキスト要約に関する研究。ハンドラベリングが困難な状況を想定しており、疑似的なラベルを利用するなど面白いアプローチを取っている。
- リポジトリはTL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency (medhini.github.io)
MMVID(MultiModal VIDeo generator): マルチモーダルな情報を使ったビデオ合成
- Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning [36.9]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。 本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。 我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (Fri, 4 Mar 2022 21:09:13 GMT)- テキスト情報、画像、セグメンテーション情報などマルチモーダルな情報を活用したビデオ合成。プロジェクトサイトの動画を見るとよくできていてびっくりする。
- プロジェクトサイトはShow Me What and Tell Me How: Video Synthesis via Multimodal Conditioning (snap-research.github.io)、リポジトリはGitHub – snap-research/MMVID: [CVPR 2022] Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning
VRT(Video Restoration Transformer)
- VRT: A Video Restoration Transformer [126.8]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。 並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (Fri, 28 Jan 2022 17:54:43 GMT)- ビデオの超解像技術にTrasnsformerを用いる研究。super-resolution、 deblurring、denoisingで優れた性能を達成とのこと。
- プロジェクトサイトはGitHub – JingyunLiang/VRT: VRT: A Video Restoration Transformer
RSA(Relational Self-Attention): 時空間の関係をリッチにとらえる構造
- Relational Self-Attention: What’s Missing in Attention for Video Understanding [52.4]
リレーショナル・セルフアテンション(RSA)と呼ばれるリレーショナル・フィーチャー・トランスフォーメーションを導入する。 我々の実験およびアブレーション研究により、RSAネットワークは、畳み込みや自己意図的ネットワークよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (Tue, 2 Nov 2021 15:36:11 GMT)- コンテンツ間の関連を予測するRelational kernelとコンテンツ間の関連のパターンを提供するRelational contextを組み込んだ構造を用いてビデオ理解タスクでSoTAを主張。
AutoVideo: ビデオからの行動認識AutoML
- AutoVideo: An Automated Video Action Recognition System [38.4]
AutoVideoは、自動ビデオアクション認識のためのPythonシステムである。 7つのアクション認識アルゴリズムと様々な前処理モジュールをサポートする。 AutoMLのサーチと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (Mon, 9 Aug 2021 17:53:32 GMT)- ビデオから行動を認識するためのAutoML。画像系のものは多いが動画像を対象としたものは珍しいと思う。
- リポジトリはhttps://github.com/datamllab/autovideo、サポートするアルゴリズムはhttps://github.com/datamllab/autovideo#supported-algorithms
ICDAR 2021 SVTS(Scene Video Text Spotting)のコンペティション
- ICDAR 2021 Competition on Scene Video Text Spotting [28.4]
シーンビデオテキストスポッティング(SVTS)は,多くの実環境応用のために非常に重要な研究課題である。 本稿では,SVTS コンペティションにおける ICDAR 2021 のデータセット記述,タスク定義,評価プロトコル,結果要約について述べる。
論文 参考訳(メタデータ) (Mon, 26 Jul 2021 01:25:57 GMT)- 動画像からテキストを認識(ビデオテキスト検出やテキストトラッキング)するコンペティションの結果報告。静的なOCRよりも格段に難しいタスク。
- 全24チームが参加したとのこと。上位チームのアプローチは参考になる。Task3 Tencentのチームのアプローチはてんこ盛り感があって凄い。
DOVE(Deformable Objects from VidEos): 単一2次元画像からの3次元形状の推定(鳥)
- DOVE: Learning Deformable 3D Objects by Watching Videos [89.4]
本研究では,鳥の単一2次元画像から3次元標準形状,変形,視点,テクスチャの予測を学習するDOVEを提案する。 本手法は時間的に一貫した3次元形状と変形を再構成し,任意の視点から鳥をアニメーション化し再レンダリングする。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 22 Jul 2021 17:58:10 GMT) - 2次元画像から鳥の3次元形状を得る研究でビデオクリップ(+基本形状などの事前知識+パイプライン)を用いてデータ量の問題を改善しようとするもの。デモのビデオが面白い。
- Videoはhttps://dove3d.github.io/から確認可能。コードもリリース予定とのこと。