- TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency [133.8]
- 我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。 既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。 本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
- 論文 参考訳(メタデータ) (Sun, 14 Aug 2022 04:07:40 GMT)
- 調理手順のようなインストラクション用動画のテキスト要約に関する研究。ハンドラベリングが困難な状況を想定しており、疑似的なラベルを利用するなど面白いアプローチを取っている。
- リポジトリはTL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency (medhini.github.io)