- InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation [85.8]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。 InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (Thu, 13 Jul 2023 17:58:32 GMT) - ビデオ-テキストのマルチモーダルデータセット
- リポジトリはInternVideo/Data/InternVid at main · OpenGVLab/InternVideo · GitHub