InternVid

  • InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation [85.8]
    InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。 InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
    論文  参考訳(メタデータ)   (Thu, 13 Jul 2023 17:58:32 GMT)
  • ビデオ-テキストのマルチモーダルデータセット
  • リポジトリはInternVideo/Data/InternVid at main · OpenGVLab/InternVideo · GitHub

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です