マルチモーダルなプレゼンテーションデータセット

  • Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides [57.9]
    学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。 このデータセットには,180時間以上のビデオと9000以上のスライドが,各科目から10人の講師が参加している。 マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
    論文  参考訳(メタデータ)   (Wed, 17 Aug 2022 05:30:18 GMT)
    • 330本・180時間以上の動画、9000以上のスライドからなるデータセット。ライセンスはCC BY-SA-NC。text-to-figure(音声の説明から図を検索)、figure-to-text(図から音声の説明を検索)の検索タスクを前提として設計されているとのこと。既存手法、提案手法とも人間のパフォーマンスとのギャップが大きい。
    • リポジトリはdondongwon/MLPDataset (github.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です