Amazon-M2

  • Amazon-M2: A Multilingual Multi-locale Shopping Session Dataset for Recommendation and Text Generation [109.5]
    Amazon Multi-locale Shopping Sessionデータセット、すなわちAmazon-M2を提示します。 6つの異なるローカライズされた数百万のユーザセッションからなる、最初の多言語データセットである。 注目すべきは、データセットがパーソナライズとユーザの好みの理解を高めるのに役立つことだ。
    論文  参考訳(メタデータ)   (Wed, 19 Jul 2023 00:08:49 GMT)
  • Amazonの購買データセットでKDD CUP 2023で用いられたもの。多言語対応で日本語が入っている点が興味深い。
  • プロジェクトサイトはKDD Cup 2023 Workshop: Multilingual Session Recommendation Challenge (kddcup23.github.io)とのこと。コンペティション上位のソリューションは確認したいところ。

InternVid

  • InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation [85.8]
    InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。 InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
    論文  参考訳(メタデータ)   (Thu, 13 Jul 2023 17:58:32 GMT)
  • ビデオ-テキストのマルチモーダルデータセット
  • リポジトリはInternVideo/Data/InternVid at main · OpenGVLab/InternVideo · GitHub