- Amazon-M2: A Multilingual Multi-locale Shopping Session Dataset for Recommendation and Text Generation [109.5]
Amazon Multi-locale Shopping Sessionデータセット、すなわちAmazon-M2を提示します。 6つの異なるローカライズされた数百万のユーザセッションからなる、最初の多言語データセットである。 注目すべきは、データセットがパーソナライズとユーザの好みの理解を高めるのに役立つことだ。
論文 参考訳(メタデータ) (Wed, 19 Jul 2023 00:08:49 GMT) - Amazonの購買データセットでKDD CUP 2023で用いられたもの。多言語対応で日本語が入っている点が興味深い。
- プロジェクトサイトはKDD Cup 2023 Workshop: Multilingual Session Recommendation Challenge (kddcup23.github.io)とのこと。コンペティション上位のソリューションは確認したいところ。
日: 2023年7月26日
InternVid
- InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation [85.8]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。 InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (Thu, 13 Jul 2023 17:58:32 GMT) - ビデオ-テキストのマルチモーダルデータセット
- リポジトリはInternVideo/Data/InternVid at main · OpenGVLab/InternVideo · GitHub