- MAVE: A Product Dataset for Multi-source Attribute Value Extraction [10.4]
製品属性値の抽出をより容易にするための新しいデータセットであるMAVEを紹介する。 MAVEはAmazonページから220万の商品のキュレートされたセットで構成され、1257のユニークなカテゴリに300万の属性値アノテーションがある。 マルチソース製品情報から属性値を効果的に抽出する手法を提案する。
論文 参考訳(メタデータ) (Thu, 16 Dec 2021 06:48:31 GMT)- 商品名や概要、レビューなど商品属性を抽出するタスクのデータセット。220万の商品、1257の商品カテゴリ、300万のアノテーションと大規模。ゼロショットを含めベースラインモデルでの検証が行われており、その結果も参考になる。
- リポジトリはGitHub – google-research-datasets/MAVE: The dataset contains 3 million attribute-value annotations across 1257 unique categories on 2.2 million cleaned Amazon product profiles. It is a large, multi-sourced, diverse dataset for product attribute extraction study.