- The Klarna Product Page Dataset: A RealisticBenchmark for Web Representation Learning [60.5]
本稿では,DOM木要素表現学習の未探索問題に対処する。 一般的なグラフベースのニューラルネットワークモデルを適用して、WebサイトDOMツリーに要素を埋め込むようにします。 ウェブページの大規模かつ現実的なデータセットを提示する。
論文 参考訳(メタデータ) (Wed, 3 Nov 2021 12:13:52 GMT)- 製品紹介のWEBページに対してアノテーションを行ったデータセット。8言語、8Kサイト、51Kページと規模が大きい。複数アルゴリズムでの評価結果も参考になる。
- リポジトリはhttps://github.com/klarna/product-page-dataset、データのライセンスはCreative Commons BY-NC-SA licenseとのこと。