Klarna Product Page Dataset:現実に近いWEBページのデータセット

  • The Klarna Product Page Dataset: A RealisticBenchmark for Web Representation Learning [60.5]
    本稿では,DOM木要素表現学習の未探索問題に対処する。 一般的なグラフベースのニューラルネットワークモデルを適用して、WebサイトDOMツリーに要素を埋め込むようにします。 ウェブページの大規模かつ現実的なデータセットを提示する。
    論文  参考訳(メタデータ)   (Wed, 3 Nov 2021 12:13:52 GMT)
    • 製品紹介のWEBページに対してアノテーションを行ったデータセット。8言語、8Kサイト、51Kページと規模が大きい。複数アルゴリズムでの評価結果も参考になる。
    • リポジトリはhttps://github.com/klarna/product-page-dataset、データのライセンスはCreative Commons BY-NC-SA licenseとのこと。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です