- Language-Agnostic Website Embedding and Classification [12.9]
92言語で100万以上のWebサイトを持つデータセットをリリースし、Curlieから相対ラベルを収集しました。 ホームページに基づいてWebサイトを分類・埋め込みするマシン学習モデルであるHomepage2Vecを紹介する。 Homepage2Vecは、マクロ平均F1スコア0.90のWebサイトを正しく分類し、低および高ソース言語で安定したパフォーマンスを示す。
論文 参考訳(メタデータ) (Mon, 10 Jan 2022 22:31:48 GMT)- ウェブサイトを分散表現にするHomepage2Vec。多言語(92言語)に対応、日本語も対応しているよう。WEBサイトを扱う場合の前処理に使えるかもしれない。
- リポジトリはGitHub – epfl-dlab/homepage2vec: Language-Agnostic Website Embedding and Classification