Common Crawlの分析

  • What’s in the Box? An Analysis of Undesirable Content in the Common Crawl Corpus [77.3]
    言語モデルの訓練に広く使用されるwebコーパスであるcommon crawlを分析した。 ヘイトスピーチや性的明示的なコンテンツなど、フィルタリング処理後も、好ましくないコンテンツがかなりの量含まれていることがわかりました。
    論文  参考訳(メタデータ)   (Thu, 6 May 2021 14:49:43 GMT)
    • クリーニングしても残る問題コンテンツ。翻訳エンジン開発でも大きな課題。