Book Corpusのデータシート

  • Addressing “Documentation Debt” in Machine Learning Research: A Retrospective Datasheet for BookCorpus [1.3]
    BookCorpusは、大規模な言語モデルをトレーニングするための人気のテキストデータセットです。 BookCorpusは多くの書籍の著作権制限に違反している。 BookCorpusはジャンル表現において大きな歪みを見せている。
    論文  参考訳(メタデータ)   (Tue, 11 May 2021 17:59:23 GMT)
    • Book Corpusデータセットの問題を指摘する論文。正直、ライセンス的に大丈夫か不安になるデータセットは少なくないので注意すべき内容。