Institutional Books 1.0: A 242B token dataset from Harvard Library’s collections, refined for accuracy and usability
Institutional Books 1.0: A 242B token dataset from Harvard Library’s collections, refined for accuracy and usability [1.3] Institutional Books 1.0は、2006年からHarvard LibraryのGoogle Booksプロジェクトへの参加を通じてデジタル化されたパブリックドメインブックのコレクションである。 ハーバード図書館で作業し、これらの論文を抽出し、分析し、処理し、歴史文書の広範囲に記録されたデータセットにしました。 この分析は、当初250以上の異なる言語で書かれた1,075,899巻に及ぶ、約250億個のトークンをスキャンしたハーバード図書館のコレクション全体をカバーしている。 論文参考訳(メタデータ) (Tue, 10 Jun 2025 00:11:30 GMT)
「OCR-extracted text (original and post-processed) as well as the metadata (bibliographic, source, and generated) of the 983,004 volumes, or 242B tokens, identified as being in the public domain have been made available.」という大規模データ