- An Expanded Massive Multilingual Dataset for High-Performance Language Technologies [21.4]
高品質な多言語単言語コーパスと並列コーパスのコレクションであるHPLT v2を提案する。 データのモノリンガル部分は193言語をカバーする8Tトークンを含み、並列データは51言語をカバーする380万の文ペアを含む。
論文 参考訳(メタデータ) (Thu, 13 Mar 2025 11:24:09 GMT) - 「The monolingual portion of the data contains 8T tokens covering 193 languages, while the parallel data contains 380M sentence pairs covering 51 languages.」という大規模データセットの提案。「We release HPLT v2 under the permissive Creative Commons Zero (CC0) license and provide the code to replicate our pipeline.」とライセンスはCC zero
- プロジェクトサイトはHPLT – High Performance Language Technologies、リポジトリはGitHub – hplt-project/HPLT-textpipes: Step-by-step schematic description of data processing in HPLT