- The ROOTS Search Tool: Data Transparency for LLMs [116.6]
ROOTSは、BLOOMのトレーニング用に開発された1.6TBの多言語テキストコーパスである。 本稿では,ROOTS 検索ツールについて紹介する。ROOTS コーパス全体を対象とした,ファジィかつ正確な検索機能を備えた検索エンジンである。
論文 参考訳(メタデータ) (Mon, 27 Feb 2023 18:45:18 GMT) - 大規模多言語コーパスの検索ツールの紹介
- 残念ながら日本語は対象となっていないデータセットではあるが、検索してみると対訳データなどの形でちょくちょく日本語のテキストが含まれていることが分かる。全体としてどの程度の量が入っているかやそれによって日本語を解釈する能力がどの程度あるのかは興味がある
- リポジトリはRoots Search Tool – a Hugging Face Space by bigscience-data