- Datasets for Large Language Models: A Comprehensive Survey [37.2]
この調査は、LLMデータセットの基本的側面を5つの観点から統合し、分類する。 この調査は、一般的な課題を浮き彫りにし、今後の調査への道のりを指摘している。 調査対象のデータサイズは、事前トレーニングのコーパスが774.5TB、他のデータセットが700万インスタンスを超えている。
論文 参考訳(メタデータ) (Wed, 28 Feb 2024 04:35:51 GMT) - LLM向けデータセットのサーベイ。日本語を含むものはあれど、日本語をターゲットに作られたものは少ない。
- リポジトリはlmmlzn/Awesome-LLMs-Datasets: Summarize existing representative LLMs text datasets. (github.com)