- PolyLM: An Open Source Polyglot Large Language Model [57.6]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。 その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。 さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (Wed, 12 Jul 2023 09:00:37 GMT) - オープンソースの大規模LLM、日本語にも対応しているようで期待大
- 「POLYLM was trained using Megatron-LM 3 on a cluster of 32 A100 GPU (8×80G) servers. We apply tensor model parallelism within a single node, setting tensor-model-parallel-size as 8. When training a 13B-parameter model, our code processes around 1170 tokens/sec/GPU, thus training over our dataset containing 640B tokens takes approximately 29 days.」 など学習に関する情報もとても有益。
- リポジトリはPolyLM-文本生成模型-多语言-13B · 模型库 (modelscope.cn), HuggingFace DAMO-NLP-MT/polylm-13b · Hugging Face
商用利用可能なLLaMA v2が出るという話もあり、オープンソースなLLMも盛り上がっている。Meta to release open-source commercial AI model to compete with OpenAI and Google | ZDNET