Towards Effective and Efficient Continual Pre-training of Large Language Models

Towards Effective and Efficient Continual Pre-training of Large Language Models [163.3]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文参考訳（メタデータ） (Fri, 26 Jul 2024 13:55:21 GMT)
Llama-3に対して継続学習を実施、中国語能力と科学技術関連の推論能力を強化した報告。合成データを活用している点が興味深い。
リポジトリはGitHub – RUC-GSAI/Llama-3-SynE、現時点ではcoming soon

コメントを残す

コメントを残す コメントをキャンセル