Towards Effective and Efficient Continual Pre-training of Large Language Models 

  • Towards Effective and Efficient Continual Pre-training of Large Language Models [163.3]
    CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。 本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。 バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
    論文  参考訳(メタデータ)   (Fri, 26 Jul 2024 13:55:21 GMT)
  • Llama-3に対して継続学習を実施、中国語能力と科学技術関連の推論能力を強化した報告。合成データを活用している点が興味深い。
  • リポジトリはGitHub – RUC-GSAI/Llama-3-SynE、現時点ではcoming soon

Continual Learning for Large Language Models: A Survey

  • Continual Learning for Large Language Models: A Survey [95.8]
    大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。 本稿では,LLMの連続学習に関する最近の研究について述べる。
    論文  参考訳(メタデータ)   (Fri, 2 Feb 2024 12:34:09 GMT)
  • LLMに対する継続学習のサーベイだが、Continual Pre-training、Continual Instruction Tuning、Continual Alignment と事前学習以後の話題を扱っているのが興味深い。
  • Fact, Domain, Language, Task, Skills, Values, Preferencesのどこを対象としているか表している図2も参考にある(ザックリとしているので異論もあるだろうけど)

Continual Learningのサーベイ

  • Continual Learning: Applications and the Road Forward [111.3]
    継続的学習は、機械学習モデルが、過去に学んだことを忘れずに知識を蓄積することで、新しいデータを継続的に学習できるようにすることを目的としている。 我々は3つの主要な機械学習カンファレンスで発行された最近の連続的な学習論文を調査してステージを設定した。 機械学習における5つのオープンな問題について議論し、継続的学習が必然的にそのソリューションの一部であることを示す。
    論文  参考訳(メタデータ)   (Tue, 21 Nov 2023 15:17:00 GMT)
  • Continual Learningのサーベイ、講演資料が基になっているからか基礎からわかりやすい印象。