ELLE(Efficient Lifelong Pre-training for Emerging Data): 新たなデータの発生を考慮したPLM

ELLE: Efficient Lifelong Pre-training for Emerging Data [91.5]
現在の訓練済み言語モデル(PLM)は、静的なデータでトレーニングされるが、現実のシナリオでは、様々なソースのストリーミングデータが継続的に成長する可能性がある。新興データに対する効率的な生涯事前学習を目的としたELLEを提案する。 ELLEは,(1)既存のPLMの幅と深さを柔軟に拡張して知識獲得の効率を向上する機能保持モデル展開と,(2)事前学習時に学習した多目的知識を混乱させ,下流タスクの適切な知識を刺激する事前学習ドメインプロンプトから構成される。
論文参考訳（メタデータ） (Sat, 12 Mar 2022 01:53:53 GMT)
- 特に言語モデルで問題となる新たなデータに対する継続的な学習（ここではLifelong learning）に関する論文。計算コスト等を下げる効率的な枠組みを提案。既存の言語モデルの幅や深さ（パラメータ数）を拡大する際に効率化が可能とのこと。
  - 新たなデータを獲得するたびにモデルサイズも拡張していく設定がリアル。。。
- リポジトリはGitHub – thunlp/ELLE

コメントを残す

コメントを残す コメントをキャンセル