SYNTHETIC CONTINUED PRETRAINING – arXiv最新論文の紹介

Synthetic continued pretraining [29.7]
与えられた事実を学ぶためには、モデルは数百から数千の多様な表現で訓練されなければならない。本研究では,より学習しやすい大規模コーパスを合成するための合成継続事前学習を提案する。合成データ拡張アルゴリズムであるEntiGraphでこの提案をインスタンス化する。
論文参考訳（メタデータ） (Wed, 11 Sep 2024 17:21:59 GMT)
ナレッジグラフを介して合成データを構築するEntiGraphの提案。「Synthetic continued pretraining with EntiGraph demonstrates consistent scaling in downstream closed-book QA performance up to a 600M token synthetic corpus, whereas baselines such as continued pretraining on the small corpus or synthetic paraphrases show no improvement or asymptote early.」とのことで有効性を確認
抽象的な「知識」を介したほうが、表現の変換よりも良い（学習に利用可能な）情報を提供できるという解釈で良いのだろうか。

コメントを残す

コメントを残す コメントをキャンセル