Data Engineering for Scaling Language Models to 128K Context
Data Engineering for Scaling Language Models to 128K Context [98.4] 本研究では,言語モデルの文脈長を128Kまで拡張するための継続事前学習法について検討する。 長いコンテキストモデリング、特にthe ability to use information at any input locations は、主に大規模事前トレーニングによって既に獲得されている機能であり、この能力は、適切なデータ混合上での軽量な連続的事前トレーニングを通じて、トレーニング中(例えば、4kから128k)において、かなり長いコンテキストに拡張できると仮定する。 我々のレシピは強力なオープンソース長文モデルより優れており、GPT-4 128Kのようなフロンティアモデルとのギャップを埋めている。 論文参考訳(メタデータ) (Thu, 15 Feb 2024 18:19:16 GMT)
長文対応のためのレシピ。「the ability to utilize information at arbitrary locations within the 128K input is already mostly acquired by large-scale pretraining, even for models pretrained on substantially shorter 4K context.」というのは興味深い。