Data Engineering for Scaling Language Models to 128K Context

  • Data Engineering for Scaling Language Models to 128K Context [98.4]
    本研究では,言語モデルの文脈長を128Kまで拡張するための継続事前学習法について検討する。 長いコンテキストモデリング、特にthe ability to use information at any input locations は、主に大規模事前トレーニングによって既に獲得されている機能であり、この能力は、適切なデータ混合上での軽量な連続的事前トレーニングを通じて、トレーニング中(例えば、4kから128k)において、かなり長いコンテキストに拡張できると仮定する。 我々のレシピは強力なオープンソース長文モデルより優れており、GPT-4 128Kのようなフロンティアモデルとのギャップを埋めている。
    論文  参考訳(メタデータ)   (Thu, 15 Feb 2024 18:19:16 GMT)
  • 長文対応のためのレシピ。「the ability to utilize information at arbitrary locations within the 128K input is already mostly acquired by large-scale pretraining, even for models pretrained on substantially shorter 4K context.」というのは興味深い。
  • リポジトリはFranxYao/Long-Context-Data-Engineering: Implementation of paper Data Engineering for Scaling Language Models to 128K Context (github.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です