In-Context Pretraining – arXiv最新論文の紹介

In-Context Pretraining: Language Modeling Beyond Document Boundaries [140.8]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文参考訳（メタデータ） (Mon, 16 Oct 2023 17:57:12 GMT)
通常の事前学習ではランダムに文書をシャッフルしたデータを使用するが、同じコンテキストに同様の文書が入るよう調整して事前学習する手法の提案
LLaMAアーキテクチャ、7Bまでのサイズで有効性を確認とのこと。（128 A100 GPUs で9日かかるとのことで検証もとても大変。。）

コメントを残す

コメントを残す コメントをキャンセル