A Controlled Study on Long Context Extension and Generalization in LLMs
A Controlled Study on Long Context Extension and Generalization in LLMs [85.5] 広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。 長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。 我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。 論文参考訳(メタデータ) (Wed, 18 Sep 2024 17:53:17 GMT)
長文の取り扱いに関する手法の評価、「Our study underscores the role of perplexity as a crucial, performance indicator at length and highlights the trade-offs inherent in different attention mechanisms.」