What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization
What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization [111.3] 本稿では,インテクスト学習(ICL)の総合的研究を行う。 (a)言語モデルで学習されるICL推定器の種類は? b) ICLを正確に評価するのに適切なパフォーマンス指標と、エラー率について。 (c) トランスフォーマーアーキテクチャはどのようにICLを実現するのか? 答えは a) iclはベイズモデル平均化アルゴリズムを暗黙的に実装していることを示す。 このベイズモデル平均化アルゴリズムは注意機構によっておよそパラメータ化される。 b) ICLのパフォーマンスをオンライン学習の観点から分析し, ICLの入力シーケンス長が$T$である場合に, regret O(1/T)を確立する。 (c) 注意される符号化ベイズモデル平均化アルゴリズムに加えて, 学習モデルと名目モデルとの間の総変動距離は, 近似誤差(1/\sqrt{n_{\mathrm{p}}t_{\mathrm{p}}})$, ここで $n_{\mathrm{p}}$ と $t_{\mathrm{p}}$ はそれぞれトークン列の数とプリトレーニング中の各シーケンスの長さで区切られている。 論文参考訳(メタデータ) (Tue, 30 May 2023 21:23:47 GMT)