Larger language models do in-context learning differently

Larger language models do in-context learning differently [93.9]
言語モデルにおけるインコンテキスト学習(ICL)は、セマンティックな事前とインプット・ラベルのマッピングの影響を受けます。ラベルをフリップしたICLと意味的無関係なラベルを持つICLの2つのセットアップについて検討した。
論文参考訳（メタデータ） (Tue, 7 Mar 2023 12:24:17 GMT)
モデルの大きさによってICLの効き方が異なるという論文大きなモデルでは先行的に学んだ知識を上書きできるという事、小さなモデルではそれができないというのは非常に面白い。ICLが「ドメインを限定する」のか「内容を加味して判断している」のかがモデルの大きさによって違う？
十分に大きなモデルでは任意のラベルマッピングを行う能力がある？というのは、本当に新たなことを学んでいけると解釈して良いのだろうか。
なんでこんなことができるんだろう・・・？

コメントを残す

コメントを残す コメントをキャンセル