大規模言語モデルの創発的能力 – arXiv最新論文の紹介

Emergent Abilities of Large Language Models [172.1]
より小さなモデルには存在しないが、より大きなモデルには存在しない場合、創発する能力を考える。このような出現の存在は、さらなるスケーリングが言語モデルの機能範囲をさらに拡大することを意味している。
論文参考訳（メタデータ） (Wed, 15 Jun 2022 17:32:01 GMT)
- 近年の巨大言語モデルはパラメータ数増加により性能が上がることが知られている。その中で一定のパラメータ数を超えた時に劇的な性能向上がみられる事例を扱った論文。これらは「Emergent abilities would not have been directly predicted by extrapolating a scaling law (i.e. consistent performance improvements) from small-scale models.」とのことで予測することが難しい。
- 論文で挙げられている実例、Beyond the Imitation Game benchmark (BIG-bench) – arXiv最新論文の紹介 (devneko.jp)を合わせて考えるとやはり総合的に人間の能力を抜くようなモデルは意外に早くできてしまうのかもしれない。

コメントを残す

コメントを残す コメントをキャンセル