大規模言語モデルの創発的能力

  • Emergent Abilities of Large Language Models [172.1]
    より小さなモデルには存在しないが、より大きなモデルには存在しない場合、創発する能力を考える。 このような出現の存在は、さらなるスケーリングが言語モデルの機能範囲をさらに拡大することを意味している。
    論文  参考訳(メタデータ)   (Wed, 15 Jun 2022 17:32:01 GMT)
    • 近年の巨大言語モデルはパラメータ数増加により性能が上がることが知られている。その中で一定のパラメータ数を超えた時に劇的な性能向上がみられる事例を扱った論文。これらは「Emergent abilities would not have been directly predicted by extrapolating a scaling law (i.e. consistent performance improvements) from small-scale models.」とのことで予測することが難しい。
    • 論文で挙げられている実例、Beyond the Imitation Game benchmark (BIG-bench) – arXiv最新論文の紹介 (devneko.jp)を合わせて考えるとやはり総合的に人間の能力を抜くようなモデルは意外に早くできてしまうのかもしれない。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です