コンテンツへスキップ
PaLM: Scaling Language Modeling with Pathways [180.7] 我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。 我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。 数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。論文 参考訳(メタデータ) (Tue, 5 Apr 2022 16:11:45 GMT)540-billion parameterで780 billion tokens のデータ& 6144個のTPU v4 を用いて構築された大規模モデル。BIG-benchで平均的な人間のパフォーマンスを上回る。 Discontinuous improvementsとして報告された内容が興味深く、8B→62Bパラメータへの改善と62B→540Bへの改善においてよく報告される“power law”に沿った改善ではない、非連続的な改善が見られたとのこと。 「First, the results presented here suggest that the improvements from scale for few-shot language understanding have not yet plateaued.」とある通りまだ発展が見込めるとのことで面白い。
投稿ナビゲーション