PaLM: Pathways Language Model

  • PaLM: Scaling Language Modeling with Pathways [180.7]
    我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。 我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。 数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
    論文  参考訳(メタデータ)   (Tue, 5 Apr 2022 16:11:45 GMT)
    • 540-billion parameterで780 billion tokens のデータ& 6144個のTPU v4 を用いて構築された大規模モデル。BIG-benchで平均的な人間のパフォーマンスを上回る。
    • Discontinuous improvementsとして報告された内容が興味深く、8B→62Bパラメータへの改善と62B→540Bへの改善においてよく報告される“power law”に沿った改善ではない、非連続的な改善が見られたとのこと。
    • 「First, the results presented here suggest that the improvements from scale for few-shot language understanding have not yet plateaued.」とある通りまだ発展が見込めるとのことで面白い。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です