Scaling Laws vs Model Architectures

  • Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling? [91.8]
    本稿では,10種類のモデルアーキテクチャのスケーリング挙動の系統的研究を行う。 アーキテクチャはスケーリングを行う上で重要な考慮事項であり、最高のパフォーマンスモデルが異なるスケールで変動可能であることを示す。
    論文  参考訳(メタデータ)   (Thu, 21 Jul 2022 15:50:22 GMT)
    • アーキテクチャによってスケーリング時の挙動が変わるかを調べた論文。大規模な実験でとても参考になる。直感通り「アーキテクチャはスケーリングを行う上で重要な考慮事項」とのこと。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です