Scaling Laws of Synthetic Images for Model Training

  • Scaling Laws of Synthetic Images for Model Training … for Now [54.4]
    本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。 合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
    論文  参考訳(メタデータ)   (Thu, 7 Dec 2023 18:59:59 GMT)
  • 合成データを用いた時のスケーリング則の検証。合成データの利用は有望なアプローチである一方で不明点も多く、大規模検証はありがたい。「In supervised settings, synthetic data does not scale as effectively as real data.」というのはまぁそうだろうと思うが、「However, our study also highlights several scenarios where synthetic data proves advantageous: (1) In certain classes, synthetic data demonstrates better scaling behavior compared to real data; (2) Synthetic data is particularly effective when real data is scarce, for instance, in CLIP training with limited datasets; (3) Models trained on synthetic data may exhibit superior generalization to out-of-distribution data.」とのFindingsは重要。
  • リポジトリはGitHub – google-research/syn-rep-learn: Learning from synthetic data – code and models

Inverse Scaling

  • Inverse Scaling: When Bigger Isn’t Better [65.0]
    大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。 我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
    論文  参考訳(メタデータ)   (Thu, 15 Jun 2023 20:11:23 GMT)
  • 大規模言語モデルでTraining FLOPs(モデルパラメータとも相関)が拡大するにつれ通常とは逆にスコアが悪化するタスクの例と分析、 the Inverse Scaling Prize (§2)の分析
  • U字型だけでなく逆U字型のグラフになるタスクがあるのが興味深い。
  • リポジトリはGitHub – inverse-scaling/prize: A prize for finding tasks that cause large language models to show inverse scaling

機械翻訳におけるScaling Law

  • Scaling Laws for Multilingual Neural Machine Translation [45.6]
    モデルサイズの増加がモデル性能に与える影響について検討し,スケーリング行動におけるトレーニング混合物組成の役割について検討した。 学習混合物中の個々の言語ペアの重み付けの変化は,スケーリング法則の乗法的要因にのみ影響することがわかった。 我々は、どんな言語重み付けでも訓練された多言語モデルの性能を予測するために、我々の観測を活用している。
    論文  参考訳(メタデータ)   (Sun, 19 Feb 2023 18:43:24 GMT)
  • マルチリンガルな機械翻訳におけるScaling Lawの検証結果。興味深い結果が多いが近しい言語のマルチリンガル翻訳は効果が大きいという説に対して「(En→{De, Fr})への翻訳を訓練したモデルと、非関連言語(En→{De, Zh})で訓練したモデルのスケーリング挙動に有意な差はみられない。」という結果は面白い。
  • staka/takomt · Hugging Faceとか個人でやるには結構大変で当面はJA⇔ENに注力しようと思っているがとても面白い論文。

Scaling Laws for Generative Mixed-Modal Language Models

  • Scaling Laws for Generative Mixed-Modal Language Models [103.3]
    個別のモダリティの貢献とそれら間の相互作用を統一する混合モードスケーリング法則について報告する。 具体的には、過去のユニモーダルスケーリング法則に対する加算項として、データとモデルサイズによる最適シナジーと競合を明示的にモデル化する。 また,訓練中に観察される4つの経験的現象,例えば,自然にモダリティを交互に交互に行う創発的コーディネート・アセット・スタイル・トレーニングを見出した。
    論文  参考訳(メタデータ)   (Tue, 10 Jan 2023 00:20:06 GMT)

Scaling Laws vs Model Architectures

  • Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling? [91.8]
    本稿では,10種類のモデルアーキテクチャのスケーリング挙動の系統的研究を行う。 アーキテクチャはスケーリングを行う上で重要な考慮事項であり、最高のパフォーマンスモデルが異なるスケールで変動可能であることを示す。
    論文  参考訳(メタデータ)   (Thu, 21 Jul 2022 15:50:22 GMT)
    • アーキテクチャによってスケーリング時の挙動が変わるかを調べた論文。大規模な実験でとても参考になる。直感通り「アーキテクチャはスケーリングを行う上で重要な考慮事項」とのこと。

Beyond neural scaling laws

  • Beyond neural scaling laws: beating power law scaling via data pruning [37.8]広範囲に観察されたニューラルネットワークのスケーリング法則では、トレーニングセットのサイズやモデルサイズに応じてディープラーニングのパフォーマンスが大幅に向上している。しかし、スケーリングによるこれらの改善は計算とエネルギーにかなりのコストを必要とする。 ここでは、高品質なデータプルーニングメトリックにアクセスできれば、指数的スケーリングに縮小できることを示す。
    論文  参考訳(メタデータ)   (Wed, 29 Jun 2022 09:20:47 GMT)
    • 通常、学習データセット内のデータには冗長なものが多く、それらをうまく扱うことでScaling lawを超えた学習が可能であるとの指摘。理論解析、実証とも行っており非常に興味深い内容。

NLPデータセットに対するScaling Law

  • Scaling Laws Under the Microscope: Predicting Transformer Performance from Small Scale Experiments [42.8]
    本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。 スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。 スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
    論文  参考訳(メタデータ)   (Sun, 13 Feb 2022 19:13:00 GMT)
    • SST-2、QNLI、MRPC、RACE、SQuAD 1.1、SQuAD 2.0、BoolQ、CoLA 、MNLIに対してパラメータ数と性能の関係を調査、Scaling Lawsは大規模化した際のパフォーマンス予測に有用では?との結論
      • ネットワークアーキテクチャやデータにもよるんじゃないかとも思いつつ、実験結果は興味深い

ニューラル機械翻訳におけるScaling Law、クロスエントロピーと翻訳の質

  • Scaling Laws for Neural Machine Translation [21.8]
    モデルサイズ関数としてのクロスエントロピー損失は, あるスケーリング法則に従うことを示す。 また,クロスエントロピー損失と翻訳の質との関係についても検討した。
    論文  参考訳(メタデータ)   (Thu, 16 Sep 2021 06:15:20 GMT)
    • ニューラル機械翻訳におけるモデルサイズとモデル品質の関係を検証した論文。エンコーダとデコーダに着目した場合はそれなりにうまくいく式が導出できたとのこと(逆に言うとモデル内パラメータ総数との関係は十分に明らかとは言えない)。それによって最適なサイズを決められる。
      • デコーダの層数よりもエンコーダの層数を多くした方が良いのでは?という議論が裏付けられている。
    • Target言語→Src言語でテストセットを作った場合はモデルサイズの増加がlossとBLEU双方が改善され、逆の場合はlossが改善する一方でBLEUの改善は頭打ちになる。
      • 機械翻訳の多様性の欠如を示しているのでは。とのこと。(同時にBack Translationが一定程度有効という裏付けでもある。)
    • WEBからのクロールデータで機械翻訳モデルを作る際、WEBデータに機械翻訳によるテキストが多数入っている事の問題も指摘している。特にリソースの少ない言語ではすでに問題になっているとの指摘。
      • FuguMTではある程度はフィルタリングしている。テキストの類似性を見るようなアプローチは効果が薄く、URLや原文の構成単語に頼る方がよかったりするので簡単ではないとの印象。
      • 機械翻訳を行っているサイトにつけるフラグとかあったら知りたい。