Scaling Laws of Synthetic Images for Model Training

  • Scaling Laws of Synthetic Images for Model Training … for Now [54.4]
    本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。 合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
    論文  参考訳(メタデータ)   (Thu, 7 Dec 2023 18:59:59 GMT)
  • 合成データを用いた時のスケーリング則の検証。合成データの利用は有望なアプローチである一方で不明点も多く、大規模検証はありがたい。「In supervised settings, synthetic data does not scale as effectively as real data.」というのはまぁそうだろうと思うが、「However, our study also highlights several scenarios where synthetic data proves advantageous: (1) In certain classes, synthetic data demonstrates better scaling behavior compared to real data; (2) Synthetic data is particularly effective when real data is scarce, for instance, in CLIP training with limited datasets; (3) Models trained on synthetic data may exhibit superior generalization to out-of-distribution data.」とのFindingsは重要。
  • リポジトリはGitHub – google-research/syn-rep-learn: Learning from synthetic data – code and models

Efficient Online Data Mixing For Language Model Pre-Training 

  • Efficient Online Data Mixing For Language Model Pre-Training [101.5]
    既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。 一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。 我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
    論文  参考訳(メタデータ)   (Tue, 5 Dec 2023 00:42:35 GMT)
  • 下流タスクに最適な事前学習用データを作るための効率的なアルゴリズムの提案、名前の通りオンラインなアプローチ。DoReMi: Domain Reweighting with Minimax Optimization – arXiv最新論文の紹介 (devneko.jp)からの改善を主張(というか一部は再現できていない?)

Comparing Humans, GPT-4, and GPT-4V On Abstraction and Reasoning Tasks

  • Comparing Humans, GPT-4, and GPT-4V On Abstraction and Reasoning Tasks [53.9]
    GPT-4のテキストのみおよびマルチモーダル版による推論能力の評価を行った。 実験結果から,GPT-4のどちらのバージョンも人間に近いレベルで頑健な抽象化能力を開発していないという結論が得られた。
    論文  参考訳(メタデータ)   (Mon, 11 Dec 2023 23:57:17 GMT)
  • GPT-4Vの抽象化能力の検証、GitHub – victorvikram/ConceptARC: Materials for ConceptARC paperを利用したもので非常に難しいデータセット