Llama 3.1, Mistral Large2, AI models collapse when trained on recursively generated data

Llama3.1が発表された。商用モデルに追いついた公開モデルであり意義は非常に大きい。非商用利用のみであるが、Mistralも強力なモデルMistral Large2を公開している。

Llama 3.1の学習では特にSFT用データとして合成データがうまく用いられているよう。また、「For example, to ensure Llama 3 is not accidentally overfitted on commonly used benchmarks, our pre-training data was procured and processed by a separate team that was strongly incentivized to prevent contamination of that pre-training data with external benchmarks.」という指摘も印象的だった。

上記とは若干論点が異なる気もするが、AI models collapse when trained on recursively generated data | Natureでは「トレーニングにおけるモデル生成コンテンツの無差別使用は、結果のモデルに不可逆的な欠陥を引き起こす。我々は、この効果を「モデル崩壊」と呼び、LLMや変分オートエンコーダで起こりうることを示す。webから収集した大規模データからトレーニングのメリットを維持するためには,真剣に取り組む必要があることを実証する。」と指摘していた。データ合成の悪影響、モデル崩壊についての指摘であり興味深い。

下記のように通常のデータと合成データの混合によってモデル崩壊を避けられるという指摘もある。Data augmentationの限界、機械翻訳だとBack translationの限界のように一定以上の性能向上が無理なのは直観的にはそうだろうと思うが、どの程度までいけるのか気になるところ。

  • Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.7]
    各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。 生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
    論文  参考訳(メタデータ)   (Mon, 29 Apr 2024 23:13:42 GMT)
  • 実証実験および線警戒機においては理論的に「Our findings extend these prior works to show that if data accumulates and models train on a mixture of “real” and synthetic data, model collapse no longer occurs.」、「Together, these results strongly suggest that the “curse of recursion” may not be as dire as had been portrayed – provided we accumulate synthetic data alongside real data, rather than replacing real data by synthetic data only.」と指摘。

Are Large Language Models Capable of Generating Human-Level Narratives?

  • Are Large Language Models Capable of Generating Human-Level Narratives? [114.3]
    本稿ではストーリーテリングにおけるLLMの能力について考察し,物語の展開とプロットの進行に着目した。 本稿では,3つの談話レベルの側面から物語を分析するための新しい計算フレームワークを提案する。 談話機能の明示的な統合は、ニューラルストーリーテリングの40%以上の改善によって示されるように、ストーリーテリングを促進することができることを示す。
    論文  参考訳(メタデータ)   (Thu, 18 Jul 2024 08:02:49 GMT)
  • LLMに物語の理解が可能かの検証。検証しているモデルが若干古めではあるがGemini、Claudeのスコアが高め
  • リポジトリはGitHub – PlusLabNLP/Narrative-Discourse

AlphaProof, AlphaGeometry2

AI achieves silver-medal standard solving
形式的数学推論のための新しい強化学習システムであるalphaproofと,改良されたジオメトリシステムであるalphageometry 2を提案する。これらのシステムは6つ問題のうち4つを解決し今年の国際数学オリンピック(IMO)で、初めて銀メダリストと同じレベルを達成した。IMOは、1959年以来毎年開催される若手数学者の最も古く、最も大きく、最も名高い競技である。フィールドズメダルの受賞者の多くは、数学者にとって最高の栄誉の1つであり、IMOで国を代表している。
AI achieves silver-medal standard solving International Mathematical Olympiad problems – Google DeepMind

Google DeepMindによる発表で、数学オリンピックで銀メダルに相当するAIを構築とのこと。特化したモデルとはいえ数学でトップレベルを達成したのは凄い。

Consent in Crisis: The Rapid Decline of the AI Data Commons 

  • Consent in Crisis: The Rapid Decline of the AI Data Commons [74.7]
    汎用人工知能(AI)システムは、大量の公開Webデータに基づいて構築されている。 我々は,AIトレーニングコーパスに基づくWebドメインに対する同意プロトコルの大規模かつ長期的監査を行う。
    論文  参考訳(メタデータ)   (Sat, 20 Jul 2024 16:50:18 GMT)
  • 「We observe a proliferation of AIspecific clauses to limit use, acute differences in restrictions on AI developers, as well as general inconsistencies between websites’ expressed intentions in their Terms of Service and their robots.txt.」という報告。WEB検索のためのrobots.txtとAI利用のための条項が異なるのはそうだろうと思うし、AI利用だとそもそものトラフィック(や広告閲覧)がオリジナルサイトに行かないので問題が大きい。「Our longitudinal analyses show that in a single year (2023-2024) there has been a rapid crescendo of data restrictions from web sources, rendering ~5%+ of all tokens in C4, or 28%+ of the most actively maintained, critical sources in C4, fully restricted from use.」というのも驚き。
  • リポジトリはGitHub – Data-Provenance-Initiative/Data-Provenance-Collection
  • SearchGPT is a prototype of new AI search features | OpenAIのような動きとも関連し、この手の問題をどう解決していくかはとても重要。

MINITRON / Compact Language Models via Pruning and Knowledge Distillation

  • Compact Language Models via Pruning and Knowledge Distillation [61.6]
    ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。 すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
    論文  参考訳(メタデータ)   (Fri, 19 Jul 2024 21:47:57 GMT)
  • Nemotron 15Bから得られた高性能な8Bモデル及び4Bモデル。pruningとdistillationを組み合わせたベストプラクティスを報告。Gemma2, CriticGPT – arXiv最新論文の紹介 (devneko.jp)のときも蒸留が用いられていたが、大規模なモデルから小規模高性能なモデルを得るような手順が一般的になるのだろうか・・・
  • リポジトリはGitHub – NVlabs/Minitron: A family of compressed models obtained via pruning and knowledge distillation