A Survey on Memory-Efficient Large-Scale Model Training in AI for Science 

  • A Survey on Memory-Efficient Large-Scale Model Training in AI for Science [20.3]
    この調査は、生物学、医学、化学、気象学などの科学分野にまたがる応用をレビューする。 本稿では,変圧器アーキテクチャに基づく大規模言語モデル(LLM)のメモリ効率トレーニング手法について概説する。 予測精度を保ちながら,メモリ最適化手法がストレージ需要を削減できることを実証する。
    論文  参考訳(メタデータ)   (Tue, 21 Jan 2025 03:06:30 GMT)
  • 科学への応用にフォーカスしたMemory Efficientなモデルのサーベイ
  • 「Using AlphaFold 2 as an example, we demonstrate how tailored memory optimization methods can reduce storage needs while preserving prediction accuracy.」という内容も。

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning 

Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora 

  • Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [79.0]
    BabyLM Challengeは、人間と計算言語学習者のデータ効率ギャップを埋めるためのコミュニティの取り組みである。 参加者は1億ワード以下の固定言語データ予算で、言語モデルトレーニングを最適化するために競争する。
    論文  参考訳(メタデータ)   (Fri, 06 Dec 2024 16:06:08 GMT)
  • 「Participants could submit to a 10M-word text-only track, a 100Mword text-only track, and/or a 100M-word and image multimodal track.」というデータを制限したコンペの結果
  • 「With 31 submissions from 17 countries, the challenge revealed several key insights: innovations in model architecture, training objectives, and dataset construction proved particularly effective, with GPT-BERT, a hybrid causalmasked language model architecture, emerging as the strongest approach for the Strict and StrictSmall tracks.」とのこと

On Efficient Variants of Segment Anything Model: A Survey 

  • On Efficient Variants of Segment Anything Model: A Survey [63.1]
    Segment Anything Model (SAM) は画像分割タスクの基本モデルであり、多様なアプリケーションにまたがる強力な一般化で知られている。 これを解決するために、精度を犠牲にすることなく効率を高めるために様々なSAM変種が提案されている。 この調査は、これらの効率的なSAM変種に関する最初の包括的なレビューを提供する。
    論文  参考訳(メタデータ)   (Mon, 07 Oct 2024 11:59:54 GMT)
  • SAMのサーベイ
  • 効率化を主体としたものとはいえこれだけの変種があるのに驚き。。

Weak-to-Strong Extrapolation Expedites Alignment

  • Weak-to-Strong Extrapolation Expedites Alignment [135.1]
    人間の嗜好とLLMの整合性を高めるための簡単なExPO法を提案する。 AlpacaEval 2.0ベンチマークでは、ExPOがトレーニングされたモデルに、より好みの少ないデータで到達し、完全にトレーニングされたデータを超えていることが示されています。 本研究は,LLMの能力を利用したモデル外挿の有効性を実証する。
    論文  参考訳(メタデータ)   (Thu, 25 Apr 2024 17:39:50 GMT)
  • 「By extrapolating from the weights of an SFT model Mw and a further trained one M, EXPO enables directly obtaining a better-aligned model without any additional training.」という手法の提案。とてもシンプルに外装しているように見え、なんでこんなんでうごくんや。
  • リポジトリはGitHub – chujiezheng/LLM-Extrapolation: Official repository for paper “Weak-to-Strong Extrapolation Expedites Alignment”

JetMoE: Reaching Llama2 Performance with 0.1M Dollars

  • JetMoE: Reaching Llama2 Performance with 0.1M Dollars [25.3]
    このレポートでは、JetMoE-8Bという新しい大規模言語モデルを紹介します。 低コストにもかかわらず、JetMoE-8BはLlama2-7Bモデルより優れ、JetMoE-8B-ChatはLlama2-13B-Chatモデルより優れていた。 本報告では,すべてのトレーニングパラメータとデータ混合物について詳述し,オープンファンデーションモデルの開発における今後の取り組みを促進する。
    論文  参考訳(メタデータ)   (Thu, 11 Apr 2024 00:52:39 GMT)
  • 安価(といっても「$0.1 million, using 1.25T tokens from carefully mixed open-source corpora and 30,000 H100 GPU hours.」)でLLMを構築するレシピの提案
  • リポジトリはmyshell-ai/JetMoE: Reaching LLaMA2 Performance with 0.1M Dollars (github.com)

Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length

  • Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length [112.8]
    文脈長無制限の効率的なシーケンスモデリングのためのニューラルネットワークであるMegalodonを紹介する。 Llama2と比較して、Megalodonは70億のパラメータと2兆のトレーニングトークンのスケールでTransformerよりも効率が良い。
    論文  参考訳(メタデータ)   (Fri, 12 Apr 2024 20:28:14 GMT)
  • Transformerより効率が良いとする構造の提案。MEGA (exponential moving average with gated attention)を継承。同規模のLlama2より性能がよさそうで驚き。
  • リポジトリはXuezheMax/megalodon: Reference implementation of Megalodon 7B model (github.com)

Rho-1: Not All Tokens Are What You Need

  • Rho-1: Not All Tokens Are What You Need [132.3]
    「コーパス内のトークンはすべて、言語モデルトレーニングに等しく重要ではない」 Rho-1 は選択言語モデリング (SLM) を採用しており、所望の分布に合わせて有用なトークンを選択的に訓練する。 15B OpenWebMathコーパスで継続事前トレーニングを行うと、Rho-1は9つの数学タスクで最大30%のショット精度で絶対的に改善する。
    論文  参考訳(メタデータ)   (Thu, 11 Apr 2024 17:52:01 GMT)
  • 「Selective Language Modeling (SLM), which selectively trains on useful tokens that aligned with the desired distribution.」によって最終性能が上がるという報告。高品質(所望の)ドキュメントで参照モデルを構築し、その結果を利用してトークンを選択するアプローチのよう。
  • リポジトリはmicrosoft/rho: Token-level Data Filtering & Selective Pretraining of LLMs. (github.com)

PEFTのサーベイ

  • Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey [57.5]
    Efficient Fine-Tuning (PEFT) は、様々な下流タスクに対して大きなモデルを効率的に適応することで、実用的なソリューションを提供する。 PEFTは、事前訓練された大規模モデルのパラメータを調整して特定のタスクに適応させ、追加のパラメータや計算リソースの数を最小限にするプロセスを指す。 この調査は、PEFTアルゴリズムとそのシステム実装の両方を理解することを目的とした研究者にとって必須のリソースであり、最近の進歩と実用化に関する詳細な知見を提供する。
    論文  参考訳(メタデータ)   (Thu, 21 Mar 2024 17:55:50 GMT)
  • PEFTのサーベイ
  • 非常に多くの研究成果が出ている領域であり、ほんとうにありがたい

PERL: Parameter Efficient Reinforcement Learning

  • PERL: Parameter Efficient Reinforcement Learning from Human Feedback [27.7]
    RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の好みを結びつける強力な手法であることが証明されている。 本稿では,Huらによって導入されたLoRA(Lo-Rank Adaptation)のパラメータ効率向上手法を用いて,基礎となるモデルを学習するRLHFについて検討する。 PERLは従来のRLHF設定と同等に動作し、高速かつ少ないメモリでトレーニングを行う。
    論文  参考訳(メタデータ)   (Fri, 15 Mar 2024 21:43:46 GMT)
  • LoRA(Lo-Rank Adaptation)+Reinforcement Learning from Human Feedback (RLHF)、「Through extensive experiments on various datasets, we have shown that this method achieves comparable results to conventional RLHF, for which all the model parameters are tuned, while reducing memory usage by approx 50%, and speeding up the training by up to 90% for the Reward Model training, and more modest memory savings of 20%, and speed-up of 10% in the RL loop.」とのことで効果的のよう。広範な実験がされており非常に参考になる。
  • 👍と👎で評価された「Taskmaster/TM-4-2024 at master · google-research-datasets/Taskmaster · GitHub」「Taskmaster/TM-3-2020 at master · google-research-datasets/Taskmaster · GitHub」という2つのデータセットが公開されている。