コンテンツへスキップ
- A Survey on Memory-Efficient Large-Scale Model Training in AI for Science [20.3]
この調査は、生物学、医学、化学、気象学などの科学分野にまたがる応用をレビューする。 本稿では,変圧器アーキテクチャに基づく大規模言語モデル(LLM)のメモリ効率トレーニング手法について概説する。 予測精度を保ちながら,メモリ最適化手法がストレージ需要を削減できることを実証する。
論文 参考訳(メタデータ) (Tue, 21 Jan 2025 03:06:30 GMT)
- 科学への応用にフォーカスしたMemory Efficientなモデルのサーベイ
- 「Using AlphaFold 2 as an example, we demonstrate how tailored memory optimization methods can reduce storage needs while preserving prediction accuracy.」という内容も。
- Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [79.0]
BabyLM Challengeは、人間と計算言語学習者のデータ効率ギャップを埋めるためのコミュニティの取り組みである。 参加者は1億ワード以下の固定言語データ予算で、言語モデルトレーニングを最適化するために競争する。
論文 参考訳(メタデータ) (Fri, 06 Dec 2024 16:06:08 GMT)
- 「Participants could submit to a 10M-word text-only track, a 100Mword text-only track, and/or a 100M-word and image multimodal track.」というデータを制限したコンペの結果
- 「With 31 submissions from 17 countries, the challenge revealed several key insights: innovations in model architecture, training objectives, and dataset construction proved particularly effective, with GPT-BERT, a hybrid causalmasked language model architecture, emerging as the strongest approach for the Strict and StrictSmall tracks.」とのこと
- On Efficient Variants of Segment Anything Model: A Survey [63.1]
Segment Anything Model (SAM) は画像分割タスクの基本モデルであり、多様なアプリケーションにまたがる強力な一般化で知られている。 これを解決するために、精度を犠牲にすることなく効率を高めるために様々なSAM変種が提案されている。 この調査は、これらの効率的なSAM変種に関する最初の包括的なレビューを提供する。
論文 参考訳(メタデータ) (Mon, 07 Oct 2024 11:59:54 GMT)
- SAMのサーベイ
- 効率化を主体としたものとはいえこれだけの変種があるのに驚き。。
- JetMoE: Reaching Llama2 Performance with 0.1M Dollars [25.3]
このレポートでは、JetMoE-8Bという新しい大規模言語モデルを紹介します。 低コストにもかかわらず、JetMoE-8BはLlama2-7Bモデルより優れ、JetMoE-8B-ChatはLlama2-13B-Chatモデルより優れていた。 本報告では,すべてのトレーニングパラメータとデータ混合物について詳述し,オープンファンデーションモデルの開発における今後の取り組みを促進する。
論文 参考訳(メタデータ) (Thu, 11 Apr 2024 00:52:39 GMT)
- 安価(といっても「$0.1 million, using 1.25T tokens from carefully mixed open-source corpora and 30,000 H100 GPU hours.」)でLLMを構築するレシピの提案
- リポジトリはmyshell-ai/JetMoE: Reaching LLaMA2 Performance with 0.1M Dollars (github.com)
- Rho-1: Not All Tokens Are What You Need [132.3]
「コーパス内のトークンはすべて、言語モデルトレーニングに等しく重要ではない」 Rho-1 は選択言語モデリング (SLM) を採用しており、所望の分布に合わせて有用なトークンを選択的に訓練する。 15B OpenWebMathコーパスで継続事前トレーニングを行うと、Rho-1は9つの数学タスクで最大30%のショット精度で絶対的に改善する。
論文 参考訳(メタデータ) (Thu, 11 Apr 2024 17:52:01 GMT)
- 「Selective Language Modeling (SLM), which selectively trains on useful tokens that aligned with the desired distribution.」によって最終性能が上がるという報告。高品質(所望の)ドキュメントで参照モデルを構築し、その結果を利用してトークンを選択するアプローチのよう。
- リポジトリはmicrosoft/rho: Token-level Data Filtering & Selective Pretraining of LLMs. (github.com)
- Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey [57.5]
Efficient Fine-Tuning (PEFT) は、様々な下流タスクに対して大きなモデルを効率的に適応することで、実用的なソリューションを提供する。 PEFTは、事前訓練された大規模モデルのパラメータを調整して特定のタスクに適応させ、追加のパラメータや計算リソースの数を最小限にするプロセスを指す。 この調査は、PEFTアルゴリズムとそのシステム実装の両方を理解することを目的とした研究者にとって必須のリソースであり、最近の進歩と実用化に関する詳細な知見を提供する。
論文 参考訳(メタデータ) (Thu, 21 Mar 2024 17:55:50 GMT)
- PEFTのサーベイ
- 非常に多くの研究成果が出ている領域であり、ほんとうにありがたい
- PERL: Parameter Efficient Reinforcement Learning from Human Feedback [27.7]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の好みを結びつける強力な手法であることが証明されている。 本稿では,Huらによって導入されたLoRA(Lo-Rank Adaptation)のパラメータ効率向上手法を用いて,基礎となるモデルを学習するRLHFについて検討する。 PERLは従来のRLHF設定と同等に動作し、高速かつ少ないメモリでトレーニングを行う。
論文 参考訳(メタデータ) (Fri, 15 Mar 2024 21:43:46 GMT)
- LoRA(Lo-Rank Adaptation)+Reinforcement Learning from Human Feedback (RLHF)、「Through extensive experiments on various datasets, we have shown that this method achieves comparable results to conventional RLHF, for which all the model parameters are tuned, while reducing memory usage by approx 50%, and speeding up the training by up to 90% for the Reward Model training, and more modest memory savings of 20%, and speed-up of 10% in the RL loop.」とのことで効果的のよう。広範な実験がされており非常に参考になる。
- 👍と👎で評価された「Taskmaster/TM-4-2024 at master · google-research-datasets/Taskmaster · GitHub」「Taskmaster/TM-3-2020 at master · google-research-datasets/Taskmaster · GitHub」という2つのデータセットが公開されている。