コンテンツへスキップ
- Merge to Learn: Efficiently Adding Skills to Language Models with Model Merging [102.2]
汎用言語モデルを新しいスキルに適用することは、現在、高価なプロセスである。 既存のモデルに新たなスキルを付加する効果について,新たなスキルを単独で訓練し,その後一般モデルとマージすることによって検討した。
論文 参考訳(メタデータ) (Wed, 16 Oct 2024 18:23:50 GMT)
- 「As training datasets targeting new skills are constructed, it is an open question how best to patch preexisting models to incorporate the new skills represented by those datasets.」という状況での「continued finetuning (CFT) 」、「retraining (RT)」、「parallel train then merge (PTM)」の比較
- 「We find that PTM is an efficient and effective method of augmenting preexisting models, enabling the addition of new skills with a fraction of the compute required compared to other common methods.」と結論
- Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models [105.0]
我々は,MAETと命名された多言語能力抽出と伝達手法を提案する。 我々のキーとなる考え方は、大きな言語モデルから言語に依存しない能力に関する重みを分解し抽出することである。 実験結果から,MAETは高度能力の抽出と伝達を効果的に行うことができ,トレーニングベースライン法よりも優れることがわかった。
論文 参考訳(メタデータ) (Thu, 10 Oct 2024 11:23:18 GMT)
- 「Our key idea is to decompose and extract language-agnostic ability-related weights from LLMs, and transfer them across different languages by simple addition and subtraction operations without training.」という多言語能力の抽出とそのモデルマージ手法、MEAT: Multi-lingual Ability Extraction and Transfer approachを提案。「Our approach MAET achieves better performance than the competitive baseline methods (e g , continual pre-training and model merging with task vector) in multi-lingual complex reasoning tasks, including mathematical reasoning tasks and scientific reasoning tasks.」とのこと。
- リポジトリはhttps://github.com/RUCAIBox/MAET
- Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.4]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。 これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文 参考訳(メタデータ) (Wed, 14 Aug 2024 16:58:48 GMT)
- 最近、よく話題に上がるモデルマージに関するサーベイ