LLaMA-Adapter

  • LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention [53.8]
    命令追従モデルにLLaMAを効率よく微調整する方法であるLLaMA-Adapterを提案する。 LLaMA-Adapterは52Kの自己命令型デモを使用して、凍結したLLaMA 7Bモデルに1.2Mの学習可能なパラメータを導入している。 効率的なトレーニングにより、LLaMA-Adapterは、完全に微調整された7Bパラメータを持つAlpacaに匹敵する高品質な応答を生成する。
    論文  参考訳(メタデータ)   (Tue, 28 Mar 2023 17:59:12 GMT)
  • その名の通りLLaMAへのAdapter、1.2Mパラメータと極めて少ないパラメータのチューニングのみで完全なfine tuningに相当とのこと
  • リポジトリはGitHub – ZrrSkywalker/LLaMA-Adapter: Fine-tuning LLaMA to follow instructions within 1 Hour and 1.2M Parameters

LLMの時代に効率のよい調整はどうあるべきかはとても大事、だがweightを変更可能かは悩ましい時代かもとも思う。GitHub – txsun1997/Black-Box-Tuning: ICML’2022: Black-Box Tuning for Language-Model-as-a-Service & EMNLP’2022: BBTv2: Towards a Gradient-Free Future with Large Language Modelsとかにも注目していたり。

CoLT5

  • CoLT5: Faster Long-Range Transformers with Conditional Computation [48.5]
    我々は、CoLT5がLongT5よりもはるかに高速なトレーニングと推論でパフォーマンスを実現していることを示す。 CoLT5は、非常に長い入力を効果的に、かつ、トラクタブルに利用でき、64kまでの入力長が強い。
    論文  参考訳(メタデータ)   (Fri, 17 Mar 2023 03:28:17 GMT)
  • 最大64kトークンに対応できる手法の提案、SCROLLSベンチマークでSOTA