RetNet: Retentive Network

  • Retentive Network: A Successor to Transformer for Large Language Models [91.7]
    大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。 理論的には、再発と注意の関係を導出する。 言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
    論文  参考訳(メタデータ)   (Mon, 17 Jul 2023 16:40:01 GMT)
  • Transformerより効率的なネットワークの提案。今までも多くの構造が提案されてきているが、6.7Bと比較的大規模での実証がされており有望そう。
  • プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

AlpaGasus: Training A Better Alpaca with Fewer Data

  • AlpaGasus: Training A Better Alpaca with Fewer Data [106.9]
    52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを紹介する。 AlpaGasus は、複数のテストセットで GPT-4 で評価されたオリジナルの Alpaca を著しく上回っている。 また、5.7倍高速な訓練も提供し、7B型の訓練時間を80分(アルパカ用)から14分に短縮した。
    論文  参考訳(メタデータ)   (Mon, 17 Jul 2023 17:59:40 GMT)
  • LLMを用いてinstruction-finetuning用データを高品質化、品質の高い少数データの利用が有効だったという報告。instruction-finetuningのデータ品質の重要性は他の論文でも指摘されており(ゆえにRLHFが有効という話もあり)参考になる。
  • プロジェクトサイトはAlpaGasus: Training a Better Alpaca with Fewer Data (lichang-chen.github.io)