RetNet: Retentive Network

  • Retentive Network: A Successor to Transformer for Large Language Models [91.7]
    大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。 理論的には、再発と注意の関係を導出する。 言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
    論文  参考訳(メタデータ)   (Mon, 17 Jul 2023 16:40:01 GMT)
  • Transformerより効率的なネットワークの提案。今までも多くの構造が提案されてきているが、6.7Bと比較的大規模での実証がされており有望そう。
  • プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です