RetNet: Retentive Network – arXiv最新論文の紹介

Retentive Network: A Successor to Transformer for Large Language Models [91.7]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。理論的には、再発と注意の関係を導出する。言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文参考訳（メタデータ） (Mon, 17 Jul 2023 16:40:01 GMT)
Transformerより効率的なネットワークの提案。今までも多くの構造が提案されてきているが、6.7Bと比較的大規模での実証がされており有望そう。
プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

コメントを残す

コメントを残す コメントをキャンセル