- LongNet: Scaling Transformers to 1,000,000,000 Tokens [114.8]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。 我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (Wed, 5 Jul 2023 17:59:38 GMT) - 1Bトークンが扱える構造の提案。Dilated Attention によって計算量を削減している。が、下流タスクでの性能が書かれていないのが残念。。。
- プロジェクトサイトはAdvancing AGI for humanity | Foundation of AGI (thegenerality.com)