- CoLT5: Faster Long-Range Transformers with Conditional Computation [48.5]
我々は、CoLT5がLongT5よりもはるかに高速なトレーニングと推論でパフォーマンスを実現していることを示す。 CoLT5は、非常に長い入力を効果的に、かつ、トラクタブルに利用でき、64kまでの入力長が強い。
論文 参考訳(メタデータ) (Fri, 17 Mar 2023 03:28:17 GMT) - 最大64kトークンに対応できる手法の提案、SCROLLSベンチマークでSOTA