- Unlimiformer: Long-Range Transformers with Unlimited Length Input [74.5]
Unlimiformerはすべてのレイヤの注意をひとつの$k$-nearest-neighborインデックスにオフロードする。 BookSumデータセットから350kのトークン長の入力を、テスト時に入力トランケーションなしでまとめることができる。
論文 参考訳(メタデータ) (Tue, 2 May 2023 17:35:08 GMT) - 長文を扱えるTransformer、Unlimiformerという名前が凄い
- 仕組み上バックボーンには様々なモデルが使えそう。でもこれで○○formerと名乗ってよいかは謎。(有用そうであることは確か)
- リポジトリはGitHub – abertsch72/unlimiformer: Public repo for the preprint “Unlimiformer: Long-Range Transformers with Unlimited Length Input”