- A Survey on Long Text Modeling with Transformers [33.9]
本稿では,Transformerモデルに基づく長文モデリングの最近の進歩について概説する。 長さ制限を満たすために長い入力を処理し、改良されたTransformerアーキテクチャを設計する方法について論じる。 本稿では,長文モデリングに関わる4つの典型的な応用について述べるとともに,今後の方向性を議論する。
論文 参考訳(メタデータ) (Tue, 28 Feb 2023 11:34:30 GMT) - 長文モデリングに関するサーベイ。近年の研究成果で緩和されている部分も大きいが以前重要なテーマ。
- 対象としている典型的な応用はテキスト要約、質問応答、テキスト分類、テキストマッチングの4つ。
日: 2023年3月17日
SMC-Bench
- Sparsity May Cry: Let Us Fail (Current) Sparse Neural Networks Together! [100.2]
Sparsity May Cry”ベンチマーク(SMC-Bench)は、慎重に計算された4つのタスクと10のデータセットのコレクションである。 SMC-Benchは、よりスケーラブルで一般化可能なスパースアルゴリズムの開発を奨励するように設計されている。
論文 参考訳(メタデータ) (Fri, 3 Mar 2023 18:47:21 GMT) - sparse neural network評価用のベンチマーク。難しいタスクを選ぶことで性能がより正確に測れそう。(というか簡単なタスクだとよくわからない)
- リポジトリはGitHub – VITA-Group/SMC-Bench: [ICLR 2023] “Sparsity May Cry: Let Us Fail (Current) Sparse Neural Networks Together!” Shiwei Liu, Tianlong Chen, Zhenyu Zhang, Xuxi Chen, Tianjin Huang, AJAY KUMAR JAISWAL, Zhangyang Wang