- A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models [53.9]
大規模言語モデル(PLM)はメモリフットプリントと計算の点で非効率である。 PLMはデータセットバイアスに頼り、アウト・オブ・ディストリビューション(OOD)データへの一般化に苦慮する傾向にある。 最近の研究では、高密度PLMは、性能を損なうことなくスパースサブネットに置き換えることができることが示されている。
論文 参考訳(メタデータ) (Tue, 11 Oct 2022 07:26:34 GMT)- BERTを対象として、データセットバイアスに対してスパースかつロバストなサブネットワークが存在するとの報告。
- リポジトリはllyx97/sparse-and-robust-PLM: [NeurIPS 2022] “A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models”, Yuanxin Liu, Fandong Meng, Zheng Lin, Jiangnan Li, Peng Fu, Yanan Cao, Weiping Wang, Jie Zhou (github.com)