Self-attentionは重要でない？ – arXiv最新論文の紹介

Pay Attention to MLPs [84.5]
gMLP はキー言語やアプリケーションで Transformer と同等に動作可能であることを示す。我々の比較では、gMLPが同じ精度を達成できるため、ビジョントランスフォーマーには自己注意が重要でないことが示されている。一般的な実験では、gMLPはデータと計算量を増やして、Transformerと同様にスケール可能である。
論文参考訳（メタデータ） (Mon, 17 May 2021 17:55:04 GMT)
- 「Are Pre-trained Convolutions Better than Pre-trained Transformers? （このBlogの記事）」と似たような話だが、一定規模・計算量があればTransformerだからという優位性はないのかも。

コメントを残す

コメントを残す コメントをキャンセル