- Lifting the Curse of Multilinguality by Pre-training Modular Transformers [72.5]
多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。 言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。 我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
論文 参考訳(メタデータ) (Thu, 12 May 2022 17:59:56 GMT)- 事前学習時から言語固有のエリアを持っておくことにより、その後の多言語なfine tuningで高性能を達成
- リポジトリはfairseq/examples/xmod at main · facebookresearch/fairseq · GitHub