- MDAPT: Multilingual Domain Adaptive Pretraining in a Single Model [17.6]
一つの多言語ドメイン固有モデルが一般的な多言語モデルより優れていることを示す。 本稿では,言語モデルがドメイン固有かつ多言語的になるような事前学習コーパスを構成するための様々な手法を提案する。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 14 Sep 2021 11:50:26 GMT)- 金融やバイオなどあるドメイン固有の処理を行う多言語モデルを構築する場合、多言語ドメイン固有な事前学習(アダプト)を行うことが有効とした論文。様々なパターンで性能比較が行われており参考になる。(各言語のモデルを構築せずとも)固有ドメイン・多言語の統一モデルに意義があるとされているのが興味深い。
- リポジトリはhttps://github.com/RasmusKaer/mDAPT_supplements、https://github.com/mahartmann/mdapt