- Language Contamination Explains the Cross-lingual Capabilities of English Pretrained Models [79.4]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。 これにより、大規模なデータセットで数十億の外国語トークンが生成される。 そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) 参考訳(全文) (Sun, 17 Apr 2022 23:56:54 GMT)- 英語で事前学習された事前学習モデルが他の言語でも有効なことがある理由をデータのコンタミによるものであると指摘した論文。
- クローリング結果の言語を統一するクレンジングは困難で妥当な内容と思う。(とはいえ&完全否定されているわけではないが)言語間でも共通な構造みたいなものを捉えていて欲しかった気もする。