- Expanding Pretrained Models to Thousands More Languages via Lexicon-based Adaptation [133.7]
我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調した。 3つのタスクにまたがる19の非表現言語に対して、我々の手法は、それぞれ追加のモノリンガルテキストによる最大5点と15点の改善をもたらす。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 17 Mar 2022 16:48:22 GMT)- リソースの少ない言語への自然言語処理適用に関する報告。世界に存在する約7000言語のうちmBERTは1%程度、Wikipedia/Common Crawlは4%程度しかカバーできていない(聖書でも23%)。この論文では70%をカバー可能なバイリンガル辞書や語彙集を用いて低リソースな言語の自然言語処理を行えるとのこと。
- リポジトリはGitHub – cindyxinyiwang/expand-via-lexicon-based-adaptation: Code for ACL 2022 paper “Expanding Pretrained Models to Thousands More Languages via Lexicon-based Adaptation”