コンテンツへスキップ
- MultiEURLEX — A multi-lingual and multi-label legal document classification dataset for zero-shot cross-lingual transfer [13.2]
法律文書のトピック分類のための多言語データセットであるMulti-EURLEXを紹介する。 データセットは、正式に23言語に翻訳された65kの欧州連合(EU)の法律で構成され、EUROVOC分類の複数のラベルが注釈付けされている。 そこで、ある言語(ソース)の注釈付きトレーニング文書を利用して、別の言語(ターゲット)のドキュメントを分類します。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 2 Sep 2021 12:52:55 GMT)- EUの法律とその翻訳文書を活用したデータセットを作成、マルチリンガルモデルを活用してゼロショットの対応が可能か検証するデータセットとしての活用を提案。いくつかの手法を試しておりfine-tuningの効率化を狙ったadaptation strategies(https://arxiv.org/abs/1902.00751など)が多言語をゼロショットで転送する場合にも有効としている。