MultiEURLEX : ゼロショットマルチリンガルTranferのためのデータセット

  • MultiEURLEX — A multi-lingual and multi-label legal document classification dataset for zero-shot cross-lingual transfer [13.2]
    法律文書のトピック分類のための多言語データセットであるMulti-EURLEXを紹介する。 データセットは、正式に23言語に翻訳された65kの欧州連合(EU)の法律で構成され、EUROVOC分類の複数のラベルが注釈付けされている。 そこで、ある言語(ソース)の注釈付きトレーニング文書を利用して、別の言語(ターゲット)のドキュメントを分類します。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Sep 2021 12:52:55 GMT)
    • EUの法律とその翻訳文書を活用したデータセットを作成、マルチリンガルモデルを活用してゼロショットの対応が可能か検証するデータセットとしての活用を提案。いくつかの手法を試しておりfine-tuningの効率化を狙ったadaptation strategies(https://arxiv.org/abs/1902.00751など)が多言語をゼロショットで転送する場合にも有効としている。
    • リポジトリはhttps://github.com/nlpaueb/multi-eurlex
    • マルチリンガルなゼロショットは非常に面白く実社会に対する影響が大きい(達成されると言語の壁が無くなる)ので、このようなデータセットが整備されるのは重要だと思う。adapterが効果的に機能するという報告も興味深い。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です